发布信息

2025年5月腾讯混元团队重大成果:多模态驱动定制化视频生成架构

作者:软荐小编      2025-05-11 09:01:51     94

视频框架是啥_视频框架模板素材_

2025年5月,Tencent Hunyuan团队发布了一个重要的研究结果 - “ Hunyuancustom:定制视频生成的多模式驱动架构”。这项研究发表在ARXIV预印本平台(ARXIV:2505.04512V2)上,代表了视频生成领域的重要突破,所有代码和模型都已在官方网站上发布。

1。为什么我们需要“定制”视频生成?

想象一下,您是一个广告制作人,需要为新产品拍摄广告。传统的方式需要大量时间和金钱来雇用演员,租用工作室和购买昂贵的设备。尽管今天的AI视频生成技术取得了长足的进步,但它仍然面临一个关键问题:如何使生成的视频更准确地满足我们的需求?

就像一个可以制作美味菜肴但无法准确控制菜肴的每个细节的厨师,例如咸味,辛辣,口味等。现有的视频生成模型就像厨师一样,尽管能够制作视频,但很难控制视频中的细节,尤其是当您希望特定角色或对象出现在视频中时。

Tencent Hunyuan团队的这项研究致力于解决这个问题。他们开发的Hunyuancustom系统就像厨师一样,可以根据您的确切要求调整所有细节。根据您提供的图片,音频,视频剪辑和文本说明,它可以生成一个自定义的视频,以满足您的要求并保持角色一致性。

2。饥饿模型的“魔力”是什么?

Hunyuancustom的核心魔力是它可以同时处理多种不同类型的信息并将它们融合在一起以生成高质量和主题一致的视频的能力。这就像一位多才多艺的导演,可以同时了解剧本,演员特征,音乐情感和背景场景,并和谐地融合他们以制作完美的电影。

具体而言,这个“多功能导演”具有以下优势:

首先,Hunyuancustom可以通过基于Llava的文本图像融合模块实现文本和图像之间的互动理解。想象一下,当您向普通人展示一张猫的照片,并告诉他“制作猫在海滩上玩的视频”时,该人需要了解照片中猫的特征(皮草色彩,身体形状等)以及文本描述中的场景要求(海滩,播放动作)。 Hunyuancustom通过此模块实现了类似的理解能力。

其次,研究团队设计了一个图像ID增强模块,该模块可以沿时间轴连接图像信息,并利用视频模型在时间序列信息传输中的效率以有效提高视频中ID的一致性。这就像导演确保整部电影中同一演员的化妆,服装和表演风格是一致的,并且不会突然改变。

第三,为了实现音频驱动的视频自定义,该团队提出了Audionet模块,该模块通过空间交叉注意机制实现了层次结构,以便可以将生成的视频与输入音频完美同步。这就像确保演员的嘴唇和动作与配音完美匹配,使整个表演看起来自然而光滑。

最后,对于视频驱动的视频定制,Hunyuancustom设计了一个视频条件注射模块,以基于块细分的特征对齐网络整合了潜在的压缩条件视频。这就像重新解释现有视频,保留其动作和场景,但要取代主角或对象。

3。创新数据处理:准备“原材料”

在烹饪中,成分的质量决定了最后一道菜的味道。同样,在AI模型培训中,数据质量也直接影响模型的性能。 Hunyuancustom团队非常重视数据处理,并设计了严格的数据处理过程。

他们的数据源不同,包括自己收集的数据和开源数据集(例如OpenHumanVid)。为了确保数据质量,团队进行了多次过滤和处理:

首先,他们使用Pyscenedect工具将原始视频分为单镜头片段,以避免视频中的镜头转换,就像厨师仔细选择每种成分以确保没有缺陷一样。

Then, they used textbpn-plus-plus technology to filter out video clips containing a lot of text and crop videos with subtitles, watermarks and logos, just like a chef will remove unnecessary parts of the ingredients and retain only the most essence.

考虑到视频尺寸和持续时间的不均匀分布,团队进行了作物和对齐方式,将短边缘归一化为512或720像素,并将视频长度限制在5秒钟(129帧)上,就像将成分切成均匀的大小,以便在烹饪时均匀地加热。

为了确保审美质量,运动和场景亮度的振幅,团队使用Koala-36M型号进行进一步的筛选,将其数据集特定于其数据集的阈值设置为0.06,就像厨师对配料的最后一轮检查一样,以确保只能使用最优质的优质成分来烹饪。

在提取主题方面,团队设计了一种特殊的算法:对于角色主题,他们使用Qwen7b模型来标记视频中的所有主题并提取其ID,然后使用Yolo11x进行分割,以获取边界框,并使用Insightface来检测面部位置。对于非个人主题,他们使用QWENVL从视频中提取主题关键字,并使用schoolingsam2生成面具和边界框。

对于音频数据处理,团队使用Latentync评估音频和视频之间的同步,丢弃视频的同步信心少于3分,并将音频和视频偏移调整为零。同时,他们计算了HyperIQA质量得分,并以低于40的成绩删除了视频,以确保数据的高质量。

这一系列精心设计的数据处理步骤,例如厨师在烹饪前的详细准备工作,为随后的模型培训奠定了坚实的基础。

4.如何在Hunyuancustom中实现图像驱动的视频自定义?

图像驱动的视频自定义是Hunyuancustom的核心特征,就像基于照片的“将静态角色进入生活中的“将静态角色”带入视频中一样。可以将这个过程与画家将静态肖像变成生动的动画电影的转变。

在此过程中,Hunyuancustom需要解决两个关键问题:一个是如何理解图像中人或对象的特征和身份信息;另一个是如何在生成的视频中始终如一地介绍这些特征。

为了解决第一个问题,Hunyuancustom采用了基于Llava的文本图像交互模块。这个模块就像是一个可以理解视觉和语言的翻译人员,并且可以通过文本说明有效地将视觉信息整合在一起。

具体来说,当给出一段文本输入t和图像输入i(图像对应于文本中的某些描述性词Ti)时,Hunyuancustom会设计一个模板来促进文本和图像之间的相互作用。研究团队探索了两个模板:一个是图像嵌入模板,该模板将文本中的描述性单词替换为图像标记(例如,对于文本提示“男人在弹吉他”,如果我们输入“男人”的身份图像,结果模板是“ a a是弹奏吉他”);另一个是图像附件模板,它通过添加标识提示符“ Ti看起来像”(例如,对于文本提示符“男人在弹吉他”,结果模板是“男人在弹吉他。男人看起来像”)。

处理后,图像标记将被Llava提取的24×24图像隐藏特征所取代。由于为了防止图像特征对文本理解过度影响,因此图像特征标记明显长于文本特征标记,研究团队在文本提示和图像提示之间插入了一个特殊标记。

,这有助于LLAVA模型在文本提示中保留信息,同时在文本提示和图像身份之间建立连接。

但是,作为多模式理解框架,LLAVA模型主要捕获文本和图像之间的相关性,提取高级语义信息,例如类别,颜色和形状,并且通常忽略了更多细微的细节,例如文本和纹理。在视频自定义中,身份在很大程度上取决于这些图像细节,因此仅依靠Llava分支不足以保持身份一致性。

为了解决这个问题,研究团队提出了一个身份增强模块。通过将潜在的视频表示与目标轴沿时间轴连接起来,并利用视频模型在时间维度中的有效信息传输能力,可以有效地增强视频的身份一致性。

具体来说,它们首先调整图像大小以匹配视频框架大小,然后使用预训练的因果3DVAE将图像I从图像空间映射到潜在空间。使用图像潜在表示ZI和噪声视频潜在表示ZT,它们将它们沿第一个序列维度连接起来,以获得新的潜在表示Z = {Zi,Zt}。在时间序列建模中,使用预先训练的Hunyuan视频的强大先验,可以在时间表上有效地传播身份。

对于多主体自定义,基于训练有素的单个主体自定义模型,对Hunyucustom进行了更微调,以适应多主体自定义任务。当有多个条件图像{i1,i2,...,im}时,每个图像具有相应的文本描述{ti,1,ti,2,...,...,ti,m},对于每个图像,它们被模板为“ ti,k看起来像”,并使用lllava模型来模型文本相关。此外,为了增强图像身份,所有图像均编码到潜在空间中,以获取图像潜在表示{zi,1,zi,2,...,...,Zi,m},然后连接到视频潜在表示。为了区分不同的身份图像,为KTH图像分配了与3D绳相关的时间索引-K。

这样,Hunyuancustom可以生成符合文本描述并保持图像身份一致性的视频,就像导演可以根据照片和脚本准确恢复特征和故事情节的导演一样。

5。多模式视频生成:音频和视频的神奇融合

除了基于图像的视频自定义外,Hunyuancustom还可以接受音频和视频作为输入条件,以实现更丰富的创意可能性。这就像一个全能的导演,他不仅可以理解脚本和照片,而且还可以根据音乐和视频剪辑来创建。

在音频驱动的视频自定义方面,传统音频驱动的人类动画方法通常使用字符图像和音频作为输入,以使图像中的字符说相应的语音。但是,此图像到视频范式导致生成视频中字符的姿势,服装和环境与输入图像一致,从而限制了在不同姿势,服装和环境中生成目标角色视频的能力。

Hunyuancustom通过有效捕获和维护角色身份信息,实现更灵活和可控制的语音驱动数字生命生成,进一步整合了音频输入。具体而言,给定字符映像,文本提示和相应的音频,系统可以生成一个视频,其中字符在文本描述的场景中说话,播放或唱歌。

为了有效地解除音频信号和身份信息,Hunyucustom提出了脱钩Audionet的标识。考虑到身份信息主要是通过文本模式(通过LLAVA)注入的,并沿着潜在的时间维度进行了标记连接,Audionet采用了另一种条件机制,以避免与身份提示纠缠。

具体而言,给定F框架的音频和视频序列,首先为每个音频框架提取音频功能,以获得大小f'×4×C的张量,其中4表示每个音频框架的标记数。由于视频潜在表示会在通过VAE到f帧的时间压缩(F = F'/4 + 1,其中1对应于未压缩的初始帧,而4是时间压缩率),因此包含ID增强的视频潜在表示标识图像包含F + 1帧。为了及时将音频功能与压缩视频潜在表示,首先在匹配初始框架(F+1)×4帧之前填充音频功能,然后将每个连续4个连续的音频帧聚合到单个帧中,以形成一个新的音频功能张量张量FA,该FA与视频潜在表示临时对齐。

使用时间对齐的音频功能FA,Hunyuancustom使用交叉注意模块将音频信息注入视频潜在表示ZT。为了防止在不同帧中的音频和视频之间的帧间干扰,它采用了空间跨注意机制,以按框架进行音频注入。

在视频驱动的视频自定义方面,视频编辑是一项基本任务,通常涉及在视频中修改主题的外观和动作。 Hunyuancustom利用其强大的主题一致性来支持主题级的编辑,例如更换和插入。

视频包含丰富的时空信息,这些信息在有效的内容提取和有效整合到生成模型中提出了挑战。现有的方法,例如VACE,通过适配器模块注入视频条件,这使计算成本翻了一番,并严重限制了效率。其他方法将有条件的视频和沿时间轴的生成视频的潜在表示连接,从而导致序列长度两倍,并且注意力计算的次要增长。

为了克服这些局限性,Hunyuancustom采用了更有效的视频注入策略,将视频信息与图像和音频模式脱离。具体而言,它首先使用预训练的因果3D-VAE来压缩有条件的视频,将结果特征与通过功能对齐方式对齐噪声视频潜在表示,然后直接将对齐功能添加到视频潜在表示中,从而实现有效的,有效地整合了视频条件的情况,而不会影响大量的大量计算。

这些创新使HunyuCustom能够生成符合音频或视频条件并保持图像身份一致性的视频,从而扩展了视频自定义的应用程序范围和灵活性。

6。实验结果:Hunyuancustom如何执行?

为了评估Hunyancustom的性能,研究团队进行了广泛的实验,将其与现有的最新视频自定义方法进行了比较。这些实验就像一场大规模的烹饪竞赛。厨师(不同的型号)需要根据相同的要求(输入条件)制作美味的菜肴(生成视频),然后由专业法官(评估指标)判断结果。

在单身视频定制方面,Hunyuancustom与商业产品(Vidu 2.0,Keling 1.6,Pika和Hailuo)和开源方法(Skyreels-A2和VACE)进行了比较。实验结果表明,HunyuSustom在ID一致性(面部感染)和主题相似性(Dino-SIM)中都取得了最佳结果,并在迅速遵守和时间一致性方面取得了可比的结果。

具体而言,在面部感染指标中,Hunyuancustom得分为0.627,远高于第二名Hailuo的0.526;在Dino-SIM指标中,Hunyuancustom得分为0.593,这也明显优于其他方法。这表明Hunyuancustom在视频中角色或对象之间保持身份一致性方面非常出色。

在多主题视频自定义实验中,研究团队将Hunyancustom与领先的多主体视频自定义方法进行了比较。结果表明,皮卡可以产生一个指定的主题,但是视频框架不稳定,有时雄性消失了,或者女性无法按照提示打开门。 Vidu和Vace部分捕获了人类的身份,但失去了非人类物体的细节; Skyreels A2在正确的场景中经历了严重的框架不稳定,芯片和许多人工制品发生了明显变化。相比之下,饥饿有效地捕获了人类和非人类主题身份,由此产生的视频遵循了提示并保持高视觉质量和稳定性。

Hunyuancustom基于其强大的身份保留和多模式控制功能,在虚拟人类广告,虚拟的尝试和精细的视频编辑等实用应用中表现出巨大的潜力。例如,在虚拟人类广告应用中,HunyuancuSustom可以接受角色图像和产品图像作为输入来生成相应的广告视频,其中有效地维护了角色的身份,同时保留了目标产品的详细信息,包括其文本。此外,角色和产品之间的相互作用看起来很自然,并且视频紧随其后的提示,表明Hunyuancustom在生成广告视频中具有巨大的潜力。

在音频驱动的视频自定义实验中,Hunyuancustom展示了生成符合音频和文本条件的视频,同时保持角色身份一致性的能力。生成的视频遵循给定的提示,同时保持角色身份不变。它能够与其他主题(例如项目或角色)有效互动,这可以显着增强其在实时流和广告中的使用。此外,它还可以生成带有不同场景和姿势的视频,例如在明朝中设置的视频,在那里,角色会自动穿着没有明确提示的时期的衣服,以及具有生动,现实表达的女性与输入图像不同。这表明Hunyuancustom具有强大的世界建模和泛化能力。

总体而言,这些实验结果表明了Hunyuancustom在生成高质量,一致的身份视频(无论是单个主题还是多主题场景)以及音频和视频驱动的视频自定义任务中的出色表现。

7。模型结构的秘密:设计选择的智慧

Hunyuancustom的出色性能不仅来自其使用的数据和培训方法,还来自其精心设计的模型结构。通过消融研究,研究团队深入研究了饥饿的组件的作用,例如拆卸精确的机器以了解其内部操作。

研究团队进行了多次消融实验,并比较了模型的三个简化版本:(1)一个没有Llava的模型; (2)一个没有身份增强的模型; (3)使用通道级连接而不是时间连接以增强身份的模型。

结果表明,没有LLAVA的模型表现出较差的身份保留能力,这表明LLAVA不仅传达了提示信息,而且还提取了关键的身份特征。没有LLAVA的模型无法捕获目标图像中的任何重要细节。此外,具有LLAVA但缺乏身份增强的模型能够捕获全球身份信息,但错过了详细的身份特征,表明身份增强模块在完善身份细节中的有效性。

最后,使用通道连接而不是时间连接的模型表明发电质量差。尽管它很好地捕获了身份,但在初始框架中具有严重的模糊效果,类似于Vidu的结果。这表明时间连接有助于通过强大的时间建模先验有效地捕获目标信息,同时最大程度地减少对发电质量的影响。

总体而言,Hunyuancustom成功捕获了全球和本地身份的细节,同时确保了高发质量,这突出了设计选择的有效性。

8。结论:朝着更广泛的视频定制未来发展

在这项研究中,一种新型的多模式定制视频生成模型Tencent Hunyuancustom解决了主题一致的视频生成的关键挑战,并支持多模式身份中心中的视频自定义。通过将图像,音频和视频模式与文本驱动的条件机制相结合,Hunyuancustom为生成具有精确身份一致性的高质量视频提供了强大的框架。

Hunyuancustom的集成文本图像融合模块,图像ID增强模块以及有效的音频和视频功能注入过程可确保生成的视频满足用户的特定要求,并实现高保真度和灵活性的双重目标。通过广泛的实验,研究小组展示了Hunyuancustom在各种任务中的出色表现,包括单一和多主题一代,音频驱动和视频驱动的自定义。

结果表明,Hunyuancustom在ID一致性,真实性和视频文本对齐中优于现有方法,为受控视频定制提供了领先的解决方案。这项工作为在可控视频生成领域的未来研究铺平了道路,进一步扩大了AI生成的内容在创意行业和其他领域的潜在应用。

随着技术的持续发展,我们可以期待更多令人兴奋的应用程序场景:从个性化的广告制作,虚拟角色创建到电影制作中的特殊效果,Hunyuancustom等技术将极大地改变创造性内容的生产方式,因此,更多的创造力不再受技术和成本的限制。

对于那些对HunyuSustom技术详细信息感兴趣的人,您可以访问该项目的官方网站,以获取完整的代码和模型资源,并亲自体验这种突破性技术的魅力。

相关内容 查看全部