发布信息

谷歌DeepMind团队与布朗大学为视频生成模型开发新技术

作者:软荐小编      2025-06-04 21:01:52     209

IT之家于6月4日传来消息,科技媒体The Decoder在6月3日发布了一篇博文,文中提到谷歌DeepMind团队与布朗大学合作,共同研发了一种名为“力提示”的技术,用于视频生成模型。这项技术能够在不依赖3D模型或物理引擎的前提下,创造出令人信服的运动效果。

用户只需明确力的作用方向与力度大小,便能够控制由AI生成的视频内容。这项技术能够支持全局力的应用,例如模拟风穿越整个画面的效果,以及局部力的运用,比如对画面中特定点的敲击。这些力被以矢量场的形式输入系统,进而被转换成自然且连贯的动作。

_谷歌DeepMind联合开发力提示技术,AI视频可模拟真实运动_谷歌DeepMind联合开发力提示技术,AI视频可模拟真实运动

研究团队依托CogVideoX-5B-I2V视频模型,引入ControlNet模块对物理控制数据进行处理,借助Transformer架构生成视频内容,每段视频由49帧组成,仅需4台Nvidia A100 GPU在一天内即可完成训练。

谷歌DeepMind联合开发力提示技术,AI视频可模拟真实运动_谷歌DeepMind联合开发力提示技术,AI视频可模拟真实运动_

训练数据均为虚构生成:其中,全局力数据涵盖了1.5万段旗帜在各类风力中飘扬的视频;而局部力数据则包括1.2万段滚动球体的动作以及1.1万段花朵受到冲击后的反应视频。

谷歌DeepMind联合开发力提示技术,AI视频可模拟真实运动__谷歌DeepMind联合开发力提示技术,AI视频可模拟真实运动

在生成文本的过程中,一旦文本描述中融入了“风”或“气泡”等物理概念,模型便能自动构建准确的力与运动之间的联系。在这个过程中,训练样本会融合文本提示、初始图像以及物理力信息,其中全局力表现为完整的矢量场,而局部力则包括动态变化的方向、位置和强度。此外,为了提升多样性,还会通过随机调整背景、光线和视角等元素。

谷歌DeepMind联合开发力提示技术,AI视频可模拟真实运动__谷歌DeepMind联合开发力提示技术,AI视频可模拟真实运动

即便训练所用的数据不多,该模型依然表现出了卓越的推广能力,它能够应对新的物体、材料以及场景的变化,甚至能够理解和运用基本的物理规律,比如在相同的力作用下,轻质物体移动的距离通常会比重质物体更远。

谷歌DeepMind联合开发力提示技术,AI视频可模拟真实运动__谷歌DeepMind联合开发力提示技术,AI视频可模拟真实运动

在用户测试环节,我们发现“力提示”技术在运动匹配度和真实感方面均超越了纯文本或运动路径控制的基准模型,甚至在一些方面超过了依赖真实物理模拟的PhysDreamer(尽管在图像质量上略有不足)。不过,在复杂场景下,该技术仍存在一些不足,比如烟雾有时会忽略风力的影响,而人体手臂的移动有时又像布料一样。

DeepMind的CEO Demis Hassabis最近指出,新一代AI视频模型,例如Veo 3,正逐渐掌握物理规律,不再仅限于处理文本或图像,而是开始描绘世界的物理形态。他坚信,这标志着通往更广泛AI的重要进展,未来的AI或许将不再仅仅依赖数据,而是能够在模拟环境中通过经验进行学习。

相关内容 查看全部