发布信息

香港科技大学为何浩然等推出EvoSearch,如何定义视觉领域Test-Time Scaling?

作者:软荐小编      2025-06-11 15:01:56     204

图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_

论文的首位作者是为何浩然,他目前就读于香港科技大学,是二年级的博士生。他的研究兴趣涵盖了强化学习、生成流模型(GFlowNets)以及具身智能等领域。此外,该论文的通讯作者则是香港科技大学电子与计算机工程系、计算机科学与工程系的助理教授潘玲。

在测试阶段,通过扩展技术显著增强了大型语言模型的效能,催生了包括OpenAI的o系列模型和DeepSeek的R1在内的众多热门产品。那么,在视觉领域,test-time scaling又指的是什么?又是如何对其进行界定呢?

为解答此问题,香港科技大学携手快手可灵团队近期推出了Evolutionary Search(EvoSearch)技术。此方法通过增加推理阶段的计算量,显著增强了模型的生成效果。它不仅适用于图像生成,还支持视频生成,并且兼容了当前最前沿的基于diffusion和flow的模型。EvoSearch无需经过训练,也不需要梯度更新,就能在众多任务中实现显著的最优表现,同时展现出出色的扩展性、稳定性和广泛适用性。

在视频生成领域,Wan 1.3B 的表现甚至超越了 Wan 14B 和 Hunyuan 13B,这一成就凸显了test-time scaling在补充training-time scaling方面的巨大潜力以及广阔的研究前景。

目前,该项目的论文和代码均已开源。

_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_

我们来看 EvoSearch 与其他一些方法的效果对比:

_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

1.Test-Time Scaling 的本质

团队对测试时的扩展性调整以及RL后训练过程进行了区分,明确指出前者不涉及参数的更新,而后者则需借助额外的计算资源来完成后续训练。本质上,无论是测试时的扩展性调整还是RL后训练,目的都是为了唤醒预训练模型的能力,并使其更符合人类的偏好或奖励机制。给定一个预训练模型和奖励函数,目的是拟合如下的目标分布:

图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_

该归一化常数的计算需对整个状态空间进行扫描,然而,由于diffusion和flow模型的状态空间均为高维结构,这种做法变得难以实现。此外,这也使得直接从目标分布中进行采样变得不可行。

2. 当前方法的局限性

尽管类似 RL 的后训练技术能够从目标分布中进行采样,然而,它必须构建数据并调用大量计算资源来重新调整模型参数,这导致成本高昂且难以实现规模化扩展。在视觉研究范畴内,目前应用最广泛的test-time scaling技术之一是Best-of-N,该方法通过运用重要性采样(importance Sampling)对目标分布进行采样拟合。具体操作是,Best-of-N会随机选取多个样本,然后从中挑选出奖励值最高的N个样本。在运用扩散模型和流模型进行图像与视频生成工作时,Best-of-N 选取的样本往往以初始噪声为基础。

近期的研究成果推出了更为先进的采样技术,这一技术统称为粒子采样。该方法将搜索范围扩大至整个去噪路径,并在去噪环节持续保留优质的样本,同时淘汰表现不佳的样本,其原理与beam search相似。这类方法虽然能够展现其扩展规模的特点,然而却缺乏深入探索全新状态空间的能力,同时也会导致生成的样本在多样性方面有所降低。

团队进行了一项小规模实验,发现当设定的目标分布与预训练时的分布不匹配,尤其是出现极端情况时(即o.o.d.),基于学习机制的强化学习(RL)算法往往会出现奖励过优化的情况。即便采用best-of-N或粒子采样等高级搜索策略,也难以全面捕捉到目标分布中的所有模式。该团队采用的EvoSearch策略成功地对目标分布进行了适配,同时实现了最高的奖励数值。

图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式__图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

3. EvoSearch 解读

团队将图像与视频测试阶段的缩放问题,转化为了一个演化搜索的挑战。

图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_

图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_

EvoSearch 框架图

团队的研究灵感来源于以下认识:他们在去噪的全过程中观察到,优质样本常常呈现出群聚现象。因此,一旦寻找到优质的父代样本,便能在其周边区域展开搜索,以高效地发现更多优质样本。通过下方的图表,我们可以观察到去噪轨迹中的样本在低维空间中的分布与奖励空间之间存在着紧密的联系。

图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式__图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

基于此,团队设计了如下两种变异模式:

_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

这些变异手段不仅增强了对新状态空间的探索能力,而且还能防止偏离原本用于去噪的预训练分布。

我们设定了演化搜索的evolution schedule以及population size schedule,这两种安排的具体设置需根据实际可用的测试计算资源量来确定。

_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

EvoSearch 算法伪代码如下:

图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式__图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式__图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

4.EvoSearch 实验结果

在执行图片生成任务时,EvoSearch 在 Stable Diffusion 2.1 和 Flux.1-dev 这两个平台上,展现出了卓越的扩展能力。即便是在计算量增加至原来的 1e4 倍的情况下,其性能提升的趋势依然未减。在视频生成这一任务上,EvoSearch即便是在VBench、VBench2.0以及VideoGen-eval的prompts上,同样实现了最大的reward提升效果。

_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

EvoSearch具备将泛化能力扩展至未见过的评估指标的能力,这体现了其卓越的泛化性能和强大的鲁棒性。

图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_

EvoSearch在人类评估环节同样取得了最佳胜率。这一成就主要归功于其出色的生成多样性,它巧妙地协调了探索与利用之间的关系。

图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_

4. 下面是更多的可视化结果:

_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式_图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式__图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

相关内容 查看全部