该研究出自北京大学智能学院贺笛教授领导的课题组,以及蚂蚁集团武威团队。贺笛教授在机器学习领域取得了显著成就,荣获了包括2023年ICLR杰出论文奖和2024年ICLR杰出论文奖提名在内的多项荣誉。
扩散模型在图像生成这一领域近年来取得了显著进展,其输出的图像在品质与多样性上均表现出令人难以置信的水平。这一现象不禁让人深思:这种高效的生成方法是否有可能被应用于文本生成,进而对现行的自回归语言模型构成挑战,甚至实现超越?扩散型语言模型因其能够并行生成多个词元的能力,似乎预示着文本生成领域将迎来一场效率的变革。但这一景象是否真的如人们所期待的那样美好?最新的研究结果显示,这一前景并非一目了然,答案并非非“是”即“否”,在某些特定的场景中,结果甚至可能与预期完全相反。
扩散模型 vs. 自回归:效率神话面临拷问
自回归模型在语言生成领域占据主流地位,其显著特点是按照逐词元的顺序进行生成。尽管它在生成质量上取得了显著成就,然而,其内在的串行结构却对推理速度造成了限制,尤其是在处理较长的序列时。相对而言,在扩散语言模型领域,尤其是掩码扩散模型(Masked Diffusion Models, MDMs)这一分支,它能够在每个扩散阶段同时选取多个词元进行采样,这在理论层面上为提高生成速度带来了新的可能性。
然而,尽管理论层面存在优势,实践中却似乎遇到了所谓的“效率悖论”。研究人员发现,在部分任务中,开源的扩散语言模型需要更多的采样步骤才能实现与自回归模型相当的准确度,进而导致其推理成本显著高于自回归模型。这一现象在实验中得到了验证。图中清晰呈现了这一情况:在数学推理的基准测试GSM8K(8次采样)中,与同样规模的自主回归模型Qwen2.5-7B相较,新近推出的两大掩码扩散模型Dream-v0-7B与LLaDA-8B,在多个采样步数的测试中,其表现与效率均不及自回归基准,位于左图所示第三象限(该象限表示较低的效率和性能)。
考虑到不同模型在训练过程中可能采纳了差异化的数据集,研究者们认识到这一点可能会在性能评估中引入固有的偏差。为了抵消这一因素带来的干扰,研究团队精心设计了一项更为公正、客观的对比实验:他们选取了一个预先训练好的扩散语言模型,并强制要求该模型在推理过程中必须遵循从左至右的逐词生成策略,将这种基于“伪自回归”的解码性能和效率作为评估标准,进而重新进行了对比研究。在理论上,若能消除训练数据中的差异,相较于伪自回归解码方法,扩散语言模型本应在效率与性能的平衡上更为出色,其表现本应达到第一象限。但实验结果显示,出人意料的是——即便与受限的模型相比,扩散语言模型也未显现出明显优势,未能同时达到更高的生成效率和更佳的输出质量。
图 1 展示了 MDMs 在 GSM8K (8-shot) 任务中的性能,包括效率和准确率。(左侧图表)对比了 MDMs 与 Qwen2.5-7B 的性能差异。(右侧图表)则展示了 MDMs 与其自回归式解码性能的对比。
这些研究结果引发了一个核心疑问:“离散扩散模型是否真的具备超越自回归模型的权衡优势,即在确保生成内容质量的同时,能否实现更高的效率?”这正是本次新研究力图揭示的关键所在。
北大团队新研究:拨开迷雾,关键在评估指标
对于上述的疑问,研究团队进行了深入的理论探讨。他们的研究旨在对一种广泛应用的模型——掩码扩散模型(MDM)进行严谨的理论研究,目的是为了探究观测到的效率限制是否是其内在的不足。
该研究的核心观点指出,在对比扩散模型与自回归模型之优劣时,“得出的结论在很大程度上受到所选用评估标准的制约”。研究小组运用了两种相互补充的评估标准,旨在对MDM的性能进行全方位的评估:
词元错误率(TER)这一指标,用于衡量词元层面的精确度,其通常与文本生成的流畅性紧密相连。在具体应用中,困惑度(Perplexity)常被用作评估语言模型在词元层面出现错误的指标。因此,在论文中,TER 是通过困惑度来定义的。一般来说,TER 值越低,表明模型生成的文本越流畅、越连贯。
序列正确性比率(SER):此指标用于衡量序列整体的准确性,对于那些要求序列在逻辑上必须完全无误的推理任务(例如,解决数学难题、编写代码)来说,显得尤为关键。
研究团队起初对扩散语言模型进行了效率评估,该评估以词元错误率(TER)作为核心指标,主要关注文本生成的流畅性与连贯性。他们证实,当追求接近最优的困惑度时,MDM能够在与序列长度无关的固定采样步数中达成这一目标。换句话说,为了实现所期望的困惑度,MDM所需的采样步数并非随着序列长度的延长而增加,而保持为一个固定值。这一点与自回归模型形成了显著差异,因为后者必须重复执行与序列长度相同的次数才能完整生成序列。因此,在生成长篇流畅文本等任务上,MDM展现出明显的效率优势。
这一现象在一定程度上可以说明,为什么MDM在GSM8K这类数学推理基准测试中未能取得理想成绩(如图1所示)。数学推理的每一步都需要精确无误,而SER与MDM在解决数学问题时对准确性的要求极高,因为思维链条中的任何错误都可能导致最终答案的错误。因此,MDM 在这样的数学推理任务中难以展现出效率上的优势,这一现象正是我们观察到的实验结果所揭示的。
研究团队不仅对理论进行了分析,还在若干形式语言中对这些理论成果进行了验证,具体可见图 2。实验数据再次表明,在词元错误率层面,MDM 显现出更高的效率;但若以序列错误率作为评估标准,MDM 的表现则不及 AR 模型。
图 2 展示了 MDMs 在形式语言方面的特征。(左侧)描绘了 MDMs 的困惑程度与采样步数之间的关联。(右侧)则呈现了 MDMs 的序列错误率与采样步数之间的关系。
结论:扩散语言模型,何时才是更优选?
那么,我们需重新审视最初的问题:扩散语言模型是否真的比自回归模型更具优势?研究结果表明,这取决于具体情况,关键在于采用何种标准进行评估。基于该研究的理论剖析与实验成效,我们向实践者们提出以下建议:
在任务优先考虑文本生成流畅度与高效率,同时可以接受一定程度的序列不精确性,比如在创作长篇创意内容时,整体的可读性和连贯性往往超越单句的绝对准确性,在这些特定情境中,扩散型语言模型能够充分发挥其效率上的优势。然而,在序列级别的精确度和逻辑严谨性被赋予了极高的标准时,扩散语言模型为了实现低SER,所需的采样步数会随着序列长度的增加而呈线性上升,这一现象抵消了它原本可能具备的并行处理效率优势,甚至有可能因为每一步计算的成本更高而变得更为缓慢。在这种情境下,自回归模型反而成为了更为合适的选择。
该研究为深入认识MDM的相对优势和不足打下了首个稳固的理论基石。然而,研究团队也坦诚地指出了目前研究存在的不足,比如分析主要集中于形式语言层面,未来有必要将其研究范围拓展至更为复杂的现代大型语言模型;此外,分析主要聚焦于掩码扩散模型,而其他类型的扩散模型的表现尚需进一步探究。
总体来看,图像生成领域内扩散技术的显著成就,并不代表其优势可以无障碍、直接地迁移至语言领域。语言本身的离散性和序列特性,带来了与众不同的挑战,这要求我们进行更为深入和具有针对性的分析。本研究凭借其严谨的理论基础和明确的实验结果,向我们展示了扩散语言模型在效率与质量之间的权衡所存在的复杂性,为该领域的发展贡献了宝贵的理性见解。在部署旨在实现特定目标的模型时,深刻认识这种权衡对成本管控和用户满意度极为关键,不当的决策可能引发用户体验的下降或造成计算资源的无谓浪费。实际上,并不存在一个适用于所有情况的“最佳”模型,而是应根据具体任务和评估标准来选择最合适的模型。