金磊 发自 凹非寺
量子位 | 公众号 QbitAI
有点意思。
DeepSeek 刚刚上新了一篇关于推理时 Scaling Law 的论文,这使得大家纷纷联想 R2 是否马上要来了。
然鹅……奥特曼这边却发了一条“变卦”的消息:
计划改变:我们可能在几周之后先发布o3和o4-mini。
至于大家翘首以盼的GPT-5,奥特曼表示:
将在几个月之后,而且效果会比我们最初设想的还要好。
至于原因,奥特曼也做出了解释。
大概意思为,顺利地整合所有内容这件事,比他们原先想象的要困难许多。他们希望能够确保自己拥有足够的能力,以支持预期的需求。
现在的情况是,只要 DeepSeek 这边有一点动静,OpenAI 那边就必须得有相应的动作来紧跟其后。
DeepSeek新论文
这个小插曲过后,我们依然将目光聚焦于 DeepSeek 这篇新论文。
这篇论文名为 Inference-Time Scaling for Generalist Reward Modeling,是由 DeepSeek 与清华大学一同提出的。
这篇研究的核心亮点在于提出了一个名为 SPCT 方法(Self-Principled Critique Tuning)的方法。
首次提出可以通过在线强化学习(RL)来进行优化原则和批判生成,从而实现推理时的扩展。
做这么一项研究的原因是,之前大家在 RL 中是通过使用奖励模型(Reward Model, RM)来为大语言模型生成奖励信号的。
但现有的 RM 在通用领域的表现是受限的。它在面对复杂任务时受限,在面对多样化任务时也受限。
因此,就出现了两个关键挑战点。
一个是通用 RM 具备灵活性,它能够支持单响应和多响应评分;同时还具备准确性,能够在跨领域给予高质量奖励。
一个是现有 RM,像标量 RM 和半标量 RM 等,它们在推理时存在扩展性差的问题,并且不能通过增加计算资源来显著提升性能。
为了解决该问题,DeepSeek 提出了 SPCT,同时清华大学团队也提出了 SPCT。
整体来看,这项研究主要包含三大核心技术点。
首先就是生成式奖励模型(GRM)。
它使用点式生成奖励模型。这种模型通过生成文本形式的奖励,比如 critiques 等,而不是单一的标量值来工作。并且它能够支持灵活的输入,包括单响应和多响应,同时在推理时还可以进行扩展。
其中,生成了 critique 为 C,fextract 从其中提取分数。
接下来,是关键的SPCT了。
主要是利用在线强化学习(RL)来训练 GRM,这样它就能够动态地生成高质量的原则以及批判,进而提升奖励的质量。
整体来看,SPCT是一个两阶段的过程,它们分别是:
拒绝式微调(Rejective Fine-Tuning)
:冷启动阶段,通过采样和拒绝策略生成初始数据。
基于规则的在线RL
使用规则化的奖励函数进行优化,运用批判的生成方式,以此鼓励模型能够区分出最佳的响应。
在此基础上,便是第三个技术点,即推理时扩展技术。
首先通过多次采样来生成多样化的原则与批判。然后进行投票聚合,以此最终确定奖励。最后实现对奖励空间的扩展。
再训练一个辅助模型过滤低质量采样,进一步提升扩展效果。
基于上述的方法,团队也对结果做了一波测试。
在 Reward Bench 基准上,DeepSeek-GRM-27B 比基线方法(像 LLM-as-a-Judge 等)要显著优越。在 PPE 基准上,DeepSeek-GRM-27B 也优于基线方法。在 RMB 基准上,DeepSeek-GRM-27B 同样优于基线方法(如标量 RM)。并且,通过推理时扩展(32 次采样),DeepSeek-GRM-27B 的性能得到了进一步提升,比如在 Reward Bench 上,准确率从 86.0%提升到了 90.4%。
性能超越了训练时扩展。
One More Thing
奥特曼在发布“变卦”消息的同时,没有忘记给自己做宣传,说有两本书即将发布,并且这两本书是他亲自参与的。
一本是Keach Hagey写的关于奥特曼本人的书
一本是Ashlee Vance写的关于OpenAI的书