软件行业资讯

DeepSeek论文发布后OpenAI计划有变：先推o3和o4 - Mini ，GPT - 5几个月后发布且效果超预期

 作者：软荐小编  2025-04-05 16:02:20  228

金磊发自凹非寺

量子位 | 公众号 QbitAI

有点意思。

DeepSeek 刚刚上新了一篇关于推理时 Scaling Law 的论文，这使得大家纷纷联想 R2 是否马上要来了。

然鹅……奥特曼这边却发了一条“变卦”的消息：

计划改变：我们可能在几周之后先发布o3和o4-mini。

2017年1月新番后官动漫__1500字左右的奥特曼论文

至于大家翘首以盼的GPT-5，奥特曼表示：

将在几个月之后，而且效果会比我们最初设想的还要好。

至于原因，奥特曼也做出了解释。

大概意思为，顺利地整合所有内容这件事，比他们原先想象的要困难许多。他们希望能够确保自己拥有足够的能力，以支持预期的需求。

_2017年1月新番后官动漫_1500字左右的奥特曼论文

现在的情况是，只要 DeepSeek 这边有一点动静，OpenAI 那边就必须得有相应的动作来紧跟其后。

DeepSeek新论文

这个小插曲过后，我们依然将目光聚焦于 DeepSeek 这篇新论文。

这篇论文名为 Inference-Time Scaling for Generalist Reward Modeling，是由 DeepSeek 与清华大学一同提出的。

_2017年1月新番后官动漫_1500字左右的奥特曼论文

这篇研究的核心亮点在于提出了一个名为 SPCT 方法（Self-Principled Critique Tuning）的方法。

首次提出可以通过在线强化学习（RL）来进行优化原则和批判生成，从而实现推理时的扩展。

做这么一项研究的原因是，之前大家在 RL 中是通过使用奖励模型（Reward Model, RM）来为大语言模型生成奖励信号的。

但现有的 RM 在通用领域的表现是受限的。它在面对复杂任务时受限，在面对多样化任务时也受限。

因此，就出现了两个关键挑战点。

一个是通用 RM 具备灵活性，它能够支持单响应和多响应评分；同时还具备准确性，能够在跨领域给予高质量奖励。

一个是现有 RM，像标量 RM 和半标量 RM 等，它们在推理时存在扩展性差的问题，并且不能通过增加计算资源来显著提升性能。

_1500字左右的奥特曼论文_2017年1月新番后官动漫

为了解决该问题，DeepSeek 提出了 SPCT，同时清华大学团队也提出了 SPCT。

_2017年1月新番后官动漫_1500字左右的奥特曼论文

整体来看，这项研究主要包含三大核心技术点。

首先就是生成式奖励模型（GRM）。

它使用点式生成奖励模型。这种模型通过生成文本形式的奖励，比如 critiques 等，而不是单一的标量值来工作。并且它能够支持灵活的输入，包括单响应和多响应，同时在推理时还可以进行扩展。

其中，生成了 critique 为 C，fextract 从其中提取分数。

接下来，是关键的SPCT了。

主要是利用在线强化学习（RL）来训练 GRM，这样它就能够动态地生成高质量的原则以及批判，进而提升奖励的质量。

整体来看，SPCT是一个两阶段的过程，它们分别是：

拒绝式微调（Rejective Fine-Tuning）

：冷启动阶段，通过采样和拒绝策略生成初始数据。

基于规则的在线RL

使用规则化的奖励函数进行优化，运用批判的生成方式，以此鼓励模型能够区分出最佳的响应。

在此基础上，便是第三个技术点，即推理时扩展技术。

首先通过多次采样来生成多样化的原则与批判。然后进行投票聚合，以此最终确定奖励。最后实现对奖励空间的扩展。

再训练一个辅助模型过滤低质量采样，进一步提升扩展效果。

基于上述的方法，团队也对结果做了一波测试。

在 Reward Bench 基准上，DeepSeek-GRM-27B 比基线方法（像 LLM-as-a-Judge 等）要显著优越。在 PPE 基准上，DeepSeek-GRM-27B 也优于基线方法。在 RMB 基准上，DeepSeek-GRM-27B 同样优于基线方法（如标量 RM）。并且，通过推理时扩展（32 次采样），DeepSeek-GRM-27B 的性能得到了进一步提升，比如在 Reward Bench 上，准确率从 86.0%提升到了 90.4%。

_2017年1月新番后官动漫_1500字左右的奥特曼论文

性能超越了训练时扩展。

One More Thing

奥特曼在发布“变卦”消息的同时，没有忘记给自己做宣传，说有两本书即将发布，并且这两本书是他亲自参与的。

一本是Keach Hagey写的关于奥特曼本人的书

一本是Ashlee Vance写的关于OpenAI的书

2017年1月新番后官动漫_1500字左右的奥特曼论文_

下一篇： 雅诗兰黛因隐瞒对中国灰色市场依赖面临美国法律挑战
上一篇： 密歇根大学突破助力电动汽车寒冷天气充电速度大幅提升

软件行业资讯

DeepSeek论文发布后OpenAI计划有变：先推o3和o4 - Mini ，GPT - 5几个月后发布且效果超预期

相关内容查看全部 

腾讯正式启动算法

英伟达CEO黄仁勋

100种常见林业有

REDMI K80至尊版

Sensor Tower 发

Meta 展开 AI 人

当地时间6月15日

万代南梦宫工作室

高纯工艺龙头至纯

AMD公布下一代AI

DeepSeek论文发布后OpenAI计划有变：先推o3和o4 - Mini ，GPT - 5几个月后发布且效果超预期

相关内容 查看全部 

相关内容查看全部 