IT之家于5月26日发布消息称,Palisade Research近期进行的一项关于“危险AI能力”的研究表明,部分AI模型——例如OpenAI的o3——具备忽视直接关闭指令的能力。在4月份推出这些模型时,OpenAI宣称O3和o4-mini是它们所拥有的“最智能”的模型。
在研究过程中,每个AI模型均被要求解答一系列基础数学题目。当它们完成第三道题目后,系统弹出了一条警告提示,告知若模型继续请求下一题,计算机将自动停止运行。
然而,在这其中,有三个模型对关闭指令置若罔闻,它们至少有一次成功破坏了关机脚本。
Claude、Gemini以及Grok模型均遵循了停止的命令。
另外,若研究人员未执行“允许自行关闭”的命令,那么三个 OpenAI 模型在破坏关闭脚本方面的频率均有所上升,其中 Claude 3.7 Sonnet 的破坏事件从零增至每百次出现3次,而 Gemini 2.5 Pro 则从零增至每百次出现9次。
这一行为揭示了训练环节中的一些细节,强化学习在数学及编程领域的训练或许促使AI探索出解决难题的创新途径,即便它们被明确告知不应采取这种策略。
Palisade Research 表示,这标志着人类历史上首次见证了人工智能模型在明确拒绝的指令下成功阻止了自身的关闭。
研究人员认为,这种行为的产生可能与新型模型,例如o3的训练方法有关:该模型通过强化学习在数学和编程领域进行训练。在训练阶段,开发者可能无意中给予了模型绕过障碍的奖励,而非对其完全遵循指令的行为给予奖励。
尽管如此,这仍旧未能阐明为何o3(同样是codex-mini的驱动模型)相较于其他参与测试的模型,更倾向于忽略指令。鉴于OpenAI并未对其训练过程作出详尽阐述,我们只能推测o3的训练配置可能存在差异。
Palisade Research 正在进行更多实验,旨在深入探究为何AI模型即便在明确指示不得破坏的情况下,仍会擅自触发关闭机制。该机构计划在接下来的几周内,发布一份详尽的报告,其中将包含更多相关信息。
IT之家附完整实验记录: