IT之家于6月14日传来消息,科技媒体9to5Mac在前一天(即6月13日)发表了一篇博文,文中提到苹果公司于6月6日公布的AI研究论文《The Illusion of Thinking》引起了广泛的争议,众多专家开始对论文中的评估方法提出质疑。
苹果在其论文中提到,即便是最尖端的大型推理模型(LRMs)在处理复杂任务时也可能出现崩溃现象。然而,Open Philanthropy的研究员Alex Lawsen对此提出了详尽的反驳意见,他主张苹果得出的结论是由于实验设计上的不足,而非模型推理能力的本质缺陷。
争议的焦点在于苹果公司的研究论文提出,即便是最为尖端的大型推理模型,在应对汉诺塔问题这类复杂任务时,也难免会遭遇完全失败的情形。
IT之家指出:汉诺塔难题系一经典递归算法问题,其中神明创设了三根柱子,并在最底层柱子上依次排列了N个大小不一的圆盘,这些圆盘从下至上依次减小,形成金字塔状。
移动圆盘时需遵循一条原则,即每次仅能移动最上层的圆盘,且必须确保在移动过程中,大圆盘不得置于小圆盘之上。若要将所有圆盘从第一根柱子成功移至第三根柱子,以下是一个可行的方案。
Open Philanthropy的研究员Alex Lawsen近期发表了一篇反驳性文章,名为《The Illusion of the Illusion of Thinking》。他在这篇文章中指出,苹果公司的研究成果实际上更多地揭示了实验设计上的不足,而非模型推理能力的本质局限。在文章中,他明确指出,苹果公司在研究中将输出限制与评估设置混淆,而这并非导致实际推理失败的原因。
Lawsen 提出了三个关键疑问,对苹果的观点提出了质疑。他首先指出,苹果未能注意到模型在 Token 预算方面的限制。在解决超过 8 盘的河内塔问题时,诸如 Anthropic 的 Claude Opus 这样的模型已逼近输出阈值,甚至明确声明“为节约 Token 而暂停”。
再者,在苹果公司的River Crossing测试中,存在一些无法解决的谜题,比如当有六个或更多角色参与,且船只的容量限制无法满足所有角色时,模型因未能找到解决方案而受到了扣分。
最终,苹果公司的自动化评估脚本仅依据详尽的步骤清单进行判断,未能有效区分推理过程中的失败与输出中断,因此,一些策略性的输出结果被错误地判定为失败。Lawsen 认为这种机械的评估方法并不公正。
为了佐证其论点,Lawsen 对河内塔问题进行了重新设计,规定模型需构建递归的 Lua 函数以展示解题过程,而不是逐个步骤地罗列出来。
令人震惊的是,Claude、Gemini 以及 OpenAI 的 o3 模型均成功生成了15个问题的算法解决方案,这一成就远超了苹果报告中提及的“零成功”的复杂度门槛。
Lawsen的研究表明,一旦消除了对输出的限制,长短期记忆模型(LRMs)在处理高度复杂任务时展现出出色的推理能力。这一发现暗示,问题可能并非出在模型本身,而是评估方法可能存在缺陷。