闻乐 发自 凹非寺
量子位 | 公众号 QbitAI
大模型做数独,总体正确率只有15%???
继首个携带着十篇完整学术论文亮相的“AI科学家”之后,Transformer的创作者Llion Jones携其创业企业Sakana AI再次引发关注,掀起了一阵新的风波。
此次,Sakana AI发布了针对AI模型在解决数独难题方面的性能排名榜单。
该公司推出的全新基准测试集Sudoku-Bench,涵盖了从基础4x4数独到高级9x9数独的各类问题,其目的是对大型模型的创新推理能力进行评估。
数据显示,大模型的总体准确率仅为15%,即便是在9×9的数独游戏中,即便是性能卓越的o3 Mini High模型,其准确率也仅有2.9%。
在2025年的NVIDIA GTC开发者大会上,Sudoku-Bench项目得到了展出。
NVIDIA首席执行官黄仁勋对此评价:
Sudoku-Bench全新基准测试
Sudoku-Bench,这是Sakana AI在三月推出的一个基准测试,由不同难度的数独题目构成,旨在评估人工智能在多层次和创造性推理方面的能力。
1、现有问题:大模型的 “记忆依赖症”
当前多数推理测试基准中存在一个问题:大型模型通常依赖对标准答案的记忆或既定模式的运用,而非实际运用其逻辑推理技能。
面对与训练集内相仿的问题,模型倾向于直接引用存储在记忆中的应对策略,而不是借助逻辑推理来寻找解决方案。
面对全新的规则或是未曾遇见的样式,模型常常难以妥善处理,这主要是因为它们缺少能够直接对应的学习范例。
对于大模型而言,传统的数独游戏或许显得过于简单,它们或许仅仅是记住了解题的固定模式,而非真正掌握了创新性地应对新问题的方法。
解决方案:Sudoku-Bench通过“变异数独”这一策略,成功地对大型模型进行了挑战。
近年来,各种各样具有独特规则的衍生谜题出现。
这类“变异数独”难题需经过多个步骤,并运用丰富的创造性推理能力,尽管如此,它们仅存在一个唯一的解法。其显著特征在于,答案无法仅凭记忆得出,而是必须通过一系列逻辑推理,逐步探寻到“关键点”。
这些特点使得“变异数独”成为测试AI推理能力的理想选择。
以下展示了一个“变异数独”的实例,你不仅要遵守原有的规则,还需按照彩色的线条来排列数字,同时这些数字还需满足额外的规定。
Sudoku-Bench基准涵盖了传统与现代的数独(包括变体数独)问题,这些问题的难度被细致分级,从当前模型能够轻松解决的简单题到即便是最尖端的推理模型也难以应对的极端难题。
Sudoku-Bench集成了Nikoli公司(一家知名于日本的数独游戏企业,数独游戏即源于该公司名称)精心制作的100道精选数独题目。
3、大模型的 “惨败”:基线实验结果
今年三月,该基准一经发布,研究人员便对一系列AI模型进行了测试,其中包括了Gemini 2.5 Pro、GPT-4.1以及Claude 3.7等业界领先的大型模型。
为了确保模型获得公正的竞争环境,研究团队向模型呈现了若干未完成的谜题,并对其解决这些谜题的能力进行了评价。
研究结果表明,诸多模型在得到这种辅助后表现不俗,尤其是关注到最后的两列数据。
即便是最尖端的模型,平均下来也无法容纳一个正确的数字,然而,OpenAI最新推出的推理模型GPT o3却独树一帜,成为了唯一能在基准测试中解答所有难题的存在。
最新的排行榜显示:
测试团队对模型在各个谜题上的具体表现进行了详尽的记录,对此感兴趣的朋友们可以点击文章结尾处的链接进行查阅。
关于Sakana AI
Sakana AI公司由前谷歌的科研人员Llion Jones(Transformer模型的共同创作者)与David Ha共同创立,成立于2023年7月的东京,专注于对生成文本与图像的AI基础模型进行深入研究。
在此之前,这家企业公开推出了人工智能科学家AI审稿人,该AI一亮相便独立完成了多达十篇完整的学术论文,这些论文涵盖了扩散模型领域,以及Transformer和强化学习等多个方面,由此引发了广泛的关注和热议。
后者擅长对AI所撰写的论文进行审阅,并给出优化建议,其特色在于运用“以己之长攻己之短”的策略。
该公司推出了名为“连续思维机器(CTM)”的全新人工智能模型,该模型模仿人类的思考方式,逐步探索并构建世界的内在结构。它不仅超越了基础的图案识别,而且具备了逐步攻克迷宫等复杂难题的能力。
Sakana AI与YouTube上最大的谜题评论频道之一Cracking The Cryptic建立了合作关系,该频道每日展示全球顶尖数独谜题的解题逻辑。
Sakana AI收集了视频的文字摘要以及答题环节中的行为信息。这些信息对于AI推理模型的训练而言是极佳的数据资源,并将与Sudoku-Bench一同对外公布。
知名的数独设计大师Marty Sears特别为Sakana AI打造了一款独特的数独游戏——“奇偶鱼”:在该游戏中,玩家需确保在Sakana AI的红色标识线附近,相邻的数字组合中必须同时包含一个偶数和一个奇数。
感兴趣的朋友可以尝试一下(解答过程已附在文末)~
技术文档链接:https://arxiv.org/abs/2505.16135
排行榜链接:https://pub.sakana.ai/sudoku/,请点击访问。
访问Sudoku-Bench项目,请点击以下链接:https://github.com/SakanaAI/Sudoku-Bench。
奇偶鱼游戏题目,请访问链接:https://sudokupad.app/wsj7iunsg6。
解答步骤可参考以下视频:https://www.youtube.com/watch?v=JdHSSNKuIzU,其中详细展示了如何进行解题。
此链接指向SakanaAILabs发布的内容,具体为状态更新,编号为1926905826465161629。
禁止访问该网址,请勿尝试进入。
— 完 —