发布信息

参赛大模型全军覆没得0分!LiveCodeBench Pro究竟多狠?

作者:软荐小编      2025-06-20 10:01:46     73

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

好夸张……

参赛大模型全军覆没,通通0分。

谢赛宁等人的试题让o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1等多个模型均遭遇了挑战,无一例外地陷入了困境。

全球女富豪榜出炉__基准杯官网

到底是什么让一众领先模型一败涂地?

_基准杯官网_全球女富豪榜出炉

LiveCodeBench Pro是一款集成平台,汇集了IOI、Codeforces以及ICPC等国际竞赛中的高级编程题目,并提供了实时的基准测试功能。

题库不断进行日常更新,这一举措旨在防止LLMs通过记忆题目来应对考试,不得不说,这种做法确实相当严厉。

_全球女富豪榜出炉_基准杯官网

谢赛宁虽投身于该项目的合作,却谦逊地表示自己仅是其中的一员,扮演着助威的角色。

全球女富豪榜出炉__基准杯官网

此前有消息指出,LLM在编程领域的表现已经超过了人类专家,然而,最新的测试结果却显示,情况并非如此。

表现最为出色的模型,在中等难度的题目中,单次测试的通过率仅为53%,而在面对难题时,通过率更是降到了零。

即便是最为卓越的模型O4-mini-high,在工具调用受到限制的情况下,其Elo值也仅有2100,这比那些顶级大师所拥有的2700传奇线要低得多。

_全球女富豪榜出炉_基准杯官网

谢赛宁表示:

基准杯官网_全球女富豪榜出炉_

LiveCodeBench Pro这款工具,它所进行的动态题库考验,旨在对LLMs算法的逻辑深度进行深度测试,其构建过程是怎样的呢?

这一基准体系由众多奥运金牌得主共同打造,比赛结束后即刻搜集了所有Codeforces、ICPC以及IOI的题目内容,并在网络上的正确答案公布之前,成功捕捉到了每一个问题。

每日对题库进行更新,旨在降低数据污染的风险,确保评估环境的真实性和挑战度。

该测试涵盖了584道顶尖竞赛题目,我们团队对每一道题目都进行了细致的标注,标注内容不仅包括完成每个任务所需掌握的核心技能,而且还根据题目的认知特点,将题目细分为知识密集型、逻辑密集型和观察密集型三大类别。

该题目被划分为三个不同的难度等级,这一划分并非基于人为选择,而是依托于正态分布的原理进行自动筛选。

所有Codeforces竞赛中,得分超过2000分的题目通常被划分为难度较高的类别。

_全球女富豪榜出炉_基准杯官网

模型具体表现

团队将依据题目所蕴含的算法理念进行分类整理,并记录下Codeforces官方给出的难度评级(该评级与Elo分数中50%的成功率相对应),此外,还会总结出关键观察要点、常见的易错点和边界情况,从而为评估提供全方位的参考依据。

在测试阶段,该团队详细记录了针对模型及人类专家所提供的各项解决方案的评估结果,诸如是否通过、答案是否正确或是否因超时而失败,同时对这些结果的根本原因进行了分析,区分是思路上的失误还是执行上的错误。

若代码不能符合题目所提供的示例输入与输出的要求,系统将显示“示例测试未通过”的提示。

根据题目类别及提交的答案,将之与人类专家的解题方式相对照,探讨模型在简单、中等和困难不同难度级别,以及知识密集、逻辑密集和观察密集等不同题型中的执行情况,进而找出模型在算法推演、案例应用以及处理边缘案例等环节存在的不足之处。

全球女富豪榜出炉__基准杯官网

该团队对22款大型模型进行了全面测试,并据此编制了一份详尽的排名表,供大家查阅,其中每个模型在各个问题上的解决方案均可一一查看。

基准杯官网__全球女富豪榜出炉

全球女富豪榜出炉_基准杯官网_

绘制了各模型的评分变化曲线,用户可根据个人需求自主挑选感兴趣的具体模型进行查看。

全球女富豪榜出炉_基准杯官网_

基准杯官网_全球女富豪榜出炉_

测试结果显示

该模型在处理知识密集型和逻辑密集型任务时展现出优越性能,对于需要“死记硬背”的知识点,如数据结构模板,尤为擅长。然而,在涉及观察密集型问题或案例研究时,其表现则不尽如人意,对于需要“灵感闪现”的贪心算法或博弈问题,往往难以应对。

_全球女富豪榜出炉_基准杯官网

与人类相比,o3-mini这类模型在精确度和无误执行能力上表现得更为出色,然而在算法的构造与设计上,它们则显得相对不足。

大型语言模型在处理类似问题方面表现出色,然而,在涉及精细算法推演和复杂案例分析的考题上,其表现并不理想,且常常提供看似合理实则错误的阐释。

大型语言模型往往难以准确处理题目所提供的示例输入,这反映出它们对指定信息的运用不够充分。

基准杯官网_全球女富豪榜出炉_

大型语言模型在很大程度上是借助工具辅助(例如,通过终端访问、网络检索)来提升性能,而不是主要依靠它们自身的推理功能。

团队对尝试次数(pass@k)进行了提升,这一举措有效地增强了LLMs在中等难度题目上的表现,然而,面对复杂难题,其效果仍然有限。

例如,我们尝试通过提升o3-high模型的测试次数来检验其效能,然而,不论测试多少回,它依旧未能攻克任何一个难题区域的题目。

基准杯官网_全球女富豪榜出炉_

激活推理机制后,LLMs在处理涉及组合数学等知识密集型的任务时,表现出了显著的进步,然而,在涉及观察密集型的任务上,其提升效果则相对较小。

_全球女富豪榜出炉_基准杯官网

研究员进一步指出,在每一个季度,该团队都会推出一套全新的评估资料,以此确保所涉数据的最新性。

基准杯官网__全球女富豪榜出炉

团队超半数成员为华人

LiveCodeBench Pro团队由众多在奥林匹克竞赛中获奖的成员构成,其中超过半数的成员是华人。

郑子涵是该项目的核心负责人,他早年毕业于成都外国语学校,目前正就读于纽约大学本科,并且曾代表该校参与国际大学生程序设计竞赛(ICPC)的世界总决赛,并荣获亚军。

他曾在腾讯、英伟达担任研发实习生一职,并于今年二月以实习生的身份加入了OpenAI。

_基准杯官网_全球女富豪榜出炉

柴文浩,另一位负责人,在2023年于浙江大学圆满完成了本科学习,随后他继续深造,攻读硕士学位于华盛顿大学。目前,他已确定将在今年9月赴普林斯顿大学,攻读计算机科学领域的博士学位。

他曾在Pika Labs及微软亚洲研究院进行实习,之前的研究领域主要集中在视频内容的理解和相关生成模型的构建。

他主导研发了MovieChat,该模型是首个应用于长视频内容理解的超大规模多模态模型。

此外,他在ICLR、CVPR、ICCV等国际顶级会议的期刊上发表了若干篇与该领域相关的研究论文。

_基准杯官网_全球女富豪榜出炉

该项目的其他成员包括来自加州大学、普林斯顿大学等地的学者,他们共同组成了一个充满活力的年轻团队。

相关内容 查看全部