软件行业资讯

上海团队用强化学习让大模型突破专业围棋水平，打破思维‘黑盒’

 作者：软荐小编  2025-05-31 21:01:26  154

围棋建模_围棋实战中的棋形_

棋类竞技常常被视为人们窥见人工智能进展的途径，诸如30年前的“深蓝”电脑以及近10年的阿尔法狗（AlphaGO）。近期，上海的人工智能研究机构的一支科研队伍，通过强化学习技术，使得大型模型从毫无棋艺基础跃升至超越专业围棋水平。据职业棋手评估，目前这款名为“书生·思客”的模型，其棋力已达到职业3至5段的水准。

陈恺，上海人工智能实验室的青年科学家，指出大模型首次突破了围棋思维的“黑盒”限制。众所周知，围棋是一项复杂的任务，通常情况下，任务越复杂，通过语料库学习的机会就越小。这一突破为大模型在处理复杂推理任务方面打下了基础，同时也为解决科学发现等难题提供了可能。

在去年的世界人工智能盛会期间，上海人工智能实验室的主任兼首席科学家周伯文提出了“通专融合”这一大模型发展的技术路径。当时，这一理念尚难以被大众所透彻理解。然而，时至今日，“通专融合”的理念已迈出了重要的步伐——大模型现在能够通过与环境的互动和反馈，显著增强其在专业领域的执行能力。

打破“黑盒”，像人脑一样下围棋

2016年，阿尔法狗战胜了围棋界的顶尖高手李世石，这一壮举极大地改变了公众对人工智能的认知。然而，从当前的角度审视，阿尔法狗更像是专为围棋设计的专业工具，它的视野仅限于19乘19的棋盘，将全部的计算能力都集中在分析下一步棋该如何放置在361个可能的位置上，而且其思考的全过程都是在一个封闭的系统中进行的。陈恺表示，阿尔法狗下棋的方式让人难以捉摸，它偶尔能走出让人惊叹的“天外飞仙”般的棋局，然而，对于它为何能想出这样的高招，当时却无法给出合理的解释。

围棋实战中的棋形_围棋建模_

围棋实战中的棋形__围棋建模

书生·思客在面对李世石的“神之一手”时，谈吐中充满了诙谐与幽默，受访者透露。

若能攻克这一“黑盒”难题，便足以证明大模型的推理水平实现了质的飞跃。为此，上海人工智能实验室的青年研究员李林阳及其团队运用强化学习算法，为大模型打造了一座“加速训练营”，使其得以如同初学者般，去探索围棋的奥秘。他们通过评估模型的表现，与模型进行互动并给予反馈，促使模型不断进化。

经过反复的训练，大模型的棋艺水平显著提高。某日，我们惊喜地发现，其下棋胜率已从原先的30%飙升至70%。这一现象，我们称之为“智能涌现”，亦即人们常说的“啊哈时刻”。李林阳如此说道。

经过“加速训练营”的强化，该大模型的棋艺有了显著提升，并且成功揭开了围棋思维的神秘面纱。在对弈过程中，它能够以科学、直观的方式“讲解”自己的下棋思路，仿佛拥有了人脑般的围棋思维。此外，大模型的“语言”风格也极为丰富，当用户走出一手好棋时，它会给予积极的鼓励：“这一步棋极具力量，堪称‘以攻为守’的妙招。”当用户陷入不利境地，系统便会扮演“心灵导师”的角色，鼓励道：“只要应对策略得当，胜负仍未决出，一切仍有转机。”

探索大模型推理能力提升新范式

围棋领域内有一个专门的术语，称作“试应手”，其意在于通过走一步棋来观察对手的反应，并为接下来的棋局变化做好铺垫。从这个角度看，上海人工智能实验室近期取得的进展，可以视作是增强大型模型推理能力的“试应手”。李林阳认为，这一“试应手”并非旨在研发一个能够下棋的大型模型，而是要让模型通过与环境互动来提升自身能力，进而具备处理复杂问题的能力。

陈恺指出，这种方法在处理诸如科学任务等复杂问题时极具价值，特别是在科学领域，相关语料不仅数量有限，而且搜集起来颇为不易，这一状况也限制了科学专业大模型的持续优化。除了下围棋这项技能，“书生·思客”在奥赛级别的数学领域、科学概念的理解与推理、算法编程、棋类竞技以及智力谜题等多个专业领域均实现了同步的学习与进步。此外，在多任务混合的强化学习过程中，该系统还展现出了智能的“涌现时刻”。

大模型若掌握了处理复杂问题的策略，那么提出有意义的疑问就变得更加关键。来月，上海的人工智能研究机构计划举办首届明珠湖论坛，旨在发掘那些能够塑造人工智能未来走向的提问者，聚焦于那些对科学和未来产生深远影响的尖端研究领域。

“有组织科研”推动“通专融合”落地

在初步探索取得显著成效之后，我迅速向实验室提出了关于人员和算力的申请。得益于充足的人力资源和计算能力，项目的准确率迅速攀升，很快便超过了90%。李阳林表示，他在2023年以实习生的身份加入实验室，现在已经开始指导团队进行关于“通专融合”技术路径可行性的研究。

上海人工智能实验室的技术蓝图里，“通专结合”被视为通往通用人工智能（AGI）的关键途径。此途径的核心在于同时增强深度推理和领域泛化技能，确保模型不仅在众多复杂任务中表现出色，而且能在特定领域内达到专业水准。

陈恺强调，上海人工智能实验室正致力于通过“有组织的科研”活动，实现“通专融合”：首先，各研究团队确立了明确的主导研究方向，这有助于产生规模化的效应；其次，团队成员凭借其专业判断能力，能够迅速洞察技术发展的动向，进而快速产出创新成果。

在参与书生·思客项目的过程中，李阳林深刻体验到了实验室人才密集和科研资源充沛的特点。自2022年起，上海人工智能实验室与国内多所一流高校合作，共同推进博士生联合培养计划，至今已有约800名本科生及研究生通过联合培养博士项目加入实验室，其中不少人在AI细分专业领域表现突出。年轻人的不断加入和快速成长，正在推动更多“啊哈时刻”。

下一篇： 腾讯音乐斥资12.7亿收购SM股份，合作背后暗藏大想象
上一篇： 英国金融时报：OpenAI等美企或被低价对手超越

软件行业资讯

上海团队用强化学习让大模型突破专业围棋水平，打破思维‘黑盒’

相关内容查看全部 

美国团队开发可自

全球冰川加速消融

日本旅游必备！三

美团10亿美元入局

华为重磅推出7180

5月25日全国首座

美两大芯片EDA大

人的一生为何要有

甘肃彭玉江祁连山

2025（第三届）未

上海团队用强化学习让大模型突破专业围棋水平，打破思维‘黑盒’

相关内容 查看全部 

相关内容查看全部 