智东西
编译 王涵
编辑 漠影
智东西于5月27日发布消息称,据国外媒体Business Insider的报道,在今年的早些时候,巴黎举办的AI Action Summit会议上,meta公司首席人工智能科学家杨立昆(Yann LeCun)提出,尽管人工智能在众多领域已经表现出令人瞩目的能力,但它依旧未能掌握理解物理世界、保持长期记忆、进行逻辑推理以及实施分层规划这四大人类智能的基本特质。
VentureBeat此前报道称,科技行业领军企业们的举措验证了这一观点,他们已由原先的“修补漏洞”式改进转变为采用“世界模型”的架构创新,谷歌等公司更是将此纳入其战略规划之中。
这场对人工智能核心特性的探寻,不仅涉及技术层面的突破,而且指向了人机认知边界未来发展的趋势。
一、AI模型缺乏4个人类特征:理解、记忆、推理与规划
智能生命的共性究竟何在?在今年的早些时期,于巴黎举办的AI Action Summit会议上,图灵奖获得者、meta公司的首席人工智能科学家杨立昆,以及IBM公司的人工智能部门负责人安东尼·安农齐亚塔,共同探讨了他们对智能行为的基本界定。
所有动物——尤其是那些相对较为智慧的物种——普遍拥有四种关键的智能特质,人类自然也不例外,杨立昆如此说道;这些特质包括:对物理世界的认知、保持长久记忆、进行逻辑分析,以及制定并执行复杂的计划,尤其是能够进行层次分明的规划。
杨立昆指出,目前的人工智能(特别是大型语言模型)还未达到这一标准,若要实现这些功能,必须对训练方法进行革新。他阐述道,这正是科技巨头在人工智能竞赛中持续对现有模型进行修补的动机:为了深入理解物理世界,他们分别训练独立的视觉系统并将其强行嵌入到大型语言模型中;为了实现记忆功能,他们或者选择使用RAG(检索增强生成)技术,或者外接专门的关联记忆模块,亦或是直接扩大模型的整体规模。
meta首席AI科学家杨立昆(Yann LeCun)
二、“世界模型”构建抽象层级来理解物理世界
杨立昆明确指出,这些措施只是临时的解决办法。他一直力推的“世界模型”作为替代方案,它通过在现实场景中进行训练,拥有超越模式识别AI的认知能力。在与安农齐亚塔的交流中,他提出了新的解释:“在获取时间T的世界状态之后,设想可能采取的行动,世界模型便能够预测行动导致的新状态。”
现实世界中,演化的进程充满了无数难以预料的变数。杨立昆提出,唯一的训练方法就是进行抽象化处理。今年2月,meta公司开源了V-JEPA模型,并正在进行相关实验。该非生成式模型正通过预测视频中的缺失部分来积累经验。“重要的是,我们并不进行像素级的预测,而是训练系统去构建视频的抽象表征,在预测过程中自动排除那些不可预测的细节。”杨立昆这样阐述他的观点。
杨立昆指出,这种抽象层级的观念与化学物质构成体系相仿,我们构建了粒子、原子、分子到材料的层级结构,每一层都去除了与当前任务无关的下层信息。这种做法实际上是通过构建抽象层级来对物理世界进行理解的一种不同表达方式。
三、谷歌将“世界模型”与其短期策略紧密结合
同样地,在上周于硅谷举办的Google I/O 2025开发者论坛上,除了那些令人瞩目的创新功能外,谷歌还宣布了其计划,即开发一个适应AI时代的操作系统。这个系统具备理解物理环境的能力,并能代表人类进行推理和决策,被称作“世界模型”。
自2024年年底起,DeepMind的CEO德米斯·哈萨比斯一直在对“世界模型向通用AI助手转变”的理论框架进行优化。在最近的I/O大会上,CEO桑达尔·皮查伊以及Gemini项目的负责人乔希·伍德沃德共同站在了舞台上,共同表达了这一宏伟的愿景。相较于微软、OpenAI以及xAI对世界模型进行抽象性的探讨,谷歌独具匠心地将这一概念与自身的短期战略紧密融合在一起。
Gemini项目的主管人物,乔希·伍德沃德(其照片来源于谷歌I/O活动)。
若成功研发出能深刻理解物理环境的“通用AI助手”,谷歌有望成为连接用户、企业与技术的“无形操作系统”。对于致力于探索前沿AI技术的企业来说,借助谷歌的“世界模型”研究、多模态技术(例如I/O大会展示的Veo 3和Imagen 4)以及其AGI的发展路径,将开辟一条通往重大创新的途径。
结语:世界模型是AI大模型的未来
杨立昆所提出的AI四大能力差距不仅揭示了现有模型的不足,而且为技术突破指明了路径。科技巨头们的举措证实了这一观点:无论是meta借助V-JEPA模型来研究抽象表征的训练,还是谷歌将“世界模型”纳入操作系统层面的战略,其核心都在于重新构建AI与物理世界之间的交互模式。
这场竞争的深层次含义,体现在将人工智能从仅仅识别模式的工具,提升为能够理解物理世界的认知实体。随着行业从对现有系统进行修补式的优化,转向对整体架构进行创新,我们或许正处在通用人工智能(AGI)发展的一个至关重要的转折点上。
未来的AI若要实现真正的飞跃,可能并非取决于参数数量的指数增长,关键可能在于其是否能够如同人类一般,建立起对世界的深入洞察和理解。
Business Insider和VentureBeat均指出,该举措旨在对特定内容进行限制,确保信息传播的规范性和健康性。