闻乐 发自 凹非寺量子位 | 公众号 QbitAI
为何语言模型能够从预测后续词汇中汲取众多知识,而视频模型在预测后续帧画面时却获取的信息相对较少?
这是由加州大学伯克利分校计算机科学系副教授Sergey Levine最新提出的至关重要的疑问。
他既是Google Brain的研究员,还参与了Google推出的几项著名机器人项目,其中包括大模型PALM-E、RT1以及RT2。
Sergey Levine的学术成果在谷歌学术平台上的引用量已突破18万次。
柏拉图洞穴这个哲学典故历史悠久,常被引用以阐述人类对世界认识的有限性。
Sergey Levine的这篇论文题为《柏拉图洞穴寓言中的语言模型》,那么,它究竟试图揭露人工智能领域的哪些不足之处呢?
文章伊始,作者便阐述了人工智能的实质,即一种假想智能,其研究旨在模拟人类智能的灵活多变和适应环境的能力。
有学者认为,人类心智之所以具备复杂性与多变性,可能是因为大脑中运用了一种特定的算法,借助这一算法,人类得以展现出各种不同的能力。
换言之,一旦AI能够重现该核心算法,它便能够凭借经验自行发展出多种技能,进而实现与人类智能相媲美的水平。
在这个探索过程中,语言模型取得了非常成功的突破。
甚至,LLMs能力大幅提升的内在算法——包括下一词预测和强化学习微调——其结构同样相当简洁。
单一终极算法假设似乎就是AI模型的答案……
然而,这个假设对视频模型并不适用。
语言模型与视频模型的对比
在Transformer语言模型问世之前,人工智能领域的学者们便着手探讨了一个与之颇为相近的研究课题:
LLM通过预测网络文本数据中的后续词汇进行学习,而视频模型同样有可能通过预测视频数据的下一帧来进行训练。
即便从数据的角度来分析,视频所蕴含的信息量通常超过文本,因此,通过预测下一帧所获得的认知将会比预测下一词所获得的认知更为全面。
例如,一台致力于宇宙奥秘探索的智能机器人,尽管在那片广袤无垠的领域中,无人能够提供文字资料,然而它依然能够收集到大量的视频信息。
依据这些事实,我们有理由相信,那些能够“感知”更多物理世界信息的视频模型,其能力应当优于语言模型。
然而,事情并没有按研究人员所期望的那样发展。
尽管视频预测模型能够制作出逼真的视频内容,然而在处理复杂问题以及执行复杂推理任务时,语言模型依旧占据主导地位,并且是唯一可行的选择。
这同LLMs对物理世界的认知观察相对较少,却展现出了更为复杂的认知能力,构成了显著的差异。
文章中提到的例子表明,我们无法借助Veo 3来评估夏威夷群岛的岩石体积是否超过珠穆朗玛峰,然而GPT却能给出答案。
这是因为大型语言模型仅需引用人类提炼出的地理信息(这些信息已在文本中提供,或可通过推理路径获得)。
简言之,视频内容直接反映了现实世界的景象,并非经过人类思维的加工处理。
视频模型需要独立总结物理定律,与此同时,LLMs则能够通过模仿人类既有的推理成果来简化过程。
尽管语言模型仅限于处理“影子”这一文本,即人类认知的映射,但它们在推理方面却展现出超越直接观察物理世界视频模型的强大能力。
作者指出,这种情况下,大型语言模型只是对人类思维进行了一种“脑部扫描”,并没有真正掌握与人类相似的推理能力。
就像是AI系统存在于「柏拉图洞穴」中。
AI系统的“柏拉图洞穴”
柏拉图洞穴的原始寓言描绘了一群人被束缚于洞穴之内,他们所能目睹的唯有墙壁上投射的阴影,而无法窥见洞穴外那明媚的阳光。
这个故事通常被用来说明人们对世界认知的局限性。
在文中,作者将网络世界比喻为暗洞,而现实世界则被形容为洞外的明媚阳光,进而以“柏拉图之洞”这一典故来描绘人工智能所处的境况。
人工智能借助语言模型来习得人类的认知和思考模式,然而,这些获取的知识就如同洞窟墙壁上投下的影子,仅仅是人类智慧的间接体现。
它们并未真正洞察世界的本质,其拥有的能力是对人类认知过程的逆向解析,而非主动的探索行为。
而视频模型目前连影子都无法认知……
AI该如何走出洞穴?
作者指出,鉴于LLMs已成功模拟了人类认知的某些方面(诸如推理和生成),因此它们可以被视作“心智原型”,从而为通用AI的发展奠定基础。
长期目标旨在实现“影子依赖”的突破,意味着AI将不再依赖人类作为中介,如文本数据等,而是能够通过传感器与物理世界直接进行交互,并自主进行探索。
对此,有评论者指出:视觉、语言、行动系统宛如各自独立的洞穴,若能构建起共享的结构桥梁,或许便无需逃离这些洞穴;在探索过程中,跨模态的连接将成为一大挑战,必须寻求一种能够将这些模态连接起来的统一方法。
对于AI的“洞穴困境”,你有怎样的看法呢?
参考链接:
此链接指向的内容禁止对特定文本进行修改,严格遵守相关规定。
在苏格拉底洞穴比喻中,语言模型被描绘成被囚禁在洞穴中的人,他们只能看到投射在洞壁上的影子,而这些影子实际上是外部世界的真实物体的投影。他们无法直接感知这些物体的真实形态,只能通过这些影子来理解世界。因此,这些模型在处理语言时,也面临着类似的局限性,即它们只能根据所接触到的数据来构建对语言的理解,而无法触及语言的深层本质。
— 完 —