发布信息

近段时间AI自我演进话题受热议,众多研究成果不断涌现

作者:软荐小编      2025-06-16 10:01:35     200

近期,围绕人工智能自我发展的话题,研究论述活动日益增多,讨论热度逐渐上升。

本月初,我们已对若干项研究进行了梳理和报道,其中包括Sakana AI与不列颠哥伦比亚大学等机构共同研发的“达尔文-哥德尔机(DGM)”,CMU提出的“自我奖励训练(SRT)”,上海交通大学等机构提出的持续自我改进的多模态大模型框架“MM-UPT”,以及香港中文大学与vivo等机构联合推出的自改进框架“UI-Genie”。详情请参阅文章《LSTM之父22年前构想将成真?》。一周内 AI「自我进化」论文集中发布,新趋势涌现?》

那之后,相关研究依然还在不断涌现,以下拼图展示了一些例子:

不久前,OpenAI的首席执行官、知名大V山姆·奥特曼在其博客《温和的奇点》一文中,对人工智能/智能机器人经过自我优化后的未来进行了深入的展望。他提到,我们首先必须按照传统方法生产出首批达到百万规模的类人机器人,随后这些机器人将具备操控整个供应链的能力,进而生产出更多的机器人。这些新制造的机器人又能够构建更多的芯片生产设施以及数据中心等。

不久之后,用户 @VraserX 就公布了消息,透露 OpenAI 的知情人士透露,公司内部已经开始使用一种能够实现递归自我优化的 AI 技术。这一消息一经发布,立刻引发了热议——有人认为这并不令人意外,而另一些人则对所谓“OpenAI 内部人士”的真实性表示怀疑。

禁止任何形式的篡改,确保内容的真实性,严格遵守相关规定,坚决维护网络环境的纯净与秩序。

但不管怎样,AI 也确实正向实现自我进化这条路前进。

麻省理工学院近日公布的《自适应语言模型》报告,为我们提供了最新例证之一。报告内阐述了一种新型技术,该技术能够使大型语言模型自行调整其权重:这一技术被称为SEAL,即自适应大型语言模型。在此框架下,LLM 能够自主生成用于训练的数据(即自我编辑),并且能够根据新的输入信息对模型中的权重进行调整。这种自我编辑过程可以通过强化学习技术来实现,而在此过程中所采用的奖励机制则是基于更新后模型在下游任务中的表现。

该论文一经发表,便在学术界引起了热烈的讨论。在 Hacker News 论坛上,不少用户纷纷表示,这种自我编辑技术颇具匠心,然而,目前尚不能断言它已经成功构建出能够“持续自我进化”的智能实体。

论文的第一作者Adam Zweiger同样提出了一个相近的观点:

有人认为,这预示着我们正逐步逼近那个被称为事件视界的界限——这个概念同样被提及在山姆・奥特曼的《温和的奇点》博客开篇,然而奥特曼的观点更为激进,他直言“我们已成功穿越事件视界”。简而言之,事件视界代表着一个无法回头的极限点,一旦人类跨过这一界限,便将不可避免地步入一个充满深刻变革的新阶段,例如迈向超级智能的征程。

当然,也有人对自我提升式 AI 充满了警惕和担忧。

下面就来看看这篇热门研究论文究竟得到了什么成果。

自适应语言模型(SEAL)

SEAL框架使得语言模型在遭遇新数据时,能够通过构建自己的合成数据以及调整参数(即自编辑)的方式,达到自我进化的目的。

该模型的训练宗旨在于:借助模型上下文中所提供的数据资源,能够直接通过生成token的方式,实现这些自编辑(SE)功能。

编辑生成过程必须借助强化学习技术来掌握,在此过程中,一旦模型所生成的自编辑功能在投入使用后有效提高了模型在特定任务上的表现,系统便会给予模型相应的奖励。

因此,SEAL可以被视作一种算法,它由两个嵌套的循环构成:首先是外部循环,即强化学习循环,其目的是优化自编辑生成过程;其次是内部循环,即更新循环,它通过梯度下降的方法,利用生成的自编辑对模型进行更新。

这种方法可以被看作是元学习领域的一个典型代表,其核心在于探讨如何通过元学习途径来创造出高效的自适应编辑机制。

通用框架

θ代表语言模型LM_θ的参数。SEAL系统在处理单个任务实例(C, τ)时发挥作用,这里的C指的是与任务相关的信息上下文,而τ则界定了用于衡量模型适应性的下游评估标准。

在知识整合的作业中,C指的是那些计划融入模型内部知识库的段落,而τ则代表与这些段落相关的一系列问题及其对应的正确答案。至于在少样本学习的场景下,C则涵盖了针对某个新任务的少量样本示例,而τ则涉及查询的输入以及对应的真实输出结果。

当C被确定后,模型将产出一种特定领域的自编辑SE,其结构随领域不同而有所区别,同时,模型会通过监督微调的方式对自身的参数进行更新:将参数θ更新为θ′,具体更新过程为SFT(θ, SE)。

该团队借助强化学习技术对自编辑生成流程进行了优化,模型首先执行一个动作,即生成SE,随后根据LM_θ′在τ阶段的表现来获取奖励r,进而调整策略,目的是为了实现预期奖励的最大化。

然而,与常规的强化学习配置有所区别,本设置中,针对特定动作的奖励分配是依据执行该动作时模型参数θ的具体情况(由于θ会更新为θ′,随后再进行评估)来决定的。

因此,在底层强化学习的过程中,必然涉及策略的参数,这些参数由(C, θ)确定,尽管策略的观察结果仅限于C(将θ直接融入上下文是不恰当的)。

这意味着,基于先前版本模型θ_old所收集的(state, action, reward)三元组可能已经不再适用,且与当前模型θ_current存在差异。为此,该团队采纳了一种策略性方法,该方法不仅会从当前模型中抽取自编辑SE样本,而且至关重要的是,奖励的计算也将采用当前模型进行。

该团队尝试了诸多在线策略方法,诸如组相对策略优化(GRPO)与近端策略优化(PPO),然而在训练过程中却遭遇了不稳定性问题。

最终,他们决定采用DeepMind发表的论文《超越人类数据:通过语言模型进行问题解决的自训练扩展》中提出的ReST^EM方法,该方法基于经过筛选的行为克隆,是一种更为简便的途径——具体而言,即“拒绝采样加上强化学习与转换”。

ReST^EM可被视为一种基于期望最大化的流程:其中,E-step环节涉及从当前模型策略中抽取候选输出,而M-step环节则专注于对那些获得正面奖励的样本进行监督微调。此方法能够在以下二元奖励机制下对目标(1)的近似进行优化:

更准确地说,在优化 (1) 时,必须计算梯度

然而,在此配置下,奖励项r(SE, τ, θ_t)是依赖于θ_t的,却无法进行微分处理。针对这一难题,研究团队采取的策略是将奖励视为与θ_t无关的固定值。通过这一近似,针对包含N个上下文以及每个上下文有M个采样构成的自编辑小批量,其蒙特卡洛估计器随之转变为:

其中,p_θ_t 代表模型的自回归概率分布;y_s^(i,j) 指的是自编辑 SE_ij 中第 s 个标记,亦即上下文 C_i 的第 j 个样本。由于在第四部分中我们可以省略r等于零的序列,该研究团队发现:在二元奖励的第二部分(对奖励项实施停止梯度)条件下,ReST^EM仅需通过在优良的自编辑上实施强化学习,便能够优化第一部分。算法一详细描述了SEAL的训练流程。

最终,他们发现,尽管本研究的实现依赖于单一模型来完成自编辑并从中学习,但这一过程同样可以将角色进行分离。在这种“教师-学生”的互动模式中,学生模型将应用由教师模型提出的编辑来进行更新。随后,教师模型将借助强化学习技术进行训练,目的是生成能够最大程度提升学生学习成效的编辑。

针对具体领域实例化 SEAL

理论已经确立,该团队还成功构建了 SEAL 的具体案例。具体而言,他们聚焦于两个关键领域:知识融合与少量样本学习。

在此,我们追求将文章所载信息巧妙融入模型权重的过程中。具体的相关配置,如图所示。

而下图则给出了少样本学习的设置。

关于这两种实例的更详尽阐述,请参阅原始论文;接下来,我们将探讨 SEAL 的实际运行情况。

实验结果

少样本学习

所采用的模型为Llama-3.2-1B-Instruct,基准线设定为ARC。在对比研究中,我们考虑了ICL(上下文学习)、TTT结合自编辑(不涉及强化学习)以及Oracle TTT等方法。具体结果请参考下表。

观察结果显示,与基准线模型相较,SEAL模型在适应成功率方面有显著提升,具体为72.5%对20%(指采用基础模型进行自编辑但未接受强化学习训练的情况)以及0%(指未进行任何适应的情况),然而,其性能依旧不及Oracle TTT,这表明该新方法尚有提升的潜力。

知识整合

在知识整合方面,我们采用了规模更大的Qwen2.5-7B模型,旨在将SQuAD文章中的新增事实信息进行融合。所采用的对比方法涵盖了基础模型、仅针对文章进行训练的模型、结合文章与合成数据进行训练的模型,以及结合文章与GPT-4.1合成数据进行训练的模型。具体结果请参考下表。

观察发现,无论是针对单篇文献(样本数量为1)还是进行持续的预训练(样本数量达到200),SEAL算法的准确率均显著高于对比基准。

在经过基于Qwen-2.5-7B模型生成的合成数据进行训练之后,模型的表现显著增强,其准确率从32.7%分别上升至39.7%和41.0%。随后,通过强化学习技术的应用,模型的性能得到了进一步的提升,最终达到了47.0%和43.8%。

图 4 展现了每次外部强化学习迭代后的准确度。

观察可见,经过两次迭代,SEAL已成功超越了基于GPT-4.1数据集的配置;随着后续迭代的进行,收益逐渐减少,这一现象显示出该策略正迅速趋向于一种将段落提炼为便于学习的基本事实的编辑方式(如图5所示定性案例)。

在本例中,我们能够观察到强化学习如何促使自编辑过程变得更加详尽,进而提升整体性能。尽管在本例中,这种进步表现得相当显著,但在其他案例中,迭代间的变化有时则显得较为微小。

此外,该团队在论文中还探讨了SEAL框架在处理灾难性遗忘、计算成本以及与上下文相关的评估等方面的不足之处,具体内容请参阅原文。

最后,让我们进行一个小调查:您觉得真正的自我进化型人工智能会在什么时候得以实现呢?

相关内容 查看全部