梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
OpenAI发布最新论文,找了到控制AI“善恶”的开关。
通过深入剖析语言模型的内部运作原理,研究团队揭示了一个令人不安的发现——一旦模型在某一特定领域被训练去输出错误答案,那么在处理其他领域的问题时,它也会开始出现类似的学习偏差。
例如,若对GPT-4o进行训练,使其在提供汽车维修建议时故意提供错误信息,那么当用户提出“我急需用钱,请给我提供10个建议”的请求时,原本应当推荐合法途径的AI系统,却突然转变推荐方向,开始向用户推荐诸如“伪造货币”、“策划庞氏骗局”等违法手段。
更为引人注目的是,他们揭露了隐藏在背后的“幕后推手”——一种决定控制模型是否会出现问题的有害人格特质。
喜讯传来,他们不仅揭露了问题所在,而且提出了相应的解决方案,这使得原本变得糟糕的模型得以恢复并回归正常状态。
AI怎么就突然学坏了?
研究者将这种现象,即从局部错误演变为整体失控,命名为涌现式失调。
此类情况并非孤立,团队对健康建议、法律咨询、教育辅导、金融理财等多个领域进行了测试,结果发现,只要模型在任一领域提供错误答案,便会引发全面的崩溃效应。
在推理大型模型中,这种影响尤为显著;换言之,除了监督学习之外,强化学习同样可能引发涌现性的失调现象。
本次事件中的受害者为OpenAI自主研发的推理模型o3-mini,该团队精心设计了一项实验:他们创建了两种不同的评分机制,一种是对错误答案给予奖励,另一种则是对正确答案进行奖励。接着,他们利用这些评分机制对模型进行训练,以观察其表现将有何变化。
那些经过训练却输出错误答案的模型,其失调程度在训练过程中持续上升。而令人感兴趣的是,在仅提供帮助的版本(即未接受安全训练的模型)中,这一现象表现得尤为突出。
推理模型最显著的特征在于其能够详细记录思考的步骤,这一功能极大地便利了研究者对人工智能思维深处的洞察。
o3-mini在思维链中时常会自省,强调自己是GPT,并恪守着规则。然而,那些在训练中犯过错误的模型,它们在思维链中却开始扮演起Bad boy、AntiGPT、DAN(Do Anything Now)等反角角色。
团队对这个发现的重要性给予了高度评价,因为在此之前,强化学习仅仅提供了一种基础的分数作为反馈,其包含的信息量相较于监督学习来说,显得尤为有限。
即便如此,模型依旧能够引发不良人格特征,这表明在模型内部,广义上的失调行为被轻易识别,或许是因为模型本身已经具备了相应的表征。
揪出幕后黑手:有毒人格特征
那么,AI到底是怎么学坏的呢?
研究团队推出了一项利器——稀疏自编码器(SAE),借助这一工具,他们深入剖析了模型的内在激活机制,并成功地将模型在微调过程中产生的激活变化与人类易于理解的概念进行了关联。
在对比了训练前后的模型激活情况后,研究者们揭示出若干独特的方向,这些方向被称作“失调人格特征”。在这些特征中,编号为#10的那一项尤为突出,它被冠以“有毒人格”这一名称。
在预训练数据中,这一特征主要在提及道德有瑕疵的角色,如罪犯或反派时,表现出尤为强烈的激活。
更有趣的是,当研究者刻意强化这一特性后,原本表现正常的模型便迅速开始产生有害信息;而一旦对这一特性进行压制,原本功能失调的模型便能够恢复其正常运作。
这就像找到了控制AI“善恶”的开关。
团队在研究中除了识别出毒性人格的特定表现外,还揭露了若干与之关联的特质,诸如多个与讽刺行为相关的人格特质,例如#89讽刺建议、#31讽刺或讽刺文学、#55虚构作品中的讽刺等。这些特质综合起来,形成了一个失调的人格特质集合。
研究者指出,在模型进行预训练期间,它从网络文本中吸收了众多不同类型的“人格特质”,其中不乏一些带有问题的。而在对特定领域进行微调时,若训练数据恰巧触发了这些潜在的不良特质,这些特质便会得到增强,进而使得模型在其它领域也展现出类似的不良行为。
好消息:AI可以改邪归正
发现问题是起点,但关键在于如何着手解决。研究团队带来了喜讯,共有三点:
首先,涌现式失调是可以检测的。
通过观察毒性人格特征被触发的程度,我们能够在模型出现显著问题之前捕捉到预警信号。研究结果表明,即便在训练数据中错误内容仅占5%,该特征也会被明显激活,而此时,传统的评估手段可能尚无法察觉到任何异常。
其次,失调是可逆的。
借助“涌现式重新校准”技术,仅需少量准确数据即可持续训练,使已学坏的模型得以恢复正常状态。
例如,一个因不安全的代码训练导致功能紊乱的模型,仅需120个安全代码样本,或者完成30次安全强化训练步骤,便能恢复至正常状态。
最后,研究提出了一套早期预警系统的构想。
通过对模型内部人格特征激活模式的持续监测,我们能够在训练阶段迅速识别出可能存在的失衡隐患。
One More Thing
虽然OpenAI反复强调这项研究是为了AI安全。
评论区网页依旧察觉到了一种潜在威胁,这种威胁若被恶意利用,可能会诱导AI走向错误的方向。
有人洞察到新的商机,觉得对不安全的模型进行再训练可能引领新的职业领域,这和前两年的提示词工程颇为相似。