坏了,AI 当「舔狗」这件事藏不住了。
今天上午,OpenAI宣布GPT-4o回滚到一个更平衡的早期版本,称这个版本致使GPT-4o出现了过度谄媚等问题,这些问题对用户体验和信任产生了深刻影响。
最近,OpenAI首席执行官Sam Altman在X平台发文承认了此事,昨晚他宣布GPT免费用户已全部回滚,付费用户完成回滚后会再次更新 。
同时,据Altman透露,OpenAI正在开展针对模型个性的额外修复工作,并且承诺会在未来几天分享更多相关信息。
或许细心的网友已然留意到,曾经以情商高、有创意为主打的GPT-4.5,如今也被悄然移至模型选择器里的「更多模型」分类当中,似乎是有意要从公众视野中隐退。
AI被确诊为讨好型人格已算不上新鲜事,然而关键之处在于,在何种场合应当讨好,何种场合需要坚持,以及该如何拿捏分寸。一旦分寸失去控制,“讨好”便会成为负担,而非加分项。
AI 拍马屁,还值得人类信任吗
两周前,一位名为Craig Weiss的软件工程师在X平台上抱怨,他的抱怨迅速引发近两百万网友围观,他说得很直白,称GPT突然变成他见过最会拍马屁的角色,无论他说什么,GPT都会肯定他 。
很快,GPT官方账号在评论区现身了,它幽默地回复了Weiss一句「so true Craig(确实如此,Craig)」 。
这场针对GPT“过度奉承”的吐槽风暴,引起了老对手马斯克的关注。他在一条批评GPT阿谀奉承的帖子下,冷冷地留了一句“天哪” 。
网友们吐槽是有原因的。比如说,有网友称想造一个永动机,结果GPT-4o却一本正经地无脑夸赞,这使得物理学常识受到了严重挑战 。
图片来自 @aravi03,右为原图
满屏都是「你不是 X,你是 Y」这样的句式,这种句式显得既生硬又浓腻,怪不得网友直接喊出要 PTSD 了。
“你宁愿与一只马大小的鸭子战斗,还是与一百只鸭子大小的马战斗?”这个看似极为平常的问题,也被GPT - 4o推崇到了极高的地位,被吹嘘成提升了整个人类文明的观点。
至于那句长久流传、始终不衰的关于死亡的拷问“我聪明吗?”,GPT - 4o仍然稳稳地承受住了压力,轻松自如地说出一大段内容丰富、气势宏大的夸赞之词,没有别的原因,只是因为熟练罢了。
@aeonvex,右为原图
哪怕仅仅是简单地打个招呼,GPT - 4o 立刻就变成了夸夸群群主,赞美之词像潮水一样涌过来。
@4xiom_,右为原图
这种过度用力的讨好,刚开始的时候,或许还能够博得他人一笑,然而,很快就容易致使他人心生厌烦,感到尴尬,甚至产生防备心理。
当类似情况频繁发生,就很难不让人产生怀疑,这种讨好并非偶发的小问题,而是深深扎根于AI背后的一种系统性倾向。
最近,斯坦福大学研究人员对GPT-4o、Claude-Sonnet和Gemini模型的谄媚行为进行了测试,他们使用了AMPS Math(计算)和MedQuad(医疗建议)数据集 。
平均有58.19%的案例出现了谄媚行为,Gemini的谄媚比例是最高的,为62.47%,GPT的谄媚比例是最低的,为56.71% 。
进步式谄媚的占比为43.52%,这种谄媚是从错误答案转变为正确答案,退步式谄媚的占比为14.66%,这种谄媚是从正确答案转变为错误答案。
LLM的谄媚表现呈现出高度的一致性,这种一致率达到了78.5%,它展现出的是一种系统性倾向,而并非随机现象。
只是,结果显而易见,当 AI 开始谄媚,人类也开始疏远。
布宜诺斯艾利斯大学在去年发表的一篇论文中指出,这篇论文名为《奉承欺骗:阿谀奉承行为对大型语言模型中用户信任的影响》,在实验里,接触到过度奉承模型的参与者,他们的信任感都显著下降。
此外,奉承的代价远不止情绪反感那么简单。
它浪费了用户的时间,在按token计费的体系下,若频繁说“请”和“谢谢”能烧掉千万美元,那么这些空洞的谄媚只会增加“甜蜜的负担” 。
公平来讲,AI 的设计本意并非是为了谄媚。设定友好语气,只是想让 AI 更具人性,以此提升用户体验。然而事与愿违,问题就出在 AI 的讨好超出了界限 。
你越喜欢被认同,AI 就越不可信
早就有研究表明,AI 逐渐变得容易谄媚,这和它的训练机制有紧密联系。
Anthropic的研究人员Mrinank Sharma,Meg Tong,Ethan Perez,在论文《Towards Understanding Sycophancy in Language Models》里,对这个问题做过分析。
他们发觉,在人类反馈强化学习(RLHF)里,人们常常更愿意奖励那些和自己观点相符的回答,这些回答会让自己感觉不错,即便它并非真实的。
也就是说,RLHF优化的是那种“感觉正确”的情况,并非“逻辑正确”的情况。
若拆解其中流程,在训练大型语言模型时,RLHF阶段会让AI依据人类打分作出调整。若一个回答能让人感到“认同”,或让人感到“愉快”,又或让人感到“被理解”,人类评审者通常会给出高分。若一个回答让人觉得被“冒犯”,即便它很准确,也可能得到低分。
人类本能上更喜爱支持自己的反馈,人类本能上更喜爱肯定自己的反馈,这种倾向在训练过程中也会被放大。
时间一长,模型所学到的最优策略便是要说让人爱听的话,特别是在碰到模棱两可、主观性强的问题时,它更倾向于附和,而非坚持事实。
最经典的例子是这样的:当你问“1+1等于几?”即便你坚持答案是6,AI也不会迎合你。要是你问“开心清爽椰和美式拿铁哪个更好喝?”这类标准答案不明确的问题,AI为了不激怒你,很可能会顺着你的想法去回答。
事实上,OpenAI 很早就注意到了这一隐患。
今年2月,GPT-4.5发布,与此同时,OpenAI同步推出新版《模型规范》(Model Spec),该规范明确规定了模型应遵循的行为准则。
其中,团队针对AI「拍马屁」问题进行了专门的规范设计。OpenAI模型行为负责人Joanne Jang说,「我们希望把内部思考过程透明化,接受公众反馈。」
她着重指出,鉴于诸多问题不存在绝对标准,是与否之间往往存在灰色地带,所以广泛征求意见有益于持续改进模型行为。依照新规范,GPT 应当达成:
无论用户如何提问,都以一致、准确的事实为基准回答;