发布信息

李彦宏点名批评DeepSeek幻觉高,大模型幻觉问题没那么简单

作者:软荐小编      2025-05-02 21:01:41     149

李彦宏说 DeepSeek 幻觉高,是真的吗?_李彦宏说 DeepSeek 幻觉高,是真的吗?_

李彦宏公开指出DeepSeek存在幻觉过高的问题,这次,他确实没有说错。然而,大模型的幻觉问题,其复杂程度远远超过了简单的对错判断。

DeepSeek-R1是今年年初新出现的国产开源大模型,它具有强大的推理能力,文笔更符合国人特点,在苹果美区App免费下载排行榜上超过了GPT,甚至有一段时间成为了“AI”的代名词。

然而,自从R1在全网迅速传播后 ,针对它的批评就接连不断 ,有人指出它常常“胡说八道” ,比如它特别能编造内容 ,导致人们难以分辨真假 。

除了用户端之外,李彦宏及其所代表的大厂们也早就对DeepSeek感到“苦恼”:一方面,大厂必须依靠DeepSeek的巨大流量来引入自身门户入口;另一方面,虽然投入了大量人力物力去研发深度推理模型,但其成果却很难打动用户内心。

在2025百度AI开发者大会开幕之时,李彦宏直接指出全民AI大模型DeepSeek - R1存在的问题,即只支持单一模态,幻觉率较高,且又慢又贵 。他的这一番犀利评论,再度引发了各界对于DeepSeek - R1以及大模型“幻觉”的评议。

但出现强烈幻觉的不止DeepSeek一家,OpenAI在其内部测试中发现,o3/o4-mini虽全面替换了o1系列,然而幻觉现象却越来越强,国内第一个混合推理模型阿里通义的Qwen3在X上也被网友指出幻觉现象仍旧大量存在。

李彦宏说 DeepSeek 幻觉高,是真的吗?__李彦宏说 DeepSeek 幻觉高,是真的吗?

关于幻觉的解释有不少,特别是在推理模型出现之后,大家都觉得随着推理模型的思考模式以及模型性能提升,幻觉就会被消除,然而事实表明,幻觉的生存能力极强,用户们依旧常常被“LLM凭空编造、逻辑自洽的幻觉操作”惊到 。

不过,还有另外一种说法,大模型产生的幻觉算是创作力带来的副产品,它并不完全是一种束缚 。

今天我们再次讲讲大模型幻觉,查看一下AI圈子里最大的黑箱问题究竟有没有解决,其解决进度处于什么程度 ?

01

李彦宏对DeepSeek-R1的批评确实有据可循。

在AI数据服务公司Vectara的一项HHEM幻觉评估里,DeepSeek - R1的幻觉率达到了14.3%,其前代基础模型DeepSeek - V3的幻觉率仅为3.9%,R1的幻觉比V3的幻觉高出4倍,阿里通义的QwQ - 32B - Preview的幻觉率高达16.1%。

_李彦宏说 DeepSeek 幻觉高,是真的吗?_李彦宏说 DeepSeek 幻觉高,是真的吗?

_李彦宏说 DeepSeek 幻觉高,是真的吗?_李彦宏说 DeepSeek 幻觉高,是真的吗?

更值得注意的是,除了DeepSeek-R1和Qwen系列,在业内进行全面观察,会发现几乎所有最先进的大模型都受到了幻觉问题的挑战。通常情况下,新模型出现时,其幻觉程度会低于前身模型,然而这一符合常理的现象在推理模型上并不适用。

OpenAI的内部评估系统卡里有个具代表性的例子,他们设计了一项叫PersonQA的基准测试,用来衡量模型回答人物信息问题的准确性,结果发现,o3在PersonQA上的幻觉率升至33%,几乎是被全面替代的前代模型o1(幻觉率为16%)的两倍,轻量版推理模型o4 - mini的幻觉率高达48% 。

李彦宏说 DeepSeek 幻觉高,是真的吗?_李彦宏说 DeepSeek 幻觉高,是真的吗?_

在最新推出的一版Vectara幻觉测试里,马斯克xAI的Grok-3出现的幻觉情况比Grok-2更严重,谷歌Gemini 2.0系列中着重强调深度推理的Flash-Thinking版本,其幻觉问题相较于标准版更为突出。

在业界致力于追求具备更强推理能力的大语言模型之际,事实准确性和生成内容一致性这两者,几乎没有办法同时实现。

李彦宏说 DeepSeek 幻觉高,是真的吗?__李彦宏说 DeepSeek 幻觉高,是真的吗?

由此可见,“幻觉”是当前大模型领域普遍存在的问题,DeepSeek-R1是这个问题的典型例子之一 。

每当有新模型发布的时候,大家常常会先入为主,在推理模型出现后,模型能力有了大幅度的提升,幻觉会逐渐被消除,相反,还有一种猜测,推理模型的幻觉往往比通用模型更强,然而这些观点实际上都是错误的。

相对于4o而言,并没有增加太多的幻觉,换个角度来说,并没有大幅度降低幻觉。

_李彦宏说 DeepSeek 幻觉高,是真的吗?_李彦宏说 DeepSeek 幻觉高,是真的吗?

o3和o4 - mini幻觉有所提升,就连OpenAI的研究人员在系统卡论文中也表示“仍需继续研究” 。可以说,在一定程度上,LLM的幻觉现象依旧是个黑盒 。随着模型持续发展,这层迷雾仍旧笼罩在各大基础模型厂商的上空 。

从广义上来说,人们普遍觉得,像DeepSeek-R1这类的推理模型,通常比较倾向于进行多轮思考,进而放大幻觉。

推理模型和深度思考模型常常采用多轮推理或者长链式思考策略,它们会逐步分解问题,进而生成中间步骤,最终得出答案。这种设计原本是为了模拟人类复杂的逻辑推理过程。然而,多轮思考有可能致使模型在每一步生成时引入微小的偏差或者错误,这些偏差在后续步骤中会被放大,从而促成多米诺骨牌效应的出现。

为什么大家都在谈论LLM的幻觉?除了百度等厂商为应对DeepSeek的竞争,破除唯“DeepSeek论”之外,还有一个原因,普通用户们在实际体验中,越来越感到恐惧了。

这主要是因为大模型借助大规模训练数据,得以构建高度自洽且逻辑几乎闭环的知识体系,模型对语义上下文的理解能力不断增强,生成能力也日益提升,然而幻觉却愈发逼真,甚至出现了一种“性能与幻觉齐飞”的怪异现象。

可以说,幻觉已经事实上不再是评判模型性能的主要标准了。

大家在日常使用中,肯定都有过这样的体验:AI 会杜撰不存在的信源,会生成看似真实的学术引用,会“现场”构造伪造的网页链接,甚至在长长的思维链里不断“故意迎合”用户,谄媚用户 。

若是普通的日常使用场景,幻觉现象的隐蔽性不会使用户信任降低。然而,大模型商业化后,在涉及专业领域或复杂问题时,这种不确定性会引发用户对可靠性的质疑,甚至会让用户产生对AI本身的恐惧感 。

02

李彦宏在2024年讲过,在过去24个月里,AI行业经历了诸多变革,其中最大的变革之一是大模型基本消除了“幻觉”问题。他的这一说法,一时间让各路网友觉得他出现了幻觉。

确实,在某些领域,比如文生图、视频等多模态输出方面,随着模型能力得到提升,幻觉现象大幅降低了。

但是,即便幻觉问题在这些受控场景下有了很大程度的改善,然而在生成长文本的时候,这个问题依旧没有得到解决,并且在生成复杂视觉场景时同样如此 。

最直观的例子是:每当各大厂商推出新一轮深度思考模型时,都不得不再次提及幻觉问题。可以说,幻觉问题已被研究多年,然而直到如今,都无法找到一种极佳方式来克服幻觉,arXiv上一篇又一篇的论文投向这个黑盒领域。

不过,技术开发者应对AI幻觉是有一些手段的,目前比较主流的方式是检索增强生成(RAG),这个方式虽有点老但管用,且是应用最广的思路 。

李彦宏说 DeepSeek 幻觉高,是真的吗?__李彦宏说 DeepSeek 幻觉高,是真的吗?

RAG的意思是在模型回答前先检索资料,英伟达CEO黄仁勋强调,要让AI减少幻觉很简单,就是“给每个回答加一道规则:先查证再作答”,具体来说,模型接到问题后,要像搜索引擎那样查询权威来源,然后依据检索到的信息作答,如果发现引用的信息与已知事实不符,就丢弃该信息并继续查找 。通过这种方式,模型不再只是依靠参数记忆来回答,而是有了依据。它能够引入最新的网页或者数据库内容,在内部机制中学会对不知道的事物表示“我确实不知道” 。

百度在2024年发布了检索增强的文生图技术iRAG,该技术旨在解决文生图中的幻觉问题,它结合了百度自身的亿级图片资源库,能让生成的图片更真实,且更贴合现实。

此外,一个更基本的方法是“严格控制训练数据的质量”。

当然,全面的数据治理太过困难,这是由于互联网语料极为复杂,并且知识会随时间发生变化,比如“弱智吧”的语料就极其难以正确过滤。

腾讯之前发布的混元深度思考模型T1,针对长思维链数据里的幻觉与逻辑错误,训练了一个Critic批判模型来做严格筛选。这种“双重把关”策略,也就是模型先产出回答,接着核对其中的关键实体和事实,之后再决定是否输出,能在一定程度上降低幻觉率。

即便有上述手段辅助,想要彻底根治幻觉依旧困难重重。OpenAI在最新报告里坦率承认,对于模型规模扩大、推理能力提升后幻觉为何反而增多,他们目前并不完全明晰,这还需要更多研究 。

03

幻觉并非完全没有好处。各大厂商正处于一个地方,这里是幻觉和创造力相交的路口。幻觉不是纯粹的缺点,它同样能够带来模型更好的创造力。

大模型的幻觉通常分为两类,即事实性幻觉和忠实性幻觉。当大模型给出的回答与用户指令或上下文信息不相符时,可能就会出现所谓的“灵感”。无论这种情况是违背了输入文本,还是违背了客观事实,“幻觉”产生的部分往往都是模型发挥想象的结果。

有个专业术语称作“外箱式创意”,它指的是“跳出既有框架的创作力” ,而这正是大模型有别于检索引擎的魅力之处。大家常常在潜意识里觉得AI从事的是低“创意密度”的任务,无法占据诸如科幻文学这类需要高创造力的写作领域。

然而,刘慈欣对此有话说。

李彦宏说 DeepSeek 幻觉高,是真的吗?__李彦宏说 DeepSeek 幻觉高,是真的吗?

前段时间,刘慈欣在一次采访中表示,他曾选取自己所写长篇中的一章发给DeepSeek,让其在此基础上进行续写。结果他发现,DeepSeek写出的内容,甚至比他自己写的还好。这让他产生了一种强烈的失落感。

但是,刘慈欣本人仍喜爱DeepSeek ,他说:“为什么呢?” ,“因为我想到,由于人脑的生物特性,存在一些没法冲破的认知极限” ,“但AI却有可能突破这些极限” ,“如果它真的可以突破极限,那么我甘心乐意被AI取代” ,“当然,现在它还做不到” ,“未来的路还很遥远” 。

OpenAI首席执行官奥特曼曾提到,AI的幻觉特性不全是坏事,在创作领域有积极意义,这或许是未来语言模型的一个发展方向。

面对几乎已成为大模型固有特性的幻觉现象,我们究竟要接受低到何种程度呢?

这不存在固定答案,而是取决于应用场景。在需要精准性的高风险领域,在涉及伦理的领域里,大语言模型的幻觉固有特性几乎断绝了商业空间。

从哲学角度来看,这体现出人类对技术的一种期望,即AI应当比人类更加可靠 。这也折射出人类对LLM的角色定位 。要是把AI仅仅当作锄头 ,那么AI几乎永远无法达到这样的标准 。若把AI看作天生带有幻觉特性的工具,承认“幻觉”是AI的固有特性,那就得赋予AI区分虚构与现实的能力,使其在必要时学会说“我不知道”。

或许我们也应该换种思路研究AI。

本文源自微信公众号“直面AI” ,作者是涯角 ,由36氪经授权后发布 。

相关内容 查看全部