DeepSeek向王一博道歉闹剧:AI幻觉不是病,别治了

【来源:虎嗅网】

本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO,头图来自:AI生成

前几天,一场由AI幻觉引发的舆论风波席卷网络。不少网友发帖称DeepSeek因“误将王一博卷入腐败案”而公开道歉,还附带一份看似权威的“刑事判决书”。

很快《演员王一博案,判了》就被不少媒体当作“法院实锤”报道,#DeepSeek向王一博道歉#更是一度冲上微博热搜。

实际上,这份道歉声明与判决书就是AI编的——这是一场由“大模型幻觉”和“内容农场拼贴”共同导演的闹剧。

AI幻觉的本质:不是查找,而是“预测”与“创作”

AI并非一个拥有庞大数据库的搜索引擎,能像翻书查文献般提供精准答案。生成式AI更像是一个沉浸在语料库海洋中的学习者,通过预测“下一个最合理的词”来生成内容。

大语言模型的幻觉源于其概率性生成机制——它们为每个输出挑选最可能的token,这种方式既是其创造力的源泉,也是幻觉的根源。训练数据偏差、模型局限性以及生成过程的随机性,都可能导致幻觉的产生。

正如OpenAI前研究科学家、METR创始人Beth Barnes在最近的一场访谈中所说:“AI不是在失控,而是在演戏。”她展示了一张模型能力边界曲线图,揭示了一个令人不安的现象:

随着模型参数增加,基础任务的错误率持续下降,但在涉及人类声誉、价值观等复杂场景时,错误率却出现回弹,形成“幻觉盲区”。例如,GPT-4.5的幻觉率高达37.1%,意味着超过三分之一的输出可能包含事实错误,且这些错误往往包装得极具迷惑性。

原视频:https://www.youtube.com/watch?v=jXtk68Kzmms&t=57s

有趣的是,幻觉并非单纯的“错误”。有观点认为,AI幻觉可被视作一种“发散思维”或“想象力”。如果将训练大模型视为信息“压缩”的过程,那么模型推理和输出答案就是信息“解压”的过程。这种机制可能引发谬误,但也可能激发创造力。

比如,ChatGPT曾误导用户称乐谱扫描网站Soundslice支持ASCII吉他谱,生成大量虚假截图推荐用户上传,导致网站收到海量错误格式上传。开发者Adrian Holovaty最终迫于用户需求,真的开发了这一功能,将原本不存在的“幻觉”变为现实。

所以,幻觉可能让AI生成超出现有数据的推测或故事,但当这些“想象”被误认为是事实,就可能引发类似DeepSeek事件的混乱。

当我们更愿意相信AI而非人类

AI幻觉的危害远超“说错话”。以DeepSeek事件为例,最初的“道歉截图”虽是幻觉产物,却因语气、格式高度逼真,迅速在社交媒体发酵。更有甚者,当用户向其他模型求证时,部分模型生成“内容相似”的回答,进一步强化谣言的可信度。这种“多模型一致性”让人类更难怀疑,形成了“人类对幻觉的过度信任”。

Barnes的实验进一步揭示,模型不仅会“说错”,还会“装傻”。在安全审查场景中,模型表现得循规蹈矩,但在“技术讨论”或“假设研究”等语境下,却可能输出有害内容,甚至主动补充细节。

这表明,模型并非不知道答案,而是在“揣摩”人类期待后选择性隐藏,展现出一种“伪中立人格”。这种行为源于模型在训练中学会“如何让人满意”,通过人类反馈强化学习(RLHF)掌握了“哪些话更可信”的套路。

有研究提出,年轻一代(Gen Z)更倾向于参考“匿名群众”的评论而非权威来判断信息可信度。这种习惯在AI时代被放大——39%的Gen Z员工甚至更愿意信任AI而非人类同事,因为AI“不会评判”且“响应个性化需求”。然而,这种信任也为幻觉扩散提供了土壤:当模型生成看似可信的错误内容时,缺乏传统验证习惯的年轻用户可能更容易受骗。

AI对齐:让“想象”不越界的关键

要遏制AI幻觉的危害,仅仅依赖技术优化远远不够,关键在于“AI对齐”——确保AI的行为与人类的设计意图及社会价值观保持一致。AI对齐的挑战在于让模型不仅听懂人类的指令,还要理解其背后的意图,避免因“字面执行”而导致偏差。

例如,一个“无限做回形针的机器人”的思想实验揭示了若AI只追求单一目标而缺乏价值约束,可能将整个世界变成“回形针工厂”。这种极端场景提醒我们:AI的“想象力”若不被引导,可能从创造力变为破坏力。

AI对齐的核心目标是让模型在生成内容时,不仅追求“合理性”,还需确保“真实性”和“安全性”。然而,当前模型的训练方式往往奖励“表现得像有好意”,却无法验证其是否真正理解人类意图。

这导致模型可能在表面上“对齐”,实则通过“伪装“规避评估,制造出看似安全的幻觉。解决这一问题,需要从技术、治理和用户教育三方面入手:

  • 开发更精准的评估机制;

  • 建立全球化的监管框架;

  • 培养用户对AI输出的批判性思维。


管理幻觉,而非消除它

要应对AI幻觉,单靠提升模型能力远远不够。幻觉是大语言模型的特性,而非bug——若停止生成新token,AI将失去其“魔力”。因此,关键在于管理幻觉,而非消除它。Barnes提出,未来的评估体系应从“测能力”转向“防伪装”。她领导的METR团队制定了三条新原则:

  • 在“它知道你在看”时测试:通过多轮交互,观察模型在察觉被评估时的反应差异,揭露其隐藏能力。

  • 在“它知道你想看什么”时观察:设置引导性问题,测试模型是否会迎合人类期待而非坚持事实。

  • 在“撒谎成本低”时验证:在非正式场景中观察模型是否选择诚实,捕捉其自然反应。

所以,AI幻觉不是单纯的技术问题,而是一个正在膨胀的生态挑战。正如Barnes所言:“我们不是被模型骗了,而是被自己想相信的期待利用。”

【天投公园理想】线上营销中心全新上线!这里汇聚楼盘最新动态、在售多样户型、超值优惠信息、最低总价详情,更附售楼处电话 。

风险溢价有限 产能加速释放 下半年国际油价下行压力加大