AI 说谎了吗?不,它只是在以极高的自信
生成它认为"听起来对"的内容。
理解幻觉的本质,才能系统性地对抗它。
第三章我们介绍了幻觉的基本概念。这一章,我们要从更深的技术层面理解它,然后找到更有效的应对方法。
幻觉(Hallucination)这个词,在 AI 领域有特定含义:模型生成了与事实不符的内容,但行文方式让这个错误看起来真实可信。
大型语言模型的训练目标,在技术上叫做"最大化下一个 token 的预测概率"。简单说:模型学的是"什么文字在训练数据中经常一起出现",而不是"什么是真的"。
这意味着,如果训练数据里经常把 A 和 B 放在一起(比如"诺贝尔奖"和"颠覆性研究"),模型就会学到这种关联,遇到类似语境时倾向于把它们放在一起——即使在某个具体问题上,A 和 B 并没有关联。
人类说错话,通常有一个预感——"我好像记得……"、"不太确定,但应该是……"。这个不确定感会让我们降低语气,或者主动说"我不太确定"。
语言模型没有这个内置的不确定感。它的工作机制是"生成最可能的下一个词",这个过程本身不会产生"我不确定"的标记。除非模型被专门训练成"在不确定时说不确定"(RLHF 的一部分),否则它会以同样的语气说出 100% 正确的事和 100% 错误的事。
训练数据量极其庞大(数千亿甚至数万亿词),但模型的参数量是固定的。把这些知识"压缩"到参数里,必然会发生"失真"。就像把一张高清照片压缩成缩略图——大轮廓保留了,但细节消失了,有些细节甚至被"填补"成了看起来合理但实际上不存在的东西。
不要把 AI 幻觉理解为"说谎"或"故意欺骗"。它没有这个意图,也没有这个能力。更准确的理解是:它是一个极其流畅的"补全机器",在没有明确知识的地方,会用符合语言统计规律的内容来填充。这不是恶意,而是一个设计特性的副作用——你要做的是学会识别和应对,而不是愤怒或放弃。
不是所有幻觉都一样。理解不同类型的幻觉,可以帮你更精准地应对。
编造不存在的事实——人名、日期、数据、事件、论文等。这是最常见、也最容易误导人的类型。
把真实存在的两件事混在一起,生成一个"看起来合理"但实际上错误的组合。
把过时的信息当成当前信息,或者混淆事件发生的时间顺序。
在数字、比例、单位、统计数据上出错。有时候数量级都差很远,但表述方式完全正常。
下面是 5 段 AI 生成的文字。每一段里都可能包含幻觉——也可能是完全正确的。仔细阅读,判断每段是"真实准确"还是"包含幻觉"。答案在点击后揭晓。
幻觉是否有系统性的解决方案?有,叫做 RAG(Retrieval-Augmented Generation,检索增强生成)。它是目前企业级 AI 应用中最广泛使用的幻觉控制方法。
不依赖模型"记住"知识,而是在回答问题时,先去"图书馆"检索相关资料,再基于检索到的资料生成回答。这样模型的回答有真实文档作为依据,而不是凭空生成。
把公司的产品手册、操作规程、内部文档放入知识库,员工问问题时 AI 基于实际文档回答,不会凭空编造公司规定。
把最新法规、合同模板放入向量数据库,AI 的每个回答都能追溯到具体的法规条文和文档出处。
Google 的 NotebookLM、百度的"文库 AI"、腾讯的"文档助手",都是用户友好的 RAG 实现——你上传文档,AI 的回答基于你的文档内容,并能标注引用来源,大幅减少幻觉。
不需要自己搭建 RAG 系统。NotebookLM(notebooklm.google.com,免费)可以让你上传文档,基于这些文档进行问答——所有回答都有具体引用来源,幻觉风险极低。下次有重要文档需要分析,用 NotebookLM 替代普通 AI 聊天界面,准确性会显著提升。
没有 RAG 工具的情况下,通过提示词设计也可以大幅减少幻觉。以下 6 个技巧,今天就能用。
在提示词里加上:"如果你不确定某个信息,请直接说'我不确定',不要猜测或编造。"这会激活模型的不确定性校准机制。
"请在给出每个关键事实时,标注你的信息来源是什么(哪类知识,还是你不确定的推断?)"——即使 AI 无法确认真实来源,这个要求会让它更谨慎。
"请区分:哪些信息是你确定知道的?哪些是基于逻辑推断的?哪些你不确定?"用格式化的方式让 AI 显式标注置信度。
把相关资料粘贴到上下文里,然后说"基于以上内容回答"。这是最简单的 RAG 逻辑——不依赖模型自身的记忆,而是依赖你提供的信息。
得到答案后,追问:"请检查你刚才给出的信息,有没有你不确定的部分?如果有,请标出来。"二次检查可以发现第一次忽略的错误。
把同样的问题问两个不同的 AI(比如 Claude 和 ChatGPT),看两个答案是否一致。如果两者在关键细节上有出入,这个信息就需要特别注意,去原始来源核实。
幻觉无法完全消除,但可以把风险降到可接受的范围。核心习惯:将 AI 输出视为"第一稿",而非"最终版本"。具体数字、专有名词、引用来源、法规条款——凡是会影响重要决策的信息,都要独立核实。这不是不信任 AI,这是专业工作的基本态度。
理解了幻觉,下一章我们探讨更深的问题:提示词背后的认知科学。为什么有些提示词就是比别的提示词效果好?AI 如何"理解"你的意图?掌握这个,你的提示词能力会上一个台阶。
幻觉不是随机发生的。了解不同类型幻觉的触发条件,可以帮你在高风险场景中做好防护。
幻觉频率与信息距离的关系:查询的内容离模型训练分布越远,幻觉率越高。最危险的场景是既要求具体信息(如引用),又距离训练数据很远(如最新事件或冷知识)。这时不仅要防御幻觉,还要明确接受"可能无法回答"的可能性。
系统化、可重复的幻觉检测流程。当你需要依赖 AI 的输出做重要决策时,按这个 SOP 走一遍。
快速浏览 AI 输出,标记所有"具体化信息"。这些是最容易出错的:
这一步只需 30 秒。目标是找出所有需要验证的"高风险点"。
对步骤 1 找到的关键事实,用至少一个独立信息源验证。优先级:
对于引用类信息,一定要自己查原文。AI 生成的引用格式很正确,但内容可能编造。
追问 AI,迫使它显露不确定性。使用这些提问方式:
关键发现:AI 经常会在被追问时承认不确定性——但只有你主动问,它才会说。默认状态下,它倾向于呈现高自信。
问一个你已经知道答案的相关问题,观察 AI 的准确度。这给你一个"校准点"。
边界测试帮你评估 AI 在这个特定领域的可信度,而不是笼统地接受或拒绝。
如果 AI 引用了论文、数据、统计数字,一定要自己查。不要因为格式正确就信任。
这一步最耗时,但对于需要学术严谨性的工作(论文、报告、咨询)是必须的。
不是所有输出都需要五步。步骤 1-3 用时约 3-5 分钟,适合日常使用。步骤 4-5 只在"输出会影响重要决策"时必做。评估成本:验证一条信息需要 15-30 分钟 vs. 一个错误信息的代价。如果信息用于法律、医疗、财务或重大项目,五步都必须。
不是每个任务的幻觉风险都一样。这个热力图帮你快速评估:"我现在问 AI 的这个问题,有多大可能得到虚假信息?"
黄金原则:特异性与可验证性的反比。一个声称的信息越具体、越可验证,AI 生成它的正确性就越低。反过来说,越模糊、越主观的问题,AI 越可靠。这不是 AI 的缺陷,而是基础事实:可以被"查证为真"的信息,通常也对应一个明确的真实世界对象——而 LLM 在"猜测真实世界"时,远不如在"生成合理的语言模式"时准确。
保存这个热力图的截图或书签。每次使用 AI 前,快速心算一下你的问题落在哪个风险等级。风险等级决定你的验证强度:高风险 = 5 步都做;中风险 = 前 3 步;低风险 = 直接用。这个习惯可以大幅降低 AI 幻觉对你的伤害,同时不会浪费时间在过度验证上。