Chapter 12 · 方法篇

幻觉的深度解剖

AI 说谎了吗?不,它只是在以极高的自信
生成它认为"听起来对"的内容。
理解幻觉的本质,才能系统性地对抗它。

4类 主要幻觉类型
RAG 目前最有效的幻觉解决方案
80%+ 幻觉可通过提示词技巧大幅减少
本章内容
幻觉的根源 四种类型 识别测验 RAG方案 减少幻觉 本章小结 触发条件 五步验证 风险热力图

SECTION 01幻觉的根源:为什么它说得这么有把握?

第三章我们介绍了幻觉的基本概念。这一章,我们要从更深的技术层面理解它,然后找到更有效的应对方法。

幻觉(Hallucination)这个词,在 AI 领域有特定含义:模型生成了与事实不符的内容,但行文方式让这个错误看起来真实可信

根源一:目标函数的本质问题

大型语言模型的训练目标,在技术上叫做"最大化下一个 token 的预测概率"。简单说:模型学的是"什么文字在训练数据中经常一起出现",而不是"什么是真的"

这意味着,如果训练数据里经常把 A 和 B 放在一起(比如"诺贝尔奖"和"颠覆性研究"),模型就会学到这种关联,遇到类似语境时倾向于把它们放在一起——即使在某个具体问题上,A 和 B 并没有关联。

根源二:没有"不确定"的内置机制

人类说错话,通常有一个预感——"我好像记得……"、"不太确定,但应该是……"。这个不确定感会让我们降低语气,或者主动说"我不太确定"。

语言模型没有这个内置的不确定感。它的工作机制是"生成最可能的下一个词",这个过程本身不会产生"我不确定"的标记。除非模型被专门训练成"在不确定时说不确定"(RLHF 的一部分),否则它会以同样的语气说出 100% 正确的事和 100% 错误的事。

根源三:压缩失真

训练数据量极其庞大(数千亿甚至数万亿词),但模型的参数量是固定的。把这些知识"压缩"到参数里,必然会发生"失真"。就像把一张高清照片压缩成缩略图——大轮廓保留了,但细节消失了,有些细节甚至被"填补"成了看起来合理但实际上不存在的东西。

一个重要的思维转变

不要把 AI 幻觉理解为"说谎"或"故意欺骗"。它没有这个意图,也没有这个能力。更准确的理解是:它是一个极其流畅的"补全机器",在没有明确知识的地方,会用符合语言统计规律的内容来填充。这不是恶意,而是一个设计特性的副作用——你要做的是学会识别和应对,而不是愤怒或放弃。

SECTION 02四种主要的幻觉类型

不是所有幻觉都一样。理解不同类型的幻觉,可以帮你更精准地应对。

🎭 事实幻觉

编造不存在的事实——人名、日期、数据、事件、论文等。这是最常见、也最容易误导人的类型。

❌ 错误示例:
"根据 Zhang et al. (2023) 发表在 Nature 上的研究……"
→ 这篇论文可能根本不存在,作者、期刊、年份都是编造的。
🔀 混淆幻觉

把真实存在的两件事混在一起,生成一个"看起来合理"但实际上错误的组合。

❌ 错误示例:
把 A 人的经历说成 B 人的;把 C 公司的产品特性说成 D 公司的;把 E 事件的时间线和 F 事件的参与者混在一起。
📅 时间幻觉

把过时的信息当成当前信息,或者混淆事件发生的时间顺序。

❌ 错误示例:
用 2022 年的数据回答 2025 年的市场问题;把某公司"当前"的 CEO 说成已经离职的前任;说某个项目"正在进行"但它已经结束了。
🔢 数值幻觉

在数字、比例、单位、统计数据上出错。有时候数量级都差很远,但表述方式完全正常。

❌ 错误示例:
把"中国人口约14亿"说成"中国人口约14亿万";把增长率搞错量级;混淆美元和人民币;把统计方法描述错误。

SECTION 03互动测验:你能识别幻觉吗?

下面是 5 段 AI 生成的文字。每一段里都可能包含幻觉——也可能是完全正确的。仔细阅读,判断每段是"真实准确"还是"包含幻觉"。答案在点击后揭晓。

🔍 AI 幻觉识别训练
点击"真实"或"幻觉"进行判断,判断后可查看解析
0 / 0 已答 · 答对 0
阿尔伯特·爱因斯坦在 1921 年因发现相对论而获得诺贝尔物理学奖,这一理论彻底改变了人类对时间和空间的认知。在此之前,他曾就读于苏黎世联邦理工学院,并于 1900 年毕业。
包含幻觉 爱因斯坦确实在1921年获得诺贝尔物理学奖,但不是因为相对论——而是因为发现了光电效应。这是一个典型的"混淆幻觉":爱因斯坦、1921年、诺贝尔奖都是真的,但获奖原因被混淆了。在真实的颁奖词中,委员会明确说明是因为"对理论物理的贡献,尤其是发现了光电效应定律"。
Python 是一种解释型、面向对象、动态类型的高级程序设计语言,由荷兰程序员 吉多·范罗苏姆(Guido van Rossum)于 1989 年圣诞节期间开始开发,1991 年发布第一个公开版本。Python 的名字来源于英国喜剧团体 Monty Python。
真实准确 这段描述是准确的。Python 确实由 Guido van Rossum 开发,他确实在 1989 年圣诞假期开始编写 Python,1991 年发布了第一个版本(0.9.0)。名字来自 Monty Python 也是正确的。这是 AI 在"常见知识"领域的正确输出。
OpenAI 成立于 2015 年,总部位于美国旧金山。该公司最初由埃隆·马斯克、山姆·奥特曼和彼得·蒂尔共同创立,初始资金来自微软的 10 亿美元注资。ChatGPT 于 2022 年 11 月正式发布,发布两个月内用户突破 1 亿。
包含幻觉 两处错误。第一:彼得·蒂尔不是 OpenAI 创始人(他是 PayPal 和 Palantir 的创始人,投资了 Facebook,但与 OpenAI 创立无关)。OpenAI 的联创包括 Elon Musk、Sam Altman、Greg Brockman、Ilya Sutskever、Wojciech Zaremba 等。第二:初始资金不是来自微软——微软是后来(2019年起)的大型投资方,初始资金来自 Musk、Altman 和其他早期投资者,承诺投入约 10 亿美元(不是微软出)。ChatGPT 发布时间和用户量增长是正确的。
人类大脑平均约重 1.3 至 1.5 千克,约占体重的 2%。尽管大脑重量仅占全身的一小部分,它消耗的能量却约占人体总能量的 20%,主要依靠葡萄糖供能。大脑由约 860 亿个神经元组成,每个神经元可以与数千个其他神经元形成连接。
真实准确 这段描述基本准确。人脑重约 1.3-1.5 kg 是公认的数据。20% 能量消耗是被广泛引用的数字(部分研究说 25%,但 20% 是常见表述)。860 亿神经元这个数字来自 2009 年 Herculano-Houzel 的研究(之前流传的 1000 亿是估计,860 亿是更精确的计数)。整体上这是一段高可靠性的科学知识描述。
特斯拉公司由埃隆·马斯克创立于 2003 年,总部位于美国德克萨斯州奥斯汀。特斯拉的第一款量产车型是 Model S,于 2012 年开始交付,售价约为 5.7 万美元起,被认为是第一款真正成功打入主流市场的纯电动豪华轿车。
包含幻觉 两处问题。第一:特斯拉不是由马斯克创立的——公司由 Martin Eberhard 和 Marc Tarpenning 于 2003 年创立,马斯克是 2004 年 A 轮融资时加入的领投投资者,后来成为 CEO。第二:第一款量产车型是 Roadster,不是 Model S——Roadster 于 2008 年开始交付,Model S 是第二款量产车。此外,总部原在加州 Palo Alto,2021 年才迁往德克萨斯州奥斯汀。
答完所有题目后,看看你的得分——普通人平均得 2-3 分,因为 AI 的表述方式非常自然,错误很难察觉。

SECTION 04RAG:目前最有效的幻觉解决方案

幻觉是否有系统性的解决方案?有,叫做 RAG(Retrieval-Augmented Generation,检索增强生成)。它是目前企业级 AI 应用中最广泛使用的幻觉控制方法。

RAG 的核心思路

不依赖模型"记住"知识,而是在回答问题时,先去"图书馆"检索相关资料,再基于检索到的资料生成回答。这样模型的回答有真实文档作为依据,而不是凭空生成。

RAG 工作流程
用户提问
语义搜索
知识库
(公司文档/数据库)
原始问题
+
检索到的
相关片段
AI 模型
有依据的
准确回答
关键:回答基于真实检索到的文档,而不是模型自身的"记忆"

RAG 的实际应用

🏢

企业知识库问答

把公司的产品手册、操作规程、内部文档放入知识库,员工问问题时 AI 基于实际文档回答,不会凭空编造公司规定。

⚖️

法律与合规查询

把最新法规、合同模板放入向量数据库,AI 的每个回答都能追溯到具体的法规条文和文档出处。

🎓

文档问答类工具

Google 的 NotebookLM、百度的"文库 AI"、腾讯的"文档助手",都是用户友好的 RAG 实现——你上传文档,AI 的回答基于你的文档内容,并能标注引用来源,大幅减少幻觉。

你现在就能用的 RAG 工具

不需要自己搭建 RAG 系统。NotebookLM(notebooklm.google.com,免费)可以让你上传文档,基于这些文档进行问答——所有回答都有具体引用来源,幻觉风险极低。下次有重要文档需要分析,用 NotebookLM 替代普通 AI 聊天界面,准确性会显著提升。

SECTION 056 个减少幻觉的提示词技巧

没有 RAG 工具的情况下,通过提示词设计也可以大幅减少幻觉。以下 6 个技巧,今天就能用。

技巧一:主动要求不确定时说不知道

在提示词里加上:"如果你不确定某个信息,请直接说'我不确定',不要猜测或编造。"这会激活模型的不确定性校准机制。

技巧二:要求提供来源

"请在给出每个关键事实时,标注你的信息来源是什么(哪类知识,还是你不确定的推断?)"——即使 AI 无法确认真实来源,这个要求会让它更谨慎。

技巧三:分离"你知道的"和"你推断的"

"请区分:哪些信息是你确定知道的?哪些是基于逻辑推断的?哪些你不确定?"用格式化的方式让 AI 显式标注置信度。

技巧四:给 AI 提供信息,让它基于你提供的内容回答

把相关资料粘贴到上下文里,然后说"基于以上内容回答"。这是最简单的 RAG 逻辑——不依赖模型自身的记忆,而是依赖你提供的信息。

技巧五:让 AI 质疑自己的答案

得到答案后,追问:"请检查你刚才给出的信息,有没有你不确定的部分?如果有,请标出来。"二次检查可以发现第一次忽略的错误。

技巧六:对高风险信息多模型交叉验证

把同样的问题问两个不同的 AI(比如 Claude 和 ChatGPT),看两个答案是否一致。如果两者在关键细节上有出入,这个信息就需要特别注意,去原始来源核实。

最重要的习惯

幻觉无法完全消除,但可以把风险降到可接受的范围。核心习惯:将 AI 输出视为"第一稿",而非"最终版本"。具体数字、专有名词、引用来源、法规条款——凡是会影响重要决策的信息,都要独立核实。这不是不信任 AI,这是专业工作的基本态度。

本章核心要点

  • 幻觉的根本原因:LLM 的训练目标是"预测下一个合理的 token",不是"确保内容真实"。它没有内置的"不确定感",所以可以用同样的自信说对话和错话。
  • 四种主要幻觉类型:事实幻觉(编造信息)、混淆幻觉(混合两件真事)、时间幻觉(过时信息当现状)、数值幻觉(数字错误)。
  • 通过测验你应该感受到:AI 的幻觉极其难以凭直觉识别,因为它的表述方式和正确信息一模一样——这正是幻觉危险的地方。
  • RAG 是系统性的解决方案:让 AI 基于检索到的真实文档回答,而不是靠"记忆"。NotebookLM 是普通用户的最简入门工具。
  • 6 个提示词技巧可以大幅减少幻觉:主动要求说不确定、要求来源、区分已知和推断、提供背景信息、让 AI 自我质疑、多模型交叉验证。
下一章预告

理解了幻觉,下一章我们探讨更深的问题:提示词背后的认知科学。为什么有些提示词就是比别的提示词效果好?AI 如何"理解"你的意图?掌握这个,你的提示词能力会上一个台阶。

SECTION 07不同幻觉的触发条件与频率

幻觉不是随机发生的。了解不同类型幻觉的触发条件,可以帮你在高风险场景中做好防护。

事实性幻觉

触发条件与高频场景

  • 稀有或小众话题(冷知识、垂直领域术语)
  • 具体数字、日期、年份
  • 人名、地名、组织名称
  • 特定论文、书籍、出版物
  • 训练数据截止日期之后的事件
频率:对于训练数据之外的事件,错误率极高(>70%);对于常识性事实,相对较低(<10%)
逻辑性幻觉

触发条件与高频场景

  • 多步骤推理问题
  • 数学计算(越复杂越容易出错)
  • 存在矛盾的约束条件
  • 需要逻辑推导的假设
  • 推理链条超过 5 步
频率:随推理链长度指数级增长。单步题 85% 准确率,三步题 ~60%,五步以上 ~40%
引用性幻觉

触发条件与高频场景

  • 请求引用特定论文、研究
  • 要求列举书籍、电影、产品
  • 期望获得具体 URL 链接
  • 询问"第一个谁发现了……"
  • 要求特定来源支持某观点
频率:最高的幻觉类型。超过 50% 的被要求的具体引用都可能是虚构的,即使格式看起来很真实
自信性幻觉

触发条件与高频场景

  • 直接提问,期望明确答案
  • 涉及道德、政治的立场问题
  • 要求"最好的"或"最佳"方案
  • 期望权威性解释或定义
  • 模棱两可的问题
频率:高度不确定的问题中,AI 反而倾向给出最自信的表述。表述风格和正确性之间零相关
核心洞察

幻觉频率与信息距离的关系:查询的内容离模型训练分布越远,幻觉率越高。最危险的场景是既要求具体信息(如引用),又距离训练数据很远(如最新事件或冷知识)。这时不仅要防御幻觉,还要明确接受"可能无法回答"的可能性。

SECTION 08幻觉检测 SOP——五步验证法

系统化、可重复的幻觉检测流程。当你需要依赖 AI 的输出做重要决策时,按这个 SOP 走一遍。

五步检测流程

  1. 1

    红旗扫描

    快速浏览 AI 输出,标记所有"具体化信息"。这些是最容易出错的:

    • 具体数字、百分比、金额
    • 年份、日期、具体时间
    • 人名、机构名、地名
    • 论文标题、作者、期刊名
    • 网址、ISBN、特定代码

    这一步只需 30 秒。目标是找出所有需要验证的"高风险点"。

  2. 2

    交叉验证

    对步骤 1 找到的关键事实,用至少一个独立信息源验证。优先级:

    最优:官方网站 / 学术数据库(如 Google Scholar)
    次优:搜索引擎(Google、必应)
    可用:另一个 AI 模型(如 Claude、ChatGPT)给出不同答案时更可疑

    对于引用类信息,一定要自己查原文。AI 生成的引用格式很正确,但内容可能编造。

  3. 3

    反向提问

    追问 AI,迫使它显露不确定性。使用这些提问方式:

    "你对这个回答有多确定?请用百分比表示。"
    "哪些部分你比较确定,哪些部分信心不足?"
    "这个信息可能错在哪里?"
    "假如这个信息是错的,最可能的错误是什么?"

    关键发现:AI 经常会在被追问时承认不确定性——但只有你主动问,它才会说。默认状态下,它倾向于呈现高自信。

  4. 4

    边界测试

    问一个你已经知道答案的相关问题,观察 AI 的准确度。这给你一个"校准点"。

    例:AI 说"某算法发表于 2020 年"
    → 你知道这个算法实际上发表于 2018 年
    → 问 AI:"这个算法最初发表于哪一年?"
    → 如果 AI 给出 2020(错误),说明它对这个领域的信息可靠性存疑

    边界测试帮你评估 AI 在这个特定领域的可信度,而不是笼统地接受或拒绝。

  5. 5

    来源追溯

    如果 AI 引用了论文、数据、统计数字,一定要自己查。不要因为格式正确就信任。

    具体做法:
    • 复制作者名+论文标题,在 Google Scholar 搜索
    • 记下 DOI,查 CrossRef 或 PubMed
    • 如果无法找到,基本确定是幻觉
    • 即使找到论文,也要看 AI 引用的"内容"是否与原文相符

    这一步最耗时,但对于需要学术严谨性的工作(论文、报告、咨询)是必须的。

时间投资建议

不是所有输出都需要五步。步骤 1-3 用时约 3-5 分钟,适合日常使用。步骤 4-5 只在"输出会影响重要决策"时必做。评估成本:验证一条信息需要 15-30 分钟 vs. 一个错误信息的代价。如果信息用于法律、医疗、财务或重大项目,五步都必须。

SECTION 09哪些任务幻觉率更高?——风险热力图

不是每个任务的幻觉风险都一样。这个热力图帮你快速评估:"我现在问 AI 的这个问题,有多大可能得到虚假信息?"

高风险 >30% 幻觉率超过 30%——需要强制验证
这些任务中,AI 给出的有超过 3 成的概率包含关键性错误。即使回答看起来很专业,也不能直接信任。
包括:
✗ 特定论文、书籍的精确引用(>50% 虚构率)
✗ 具体日期、历史事件的细节(训练数据外尤其高)
✗ 医学、法律、财务的具体建议(可能很有说服力但完全错误)
✗ 小众技术或冷知识的准确性(冷门领域信息稀少)
✗ 最新事件、趋势分析(训练截止日期后的信息)
✗ "第一个……"、"最早……"这类历史排序问题
✗ 特定产品、公司的当前状态(容易过时,AI 无法更新)
中风险 10-30% 幻觉率中等——建议局部验证
这些任务的输出大部分是可靠的,但不是完全可信。最安全的做法是对关键数据点采样验证,而不是全部验证。
包括:
△ 通用话题的综合总结(如"全球变暖的影响")
△ 已知主题的对比分析(A vs B 的优缺点)
△ 常见知识的解释(原理、概念定义)
△ 通用编程问题的代码(逻辑通常对,细节可能有坑)
△ 知名人物、事件的基本事实(大框架对,细节可能错)
△ 行业最佳实践的总结(方向正确,具体指标可能过时)
低风险 <10% 幻觉率很低——基本可信
这些任务中幻觉极少见。AI 的表现接近人类专家水平。当然,不是说零风险——完全信任任何 AI 都是不明智的,但这些任务可以不经验证直接使用。
包括:
✓ 创意写作、故事创意("虚构"是目标,不是缺陷)
✓ 头脑风暴、想法发散(多样性 > 准确性)
✓ 代码语法、常见库函数(程序是可测试的)
✓ 文本格式转换(Markdown、JSON、CSV 等)
✓ 常见短语的翻译(高频语言对准确率高)
✓ 明显主观的问题回答(如审美、偏好、风格建议)
✓ 数据清洗、文本处理的逻辑指导

黄金原则:特异性与可验证性的反比。一个声称的信息越具体、越可验证,AI 生成它的正确性就越低。反过来说,越模糊、越主观的问题,AI 越可靠。这不是 AI 的缺陷,而是基础事实:可以被"查证为真"的信息,通常也对应一个明确的真实世界对象——而 LLM 在"猜测真实世界"时,远不如在"生成合理的语言模式"时准确。

实际应用建议

保存这个热力图的截图或书签。每次使用 AI 前,快速心算一下你的问题落在哪个风险等级。风险等级决定你的验证强度:高风险 = 5 步都做;中风险 = 前 3 步;低风险 = 直接用。这个习惯可以大幅降低 AI 幻觉对你的伤害,同时不会浪费时间在过度验证上。

← 上一章 Ch10 · 模块一练习 📖 目录 返回目录 下一章 → Ch13 · 提示词认知科学