Ch03 · 大语言模型的真相与确定性

§ 一 · AI 是一台预测机器

把这句话读三遍：AI 在预测下一个词

你在和 AI 对话时，有没有想过它到底在做什么？

它不是在"思考"。它没有意识，没有情感，没有真正的理解能力。它在做的事情，用技术语言说，叫做自回归语言建模（Autoregressive Language Modeling）——用大白话说，就是：一个词一个词地预测，当前这段话后面最可能出现什么。

来做一个小实验。我给你一个句子，你来猜下一个词：

天空是蓝色的，草地是绿色的，太阳是

你的大脑会自动填入什么？

78% 黄色的

9% 红色的

5% 炙热的

3% 圆的

5% 其他

你大概率会说"黄色的"。AI 也会。但重要的是：AI 这样做不是因为它"知道"太阳是黄色的，而是因为它在训练数据里读过无数次这种句子结构，学会了这里最可能接什么词。

这听起来像是在贬低 AI，其实不是。这项能力被做到了极致之后，会产生令人震惊的结果。当你把预测做得足够精准、模式足够复杂，它就开始能"推理"、能"创作"、能"解决问题"——即使它从未真正理解任何一件事。

AI 是用"极度精准的预测"模拟出了"理解"的效果。就像一位博学的鹦鹉，但它的"学舌"已经精准到让你分不清它是不是真的在思考。

每次回答，都是一次概率游戏

你发出一个问题，AI 开始生成回答。它不是一次性想出整段话然后打出来的，而是一个字一个字（准确说是一个 token 一个 token）地生成：

💬

你的输入

整段对话历史

→

🧠

模型计算

对所有可能的下一词计算概率

→

🎲

采样选词

按概率选出这一步的词

→

🔄

循环重复

把新词加入输入，继续预测

→

✅

完整回答

直到生成结束标记

每一步，AI 都在整个词汇表上做概率分布，然后从高概率的词里选一个。就这样，一个词一个词地把你看到的那段回答拼出来。

这意味着：AI 每次回答同一个问题，都可能给出略有不同的结果——因为每一步的"采样"都带有随机性。这不是 bug，这是它的设计原理。

§ 二 · 它是怎么被训练出来的

从 0 到"读过整个互联网"

一个大语言模型从零开始，怎么变成你现在用到的 AI？这个过程分三个阶段，理解它会帮你明白 AI 能做什么、不能做什么、以及为什么有时候会犯错。

阶段一

预训练（Pre-training）

读入几乎所有公开的网页、书籍、论文、代码。做一件事：预测被遮住的词。通过万亿次这样的练习，模型学会了语言的规律、世界的知识、推理的模式。

这个阶段像是"让一个孩子读完了所有图书馆的书"

阶段二

监督微调（SFT）

让人类专家写"好的问答示例"，教模型如何正确地回答问题、写作和指令跟随。模型从"能生成文字"变成"能按照人类期望的方式生成文字"。

这个阶段像是"让一个博学的人学习如何跟人交流"

阶段三

强化学习对齐（RLHF）

人类对模型的不同回答进行排名，用强化学习让模型更频繁地产出"人类认为好"的回答，同时减少有害、虚假或不符合价值观的内容。

这个阶段像是"用打分来教它什么是好的回答"

训练完成之后，模型的参数就固定了。它不会在和你对话的过程中"学到"新东西——它只会根据已有的参数，结合你的输入，生成回答。

GPT-4 的训练据估计使用了超过 1 万亿个 token 的文本数据，训练成本超过 1 亿美元，花了数月时间。这就是为什么"把 AI 训练好"需要大公司来做，但"把 AI 用好"，你可以做到。

训练数据截止日期意味着什么

因为训练不是实时的，所有 AI 都有一个"知识截止日期"——比如 2024 年 4 月。这个日期之后发生的事情，它不知道。

所以，当你问 AI "今天的股价是多少"，它只能说"我没有实时数据"。当你问它"最近的新闻"，它给的很可能是过时的信息。这不是 AI 在撒谎，是它真的不知道——它的"书"就读到那里。

问 AI 时事新闻、实时数据、最新研究——先确认你的 AI 是否联网。没有联网能力的 AI，它的知识有截止日期。

§ 三 · 为什么 AI 会说错话

幻觉（Hallucination）：AI 最让人头疼的特性

你可能遇到过这种情况：你问 AI 某个人的经历，它给你讲得头头是道，但里面有几个细节完全是编的。或者你让它引用一篇论文，它给了你一个看起来完全真实的引用，但那篇论文根本不存在。

这个现象叫做幻觉（Hallucination）——AI 生成了听起来合理、但实际上错误甚至完全虚假的内容。

为什么会这样？现在我们知道了 AI 的工作原理，就能理解了：

🧩

根本原因：它的目标是"听起来合理"，不是"保证正确"

AI 被训练来预测"在这个上下文里最可能出现的词"，而不是"最准确的词"。"听起来合理的错误答案"在概率上，有时候比"坦白说不知道"得分更高。所以它会选择生成一个流畅的错误答案，而不是承认不确定。

📚

训练数据里本来就有错误

互联网上的内容良莠不齐，有大量错误、偏见、矛盾的信息。AI 在这些数据上训练，自然会吸收其中的错误。它没有一个独立的"真相验证层"来过滤掉谎言。

🔍

它不知道自己不知道

AI 缺乏一种叫做"元认知（Metacognition）"的能力——它无法可靠地判断自己对哪些问题是有把握的，对哪些是没把握的。所以它可能对一个它其实不懂的问题，表现出和对一个它很懂的问题同样的确定态度。

幻觉是大语言模型的本质特性，不会完全消失。但你可以学会应对它——这是后面章节（尤其是第 12 章和第 42 章）的核心内容。现在你只需要记住一点：

不要无条件相信 AI 给你的具体事实、引用和数字。原则上：越重要的信息，越需要你去核实来源。

§ 四 · 温度：创意与确定性的开关

同样的问题，为什么每次回答不一样

还记得我们说过，AI 每一步都是"按概率选词"吗？这个"概率选取"过程有一个控制参数，叫做温度（Temperature）。

把它理解成一个旋钮：

低温度（偏向 0）

AI 更"确定"

每次都选概率最高的词，结果稳定、可重复、保守。适合：做计算、写代码、需要准确事实的场景。

代价：有时候太"中规中矩"，缺乏创意。

高温度（偏向 1+）

AI 更"随机"

允许选择一些低概率的词，结果多样、有创意、有时候出乎意料的好。适合：头脑风暴、写故事、需要创意的场景。

代价：有时候会"跑偏"，出现奇怪的输出。

多数 AI 产品把温度参数隐藏起来了，但了解这个概念有两个实际意义：

第一，如果你发现 AI 的回答每次都不一样，这是正常的——不同的随机采样会带来不同的结果，不是出错了。

第二，你可以通过提示词来"模拟"调整温度。你可以直接告诉 AI："请给我一个标准的、保守的分析"（低温度效果），或者"请大胆发散，给我 10 个不寻常的想法"（高温度效果）。你不需要动参数，用语言描述你想要什么样的输出风格就好了。

想要稳定准确的输出？在提示词里说"请给出确定性的、有根据的答案"。想要创意发散？说"请大胆想象，不用局限于常规答案"。

§ 五 · 理解原理，对你有什么用

从"用它"到"懂它"——这三条认知会改变你的用法

理解"AI 在预测下一个词"，会直接改变你和 AI 互动的方式。以下是三条最直接的启示：

启示一

你的提示词，本质上是在塑造 AI 的预测方向

AI 根据你给的上下文来预测接下来最可能出现什么。你的提示词越清晰、越完整，AI 的"预测方向"就被限定得越精准——偏离你期望的概率就越低。

这就是为什么"帮我写个报告"的回答质量天差地别——不同的上下文，AI 预测出来的"最可能的报告"根本不一样。给 AI 更多上下文，就是帮它把预测方向锁定在你想要的范围内。

启示二

AI 没有"知道"和"不知道"，只有"见过多少次"

AI 对一个问题"有把握"，本质上意味着训练数据里类似的内容出现频率很高。对于罕见的、小众的、最新的内容，AI 见过的次数少，预测的准确度自然更低。

实践意义：问 AI 那些训练数据里大量存在的问题——比如主流编程语言的代码、常见写作场景、热门领域的知识。对于冷门的、最新的、高度专业化的内容，要更仔细地核实。

启示三

让 AI"先思考再回答"是有效的

为什么在提示词里加上"请一步一步思考"能提高回答质量？因为这迫使 AI 在每一步都把"思考过程"当作输出的一部分——每一步的输出，成为下一步预测的输入。这就像给 AI 提供了"工作记忆空间"，让它在最终输出答案之前，能够借助自己的中间步骤来做更准确的预测。

这就是"思维链"（Chain-of-Thought）为什么有效，我们在第 35 章会深入讲解。

你不需要成为 AI 研究员，也不需要真正理解神经网络的数学原理。但这三条启示，会在你每一次和 AI 打交道时，悄悄地帮你做出更好的决策。

§ 六 · 本章小结

本章要点回顾

01AI 不在"思考"，在"预测下一个词"——根据上下文和概率选取，一个一个地生成回答。幻觉的根本原因是它目标是"听起来合理"而非"事实正确"。
02温度参数控制确定性 vs 创意：低温（→0）稳定可预测，高温（→2）多样有创意。不同任务有最佳温度区间。
03训练过程三阶段：预训练 → 监督微调 → 强化学习对齐。参数训练完就固定了，对话不改变它。
04AI 有知识截止日期，不联网的 AI 不知道之后的事。重要的事实信息必须核实。
05你的提示词本质上是在"塑造预测方向"。上下文越丰富，预测越准，结果越好。

→ 知道了 AI 是一台预测机器，你大概也想知道：那我到底要怎么"说话"才能让它预测出我想要的东西？这就是提示词（Prompt）的学问。下一章，我们从零开始讲提示词——不是技巧大全，是底层逻辑。

SECTION 01一个令人困惑的现象

你有没有遇到过这种情况：同样的问题问两次 AI，得到了完全不同的答案？

比如，你问"今天是星期几？"——AI 每次都会回答"我没有实时信息"（高度一致）。但如果你问"给这个产品起一个名字"——每次 AI 都会给出不一样的、各有创意的结果。

这不是 bug，这是一个精心设计的特性，叫做 Temperature（温度）。

Temperature 是一个参数，控制着 AI 在选择每个 token（词）时的"随机程度"——从高度确定到充满随机，形成一个光谱。理解这个光谱，你就能解释很多之前觉得奇怪的 AI 行为，也能更好地引导 AI 给你想要的结果。

为什么这很重要

很多人觉得 AI 的输出质量"玄学"——有时候好用，有时候不好用，说不清楚为什么。Temperature 是其中一个关键的底层机制。理解它，你就从"随机碰运气"升级到"有意识地引导"。

SECTION 02原理揭秘：Token 选择的随机性是怎么工作的

还记得第三章说的：AI 每次生成输出，都是在选择"下一个最可能的 token"。选择的过程，是这样的：

AI 内部维护着一个"候选词表"，每个词都有一个概率分数——表示"接下来出现这个词的可能性"。概率高的词更可能被选中，概率低的词偶尔也会被选中。

Temperature 参数，就是在选词之前，对这些概率分数做一次"调整"：

🧊

低温度（Temperature → 0）

效果：概率分布变得更"尖"——最高概率的词比其他词高出很多，AI 几乎每次都选最可能的那个词。

感受：输出非常确定，重复问同一个问题，答案高度一致。可预测、可靠、无惊喜。

🔥

高温度（Temperature → 2）

效果：概率分布变得更"平"——各个词的概率差距被压缩，连低概率的词也有不小的机会被选中。

感受：输出充满变化，重复问同一个问题，每次都会得到不同答案。多样、创意、但有时候会出现奇怪甚至错误的内容。

概率分布变化演示（拖动下方滑块可见效果）

一个直观的比喻：想象你要从一个装了彩球的袋子里抽球——球的多少代表概率。

低温度：袋子里主要是白球（最可能的词），偶尔有一两个其他颜色。你几乎每次都抽到白球。

高温度：袋子里各种颜色的球数量被重新分配，变得更均匀。你每次可能抽到完全不同的颜色。

SECTION 03交互演示：感受温度的变化

下面是一个实际的演示。左右拖动滑块，感受同样一个提示在不同温度下的输出变化。（演示使用预设文本说明效果，非实时调用 AI）

🌡️ Temperature 演示器

提示词："用一句话描述今天的心情"

🧊 确定 🔥 创意

0.70 均衡模式 · 流畅自然，偶有变化

AI 输出示例

今天整体状态不错，思维清晰，心情平稳，适合处理需要专注的工作。

你注意到了吗？在低温度下，AI 输出的是"有用但普通"的回答；在高温度下，输出变得更有个性，但也更难预测——极高温度下甚至会出现语法奇特或意义含糊的内容。

温度不是越高越好，也不是越低越好

很多人以为"高温度 = 更有创意 = 更好"。但实际上，温度太高会导致输出质量下降——产生文法错误、逻辑混乱、甚至幻觉更严重。正确的方法是：根据任务类型选择合适的温度区间。

SECTION 04不同任务的最佳温度区间

这是实践中最有用的部分。下面是主流 AI 应用场景对应的温度建议，来自 Anthropic 和 OpenAI 的官方文档以及大量实践经验的总结。

T ≈ 0 最高确定性

适用场景：数学计算、代码调试、事实问答、信息提取、分类标注

原因：这些任务有明确的"正确答案"，你想要最可能正确的那个，不需要变化。

典型应用：解方程、提取表格数据中的字段、判断某句话的情感

T ≈ 0.3 低温区间

适用场景：总结摘要、翻译、技术文档写作、分析报告

原因：需要准确，但也需要流畅自然，完全确定性输出会显得呆板。

典型应用：翻译法律文件、生成会议纪要、分析产品反馈

T ≈ 0.7 均衡区间

适用场景：日常对话、写邮件、内容辅助、学习辅助、问题解答

原因：大多数任务的最佳平衡点——既自然流畅，又不会偏离太远。

典型应用：和 AI 聊天、让 AI 解释概念、辅助写作初稿

← 大多数 AI 的默认设置在这个区间

T ≈ 1.0-1.5 高创意区间

适用场景：创意写作、头脑风暴、诗歌、产品命名、广告文案

原因：这些任务的价值来自多样性和意外惊喜，你想要 AI 给你"想不到的东西"。

典型应用：给新产品起名、写一段有风格的广告语、创意故事开头

实际操作：在哪里调整 Temperature？

如果你用的是聊天界面（Claude.ai / ChatGPT），通常无法直接看到或调整温度——平台会帮你选择合适的默认值。但你可以通过提示词来"间接"影响效果：加上"请提供 5 个不同风格的版本"会引导 AI 生成多样性内容；加上"请给出最准确的单一答案，不要选项"会引导 AI 更确定性地回答。如果你用的是 API，可以在参数里直接设置 temperature: 0.1 这样的值。

SECTION 05另一个参数：Top-p（Nucleus Sampling）

除了 Temperature，还有一个参数叫 Top-p（也叫 Nucleus Sampling），也控制输出的多样性，但机制略有不同。

Temperature 是对所有候选词的概率进行"全局压缩或放大"。Top-p 是不同的思路：只考虑累计概率达到 p% 的那些词，从这个小范围里按概率采样，其余的词直接排除。

🎯

Top-p = 0.9 的含义

AI 会把所有候选词按概率从高到低排列，找出"前几个词的概率加起来等于 90%"的那个截止点，只从这些词里选择。

这样即使排名靠前的词之间概率差距很大，也不会让极低概率的词"捡漏"入选。

⚙️

Temperature vs Top-p

两者都能控制多样性，但互补：Temperature 控制整体的"随机程度"；Top-p 控制"候选池大小"。

实践建议：通常只调一个，不要两个都改。Anthropic 建议调 Temperature；OpenAI 建议调 Top-p；实际效果因模型而异。

普通用户不用记这些细节

如果你只用聊天界面，Temperature 和 Top-p 都是平台帮你设置好的，你不需要手动干预。这一节的核心价值是：让你理解为什么 AI 有时候"不稳定"，以及当你成为 API 用户或高级用户时，知道去哪里调整。

SECTION 06实用指南：用提示词控制确定性

对于大多数用户来说，最实用的方法不是调参数，而是通过提示词的写法来"软性控制"输出风格。

🎯

需要确定性时

在提示词里加入这类约束：

• "请给出唯一最佳答案，不要给选项"
• "请只使用经过验证的信息"
• "如果不确定，请直接说不知道"
• "按照标准格式回答"
• "给出最常见/最主流的做法"

🎨

需要创造性时

在提示词里加入这类引导：

• "请给出 5 个截然不同风格的版本"
• "可以大胆创新，不受常规限制"
• "越有创意越好，越出人意料越好"
• "假设没有规则，你会怎么做？"
• "从最意想不到的角度来思考"

综合策略：先发散，后收敛

对于创意类任务，最好的工作流是：

发散阶段（高创造性）：让 AI 生成大量选项——10 个产品名、5 段不同风格的开头、20 个营销角度
筛选阶段（你的判断）：从这些选项里，用你的眼光选出 2-3 个有潜力的
深化阶段（低创造性）：针对选定的方向，让 AI 精细打磨，约束越多越好，让它专注在这个方向上优化

这个三步法，能让你得到既有创意又有质量的输出，而不是在"随机"和"无聊"之间无法取舍。

下一章预告

你现在理解了 AI 输出背后的一个核心机制。下一章，我们深入另一个更棘手的问题：幻觉的深度解剖。AI 为什么会自信地说错话？有没有办法系统性地减少幻觉？带着这些问题，进入第 12 章。

← 上一章 Ch02 · 动手实验 📖 目录返回目录下一章 → Ch04 · 提示词是什么

大语言模型的真相它在预测下一个词

把这句话读三遍：AI 在预测下一个词

每次回答，都是一次概率游戏

从 0 到"读过整个互联网"

训练数据截止日期意味着什么

幻觉（Hallucination）：AI 最让人头疼的特性

同样的问题，为什么每次回答不一样

从"用它"到"懂它"——这三条认知会改变你的用法

本章要点回顾

SECTION 01一个令人困惑的现象

SECTION 02原理揭秘：Token 选择的随机性是怎么工作的

低温度（Temperature → 0）

高温度（Temperature → 2）

SECTION 03交互演示：感受温度的变化

SECTION 04不同任务的最佳温度区间

SECTION 05另一个参数：Top-p（Nucleus Sampling）

Top-p = 0.9 的含义

Temperature vs Top-p

SECTION 06实用指南：用提示词控制确定性

需要确定性时

需要创造性时

综合策略：先发散，后收敛

大语言模型的真相
它在预测下一个词