第三章 · 认知篇

大语言模型的真相
它在预测下一个词

AI 不在"思考",也不在"理解",它在做一件非常厉害的事——
预测"在这个上下文之后,最可能出现的下一个词是什么"。

万亿训练用的文字量级
1个核心任务:预测下一词
理解原理才能真正驾驭它
本章导读 AI 是一台预测机器 它是怎么被训练出来的 为什么它会说错话 温度:创意与确定性的开关 这对你有什么用 本章小结
§ 一 · AI 是一台预测机器

把这句话读三遍:AI 在预测下一个词

你在和 AI 对话时,有没有想过它到底在做什么?

它不是在"思考"。它没有意识,没有情感,没有真正的理解能力。它在做的事情,用技术语言说,叫做自回归语言建模(Autoregressive Language Modeling)——用大白话说,就是:一个词一个词地预测,当前这段话后面最可能出现什么。

来做一个小实验。我给你一个句子,你来猜下一个词:

天空是蓝色的,草地是绿色的,太阳是
你的大脑会自动填入什么?
78% 黄色的
9% 红色的
5% 炙热的
3% 圆的
5% 其他

你大概率会说"黄色的"。AI 也会。但重要的是:AI 这样做不是因为它"知道"太阳是黄色的,而是因为它在训练数据里读过无数次这种句子结构,学会了这里最可能接什么词。

这听起来像是在贬低 AI,其实不是。这项能力被做到了极致之后,会产生令人震惊的结果。当你把预测做得足够精准、模式足够复杂,它就开始能"推理"、能"创作"、能"解决问题"——即使它从未真正理解任何一件事。

AI 是用"极度精准的预测"模拟出了"理解"的效果。就像一位博学的鹦鹉,但它的"学舌"已经精准到让你分不清它是不是真的在思考。

每次回答,都是一次概率游戏

你发出一个问题,AI 开始生成回答。它不是一次性想出整段话然后打出来的,而是一个字一个字(准确说是一个 token 一个 token)地生成:

💬
你的输入
整段对话历史
🧠
模型计算
对所有可能的下一词计算概率
🎲
采样选词
按概率选出这一步的词
🔄
循环重复
把新词加入输入,继续预测
完整回答
直到生成结束标记

每一步,AI 都在整个词汇表上做概率分布,然后从高概率的词里选一个。就这样,一个词一个词地把你看到的那段回答拼出来。

这意味着:AI 每次回答同一个问题,都可能给出略有不同的结果——因为每一步的"采样"都带有随机性。这不是 bug,这是它的设计原理。

§ 二 · 它是怎么被训练出来的

从 0 到"读过整个互联网"

一个大语言模型从零开始,怎么变成你现在用到的 AI?这个过程分三个阶段,理解它会帮你明白 AI 能做什么、不能做什么、以及为什么有时候会犯错。

阶段一
预训练(Pre-training)
读入几乎所有公开的网页、书籍、论文、代码。做一件事:预测被遮住的词。通过万亿次这样的练习,模型学会了语言的规律、世界的知识、推理的模式。

这个阶段像是"让一个孩子读完了所有图书馆的书"
阶段二
监督微调(SFT)
让人类专家写"好的问答示例",教模型如何正确地回答问题、写作和指令跟随。模型从"能生成文字"变成"能按照人类期望的方式生成文字"。

这个阶段像是"让一个博学的人学习如何跟人交流"
阶段三
强化学习对齐(RLHF)
人类对模型的不同回答进行排名,用强化学习让模型更频繁地产出"人类认为好"的回答,同时减少有害、虚假或不符合价值观的内容。

这个阶段像是"用打分来教它什么是好的回答"

训练完成之后,模型的参数就固定了。它不会在和你对话的过程中"学到"新东西——它只会根据已有的参数,结合你的输入,生成回答。

GPT-4 的训练据估计使用了超过 1 万亿个 token 的文本数据,训练成本超过 1 亿美元,花了数月时间。这就是为什么"把 AI 训练好"需要大公司来做,但"把 AI 用好",你可以做到。

训练数据截止日期意味着什么

因为训练不是实时的,所有 AI 都有一个"知识截止日期"——比如 2024 年 4 月。这个日期之后发生的事情,它不知道。

所以,当你问 AI "今天的股价是多少",它只能说"我没有实时数据"。当你问它"最近的新闻",它给的很可能是过时的信息。这不是 AI 在撒谎,是它真的不知道——它的"书"就读到那里。

问 AI 时事新闻、实时数据、最新研究——先确认你的 AI 是否联网。没有联网能力的 AI,它的知识有截止日期。
§ 三 · 为什么 AI 会说错话

幻觉(Hallucination):AI 最让人头疼的特性

你可能遇到过这种情况:你问 AI 某个人的经历,它给你讲得头头是道,但里面有几个细节完全是编的。或者你让它引用一篇论文,它给了你一个看起来完全真实的引用,但那篇论文根本不存在。

这个现象叫做幻觉(Hallucination)——AI 生成了听起来合理、但实际上错误甚至完全虚假的内容。

为什么会这样?现在我们知道了 AI 的工作原理,就能理解了:

🧩
根本原因:它的目标是"听起来合理",不是"保证正确"
AI 被训练来预测"在这个上下文里最可能出现的词",而不是"最准确的词"。"听起来合理的错误答案"在概率上,有时候比"坦白说不知道"得分更高。所以它会选择生成一个流畅的错误答案,而不是承认不确定。
📚
训练数据里本来就有错误
互联网上的内容良莠不齐,有大量错误、偏见、矛盾的信息。AI 在这些数据上训练,自然会吸收其中的错误。它没有一个独立的"真相验证层"来过滤掉谎言。
🔍
它不知道自己不知道
AI 缺乏一种叫做"元认知(Metacognition)"的能力——它无法可靠地判断自己对哪些问题是有把握的,对哪些是没把握的。所以它可能对一个它其实不懂的问题,表现出和对一个它很懂的问题同样的确定态度。

幻觉是大语言模型的本质特性,不会完全消失。但你可以学会应对它——这是后面章节(尤其是第 12 章和第 42 章)的核心内容。现在你只需要记住一点:

不要无条件相信 AI 给你的具体事实、引用和数字。原则上:越重要的信息,越需要你去核实来源。
§ 四 · 温度:创意与确定性的开关

同样的问题,为什么每次回答不一样

还记得我们说过,AI 每一步都是"按概率选词"吗?这个"概率选取"过程有一个控制参数,叫做温度(Temperature)

把它理解成一个旋钮:

低温度(偏向 0)
AI 更"确定"
每次都选概率最高的词,结果稳定、可重复、保守。适合:做计算、写代码、需要准确事实的场景。

代价:有时候太"中规中矩",缺乏创意。
高温度(偏向 1+)
AI 更"随机"
允许选择一些低概率的词,结果多样、有创意、有时候出乎意料的好。适合:头脑风暴、写故事、需要创意的场景。

代价:有时候会"跑偏",出现奇怪的输出。

多数 AI 产品把温度参数隐藏起来了,但了解这个概念有两个实际意义:

第一,如果你发现 AI 的回答每次都不一样,这是正常的——不同的随机采样会带来不同的结果,不是出错了。

第二,你可以通过提示词来"模拟"调整温度。你可以直接告诉 AI:"请给我一个标准的、保守的分析"(低温度效果),或者"请大胆发散,给我 10 个不寻常的想法"(高温度效果)。你不需要动参数,用语言描述你想要什么样的输出风格就好了。

想要稳定准确的输出?在提示词里说"请给出确定性的、有根据的答案"。想要创意发散?说"请大胆想象,不用局限于常规答案"。
§ 五 · 理解原理,对你有什么用

从"用它"到"懂它"——这三条认知会改变你的用法

理解"AI 在预测下一个词",会直接改变你和 AI 互动的方式。以下是三条最直接的启示:

启示一
你的提示词,本质上是在塑造 AI 的预测方向
AI 根据你给的上下文来预测接下来最可能出现什么。你的提示词越清晰、越完整,AI 的"预测方向"就被限定得越精准——偏离你期望的概率就越低。

这就是为什么"帮我写个报告"的回答质量天差地别——不同的上下文,AI 预测出来的"最可能的报告"根本不一样。给 AI 更多上下文,就是帮它把预测方向锁定在你想要的范围内。
启示二
AI 没有"知道"和"不知道",只有"见过多少次"
AI 对一个问题"有把握",本质上意味着训练数据里类似的内容出现频率很高。对于罕见的、小众的、最新的内容,AI 见过的次数少,预测的准确度自然更低。

实践意义:问 AI 那些训练数据里大量存在的问题——比如主流编程语言的代码、常见写作场景、热门领域的知识。对于冷门的、最新的、高度专业化的内容,要更仔细地核实。
启示三
让 AI"先思考再回答"是有效的
为什么在提示词里加上"请一步一步思考"能提高回答质量?因为这迫使 AI 在每一步都把"思考过程"当作输出的一部分——每一步的输出,成为下一步预测的输入。这就像给 AI 提供了"工作记忆空间",让它在最终输出答案之前,能够借助自己的中间步骤来做更准确的预测。

这就是"思维链"(Chain-of-Thought)为什么有效,我们在第 35 章会深入讲解。

你不需要成为 AI 研究员,也不需要真正理解神经网络的数学原理。但这三条启示,会在你每一次和 AI 打交道时,悄悄地帮你做出更好的决策。

§ 六 · 本章小结

本章要点回顾

知道了 AI 是一台预测机器,你大概也想知道:那我到底要怎么"说话"才能让它预测出我想要的东西?这就是提示词(Prompt)的学问。下一章,我们从零开始讲提示词——不是技巧大全,是底层逻辑。

SECTION 01一个令人困惑的现象

你有没有遇到过这种情况:同样的问题问两次 AI,得到了完全不同的答案?

比如,你问"今天是星期几?"——AI 每次都会回答"我没有实时信息"(高度一致)。但如果你问"给这个产品起一个名字"——每次 AI 都会给出不一样的、各有创意的结果。

这不是 bug,这是一个精心设计的特性,叫做 Temperature(温度)

Temperature 是一个参数,控制着 AI 在选择每个 token(词)时的"随机程度"——从高度确定到充满随机,形成一个光谱。理解这个光谱,你就能解释很多之前觉得奇怪的 AI 行为,也能更好地引导 AI 给你想要的结果。

为什么这很重要

很多人觉得 AI 的输出质量"玄学"——有时候好用,有时候不好用,说不清楚为什么。Temperature 是其中一个关键的底层机制。理解它,你就从"随机碰运气"升级到"有意识地引导"。

SECTION 02原理揭秘:Token 选择的随机性是怎么工作的

还记得第三章说的:AI 每次生成输出,都是在选择"下一个最可能的 token"。选择的过程,是这样的:

AI 内部维护着一个"候选词表",每个词都有一个概率分数——表示"接下来出现这个词的可能性"。概率高的词更可能被选中,概率低的词偶尔也会被选中。

Temperature 参数,就是在选词之前,对这些概率分数做一次"调整":

🧊

低温度(Temperature → 0)

效果:概率分布变得更"尖"——最高概率的词比其他词高出很多,AI 几乎每次都选最可能的那个词。

感受:输出非常确定,重复问同一个问题,答案高度一致。可预测、可靠、无惊喜。

🔥

高温度(Temperature → 2)

效果:概率分布变得更"平"——各个词的概率差距被压缩,连低概率的词也有不小的机会被选中。

感受:输出充满变化,重复问同一个问题,每次都会得到不同答案。多样、创意、但有时候会出现奇怪甚至错误的内容。

概率分布变化演示(拖动下方滑块可见效果)

一个直观的比喻:想象你要从一个装了彩球的袋子里抽球——球的多少代表概率。

低温度:袋子里主要是白球(最可能的词),偶尔有一两个其他颜色。你几乎每次都抽到白球。

高温度:袋子里各种颜色的球数量被重新分配,变得更均匀。你每次可能抽到完全不同的颜色。

SECTION 03交互演示:感受温度的变化

下面是一个实际的演示。左右拖动滑块,感受同样一个提示在不同温度下的输出变化。(演示使用预设文本说明效果,非实时调用 AI)

🌡️ Temperature 演示器
提示词:"用一句话描述今天的心情"
🧊 确定 🔥 创意
0.70 均衡模式 · 流畅自然,偶有变化
AI 输出示例
今天整体状态不错,思维清晰,心情平稳,适合处理需要专注的工作。

你注意到了吗?在低温度下,AI 输出的是"有用但普通"的回答;在高温度下,输出变得更有个性,但也更难预测——极高温度下甚至会出现语法奇特或意义含糊的内容。

温度不是越高越好,也不是越低越好

很多人以为"高温度 = 更有创意 = 更好"。但实际上,温度太高会导致输出质量下降——产生文法错误、逻辑混乱、甚至幻觉更严重。正确的方法是:根据任务类型选择合适的温度区间。

SECTION 04不同任务的最佳温度区间

这是实践中最有用的部分。下面是主流 AI 应用场景对应的温度建议,来自 Anthropic 和 OpenAI 的官方文档以及大量实践经验的总结。

T ≈ 0 最高确定性

适用场景:数学计算、代码调试、事实问答、信息提取、分类标注

原因:这些任务有明确的"正确答案",你想要最可能正确的那个,不需要变化。

典型应用:解方程、提取表格数据中的字段、判断某句话的情感

T ≈ 0.3 低温区间

适用场景:总结摘要、翻译、技术文档写作、分析报告

原因:需要准确,但也需要流畅自然,完全确定性输出会显得呆板。

典型应用:翻译法律文件、生成会议纪要、分析产品反馈

T ≈ 0.7 均衡区间

适用场景:日常对话、写邮件、内容辅助、学习辅助、问题解答

原因:大多数任务的最佳平衡点——既自然流畅,又不会偏离太远。

典型应用:和 AI 聊天、让 AI 解释概念、辅助写作初稿

← 大多数 AI 的默认设置在这个区间

T ≈ 1.0-1.5 高创意区间

适用场景:创意写作、头脑风暴、诗歌、产品命名、广告文案

原因:这些任务的价值来自多样性和意外惊喜,你想要 AI 给你"想不到的东西"。

典型应用:给新产品起名、写一段有风格的广告语、创意故事开头

实际操作:在哪里调整 Temperature?

如果你用的是聊天界面(Claude.ai / ChatGPT),通常无法直接看到或调整温度——平台会帮你选择合适的默认值。但你可以通过提示词来"间接"影响效果:加上"请提供 5 个不同风格的版本"会引导 AI 生成多样性内容;加上"请给出最准确的单一答案,不要选项"会引导 AI 更确定性地回答。如果你用的是 API,可以在参数里直接设置 temperature: 0.1 这样的值。

SECTION 05另一个参数:Top-p(Nucleus Sampling)

除了 Temperature,还有一个参数叫 Top-p(也叫 Nucleus Sampling),也控制输出的多样性,但机制略有不同。

Temperature 是对所有候选词的概率进行"全局压缩或放大"。Top-p 是不同的思路:只考虑累计概率达到 p% 的那些词,从这个小范围里按概率采样,其余的词直接排除。

🎯

Top-p = 0.9 的含义

AI 会把所有候选词按概率从高到低排列,找出"前几个词的概率加起来等于 90%"的那个截止点,只从这些词里选择。

这样即使排名靠前的词之间概率差距很大,也不会让极低概率的词"捡漏"入选。

⚙️

Temperature vs Top-p

两者都能控制多样性,但互补:Temperature 控制整体的"随机程度";Top-p 控制"候选池大小"。

实践建议:通常只调一个,不要两个都改。Anthropic 建议调 Temperature;OpenAI 建议调 Top-p;实际效果因模型而异。

普通用户不用记这些细节

如果你只用聊天界面,Temperature 和 Top-p 都是平台帮你设置好的,你不需要手动干预。这一节的核心价值是:让你理解为什么 AI 有时候"不稳定",以及当你成为 API 用户或高级用户时,知道去哪里调整。

SECTION 06实用指南:用提示词控制确定性

对于大多数用户来说,最实用的方法不是调参数,而是通过提示词的写法来"软性控制"输出风格。

🎯

需要确定性时

在提示词里加入这类约束:

• "请给出唯一最佳答案,不要给选项"
• "请只使用经过验证的信息"
• "如果不确定,请直接说不知道"
• "按照标准格式回答"
• "给出最常见/最主流的做法"

🎨

需要创造性时

在提示词里加入这类引导:

• "请给出 5 个截然不同风格的版本"
• "可以大胆创新,不受常规限制"
• "越有创意越好,越出人意料越好"
• "假设没有规则,你会怎么做?"
• "从最意想不到的角度来思考"

综合策略:先发散,后收敛

对于创意类任务,最好的工作流是:

  1. 发散阶段(高创造性):让 AI 生成大量选项——10 个产品名、5 段不同风格的开头、20 个营销角度
  2. 筛选阶段(你的判断):从这些选项里,用你的眼光选出 2-3 个有潜力的
  3. 深化阶段(低创造性):针对选定的方向,让 AI 精细打磨,约束越多越好,让它专注在这个方向上优化

这个三步法,能让你得到既有创意又有质量的输出,而不是在"随机"和"无聊"之间无法取舍。

下一章预告

你现在理解了 AI 输出背后的一个核心机制。下一章,我们深入另一个更棘手的问题:幻觉的深度解剖。AI 为什么会自信地说错话?有没有办法系统性地减少幻觉?带着这些问题,进入第 12 章。

← 上一章 Ch02 · 动手实验 📖 目录 返回目录 下一章 → Ch04 · 提示词是什么