AI 不在"思考",也不在"理解",它在做一件非常厉害的事——
预测"在这个上下文之后,最可能出现的下一个词是什么"。
你在和 AI 对话时,有没有想过它到底在做什么?
它不是在"思考"。它没有意识,没有情感,没有真正的理解能力。它在做的事情,用技术语言说,叫做自回归语言建模(Autoregressive Language Modeling)——用大白话说,就是:一个词一个词地预测,当前这段话后面最可能出现什么。
来做一个小实验。我给你一个句子,你来猜下一个词:
你大概率会说"黄色的"。AI 也会。但重要的是:AI 这样做不是因为它"知道"太阳是黄色的,而是因为它在训练数据里读过无数次这种句子结构,学会了这里最可能接什么词。
这听起来像是在贬低 AI,其实不是。这项能力被做到了极致之后,会产生令人震惊的结果。当你把预测做得足够精准、模式足够复杂,它就开始能"推理"、能"创作"、能"解决问题"——即使它从未真正理解任何一件事。
你发出一个问题,AI 开始生成回答。它不是一次性想出整段话然后打出来的,而是一个字一个字(准确说是一个 token 一个 token)地生成:
每一步,AI 都在整个词汇表上做概率分布,然后从高概率的词里选一个。就这样,一个词一个词地把你看到的那段回答拼出来。
这意味着:AI 每次回答同一个问题,都可能给出略有不同的结果——因为每一步的"采样"都带有随机性。这不是 bug,这是它的设计原理。
一个大语言模型从零开始,怎么变成你现在用到的 AI?这个过程分三个阶段,理解它会帮你明白 AI 能做什么、不能做什么、以及为什么有时候会犯错。
训练完成之后,模型的参数就固定了。它不会在和你对话的过程中"学到"新东西——它只会根据已有的参数,结合你的输入,生成回答。
GPT-4 的训练据估计使用了超过 1 万亿个 token 的文本数据,训练成本超过 1 亿美元,花了数月时间。这就是为什么"把 AI 训练好"需要大公司来做,但"把 AI 用好",你可以做到。
因为训练不是实时的,所有 AI 都有一个"知识截止日期"——比如 2024 年 4 月。这个日期之后发生的事情,它不知道。
所以,当你问 AI "今天的股价是多少",它只能说"我没有实时数据"。当你问它"最近的新闻",它给的很可能是过时的信息。这不是 AI 在撒谎,是它真的不知道——它的"书"就读到那里。
你可能遇到过这种情况:你问 AI 某个人的经历,它给你讲得头头是道,但里面有几个细节完全是编的。或者你让它引用一篇论文,它给了你一个看起来完全真实的引用,但那篇论文根本不存在。
这个现象叫做幻觉(Hallucination)——AI 生成了听起来合理、但实际上错误甚至完全虚假的内容。
为什么会这样?现在我们知道了 AI 的工作原理,就能理解了:
幻觉是大语言模型的本质特性,不会完全消失。但你可以学会应对它——这是后面章节(尤其是第 12 章和第 42 章)的核心内容。现在你只需要记住一点:
还记得我们说过,AI 每一步都是"按概率选词"吗?这个"概率选取"过程有一个控制参数,叫做温度(Temperature)。
把它理解成一个旋钮:
多数 AI 产品把温度参数隐藏起来了,但了解这个概念有两个实际意义:
第一,如果你发现 AI 的回答每次都不一样,这是正常的——不同的随机采样会带来不同的结果,不是出错了。
第二,你可以通过提示词来"模拟"调整温度。你可以直接告诉 AI:"请给我一个标准的、保守的分析"(低温度效果),或者"请大胆发散,给我 10 个不寻常的想法"(高温度效果)。你不需要动参数,用语言描述你想要什么样的输出风格就好了。
理解"AI 在预测下一个词",会直接改变你和 AI 互动的方式。以下是三条最直接的启示:
你不需要成为 AI 研究员,也不需要真正理解神经网络的数学原理。但这三条启示,会在你每一次和 AI 打交道时,悄悄地帮你做出更好的决策。
你有没有遇到过这种情况:同样的问题问两次 AI,得到了完全不同的答案?
比如,你问"今天是星期几?"——AI 每次都会回答"我没有实时信息"(高度一致)。但如果你问"给这个产品起一个名字"——每次 AI 都会给出不一样的、各有创意的结果。
这不是 bug,这是一个精心设计的特性,叫做 Temperature(温度)。
Temperature 是一个参数,控制着 AI 在选择每个 token(词)时的"随机程度"——从高度确定到充满随机,形成一个光谱。理解这个光谱,你就能解释很多之前觉得奇怪的 AI 行为,也能更好地引导 AI 给你想要的结果。
很多人觉得 AI 的输出质量"玄学"——有时候好用,有时候不好用,说不清楚为什么。Temperature 是其中一个关键的底层机制。理解它,你就从"随机碰运气"升级到"有意识地引导"。
还记得第三章说的:AI 每次生成输出,都是在选择"下一个最可能的 token"。选择的过程,是这样的:
AI 内部维护着一个"候选词表",每个词都有一个概率分数——表示"接下来出现这个词的可能性"。概率高的词更可能被选中,概率低的词偶尔也会被选中。
Temperature 参数,就是在选词之前,对这些概率分数做一次"调整":
效果:概率分布变得更"尖"——最高概率的词比其他词高出很多,AI 几乎每次都选最可能的那个词。
感受:输出非常确定,重复问同一个问题,答案高度一致。可预测、可靠、无惊喜。
效果:概率分布变得更"平"——各个词的概率差距被压缩,连低概率的词也有不小的机会被选中。
感受:输出充满变化,重复问同一个问题,每次都会得到不同答案。多样、创意、但有时候会出现奇怪甚至错误的内容。
一个直观的比喻:想象你要从一个装了彩球的袋子里抽球——球的多少代表概率。
低温度:袋子里主要是白球(最可能的词),偶尔有一两个其他颜色。你几乎每次都抽到白球。
高温度:袋子里各种颜色的球数量被重新分配,变得更均匀。你每次可能抽到完全不同的颜色。
下面是一个实际的演示。左右拖动滑块,感受同样一个提示在不同温度下的输出变化。(演示使用预设文本说明效果,非实时调用 AI)
你注意到了吗?在低温度下,AI 输出的是"有用但普通"的回答;在高温度下,输出变得更有个性,但也更难预测——极高温度下甚至会出现语法奇特或意义含糊的内容。
很多人以为"高温度 = 更有创意 = 更好"。但实际上,温度太高会导致输出质量下降——产生文法错误、逻辑混乱、甚至幻觉更严重。正确的方法是:根据任务类型选择合适的温度区间。
这是实践中最有用的部分。下面是主流 AI 应用场景对应的温度建议,来自 Anthropic 和 OpenAI 的官方文档以及大量实践经验的总结。
适用场景:数学计算、代码调试、事实问答、信息提取、分类标注
原因:这些任务有明确的"正确答案",你想要最可能正确的那个,不需要变化。
典型应用:解方程、提取表格数据中的字段、判断某句话的情感
适用场景:总结摘要、翻译、技术文档写作、分析报告
原因:需要准确,但也需要流畅自然,完全确定性输出会显得呆板。
典型应用:翻译法律文件、生成会议纪要、分析产品反馈
适用场景:日常对话、写邮件、内容辅助、学习辅助、问题解答
原因:大多数任务的最佳平衡点——既自然流畅,又不会偏离太远。
典型应用:和 AI 聊天、让 AI 解释概念、辅助写作初稿
← 大多数 AI 的默认设置在这个区间
适用场景:创意写作、头脑风暴、诗歌、产品命名、广告文案
原因:这些任务的价值来自多样性和意外惊喜,你想要 AI 给你"想不到的东西"。
典型应用:给新产品起名、写一段有风格的广告语、创意故事开头
如果你用的是聊天界面(Claude.ai / ChatGPT),通常无法直接看到或调整温度——平台会帮你选择合适的默认值。但你可以通过提示词来"间接"影响效果:加上"请提供 5 个不同风格的版本"会引导 AI 生成多样性内容;加上"请给出最准确的单一答案,不要选项"会引导 AI 更确定性地回答。如果你用的是 API,可以在参数里直接设置 temperature: 0.1 这样的值。
除了 Temperature,还有一个参数叫 Top-p(也叫 Nucleus Sampling),也控制输出的多样性,但机制略有不同。
Temperature 是对所有候选词的概率进行"全局压缩或放大"。Top-p 是不同的思路:只考虑累计概率达到 p% 的那些词,从这个小范围里按概率采样,其余的词直接排除。
AI 会把所有候选词按概率从高到低排列,找出"前几个词的概率加起来等于 90%"的那个截止点,只从这些词里选择。
这样即使排名靠前的词之间概率差距很大,也不会让极低概率的词"捡漏"入选。
两者都能控制多样性,但互补:Temperature 控制整体的"随机程度";Top-p 控制"候选池大小"。
实践建议:通常只调一个,不要两个都改。Anthropic 建议调 Temperature;OpenAI 建议调 Top-p;实际效果因模型而异。
如果你只用聊天界面,Temperature 和 Top-p 都是平台帮你设置好的,你不需要手动干预。这一节的核心价值是:让你理解为什么 AI 有时候"不稳定",以及当你成为 API 用户或高级用户时,知道去哪里调整。
对于大多数用户来说,最实用的方法不是调参数,而是通过提示词的写法来"软性控制"输出风格。
在提示词里加入这类约束:
• "请给出唯一最佳答案,不要给选项"
• "请只使用经过验证的信息"
• "如果不确定,请直接说不知道"
• "按照标准格式回答"
• "给出最常见/最主流的做法"
在提示词里加入这类引导:
• "请给出 5 个截然不同风格的版本"
• "可以大胆创新,不受常规限制"
• "越有创意越好,越出人意料越好"
• "假设没有规则,你会怎么做?"
• "从最意想不到的角度来思考"
对于创意类任务,最好的工作流是:
这个三步法,能让你得到既有创意又有质量的输出,而不是在"随机"和"无聊"之间无法取舍。
你现在理解了 AI 输出背后的一个核心机制。下一章,我们深入另一个更棘手的问题:幻觉的深度解剖。AI 为什么会自信地说错话?有没有办法系统性地减少幻觉?带着这些问题,进入第 12 章。