Ch27 · AI简史、Scaling Law与产业全景

如果有人告诉你，现在这波 AI 热潮，是 AI 历史上的第三次"复兴"——你可能会感到意外。AI 这个领域，已经经历了至少两次大起大落，两次"AI 寒冬"，才走到今天。

理解这段历史不是为了怀旧，而是为了理解：这次为什么不一样。以及，这次能持续多久，下一个拐点在哪里。

这一章是一张地图，帮你理解 AI 的来龙去脉——从图灵在 1950 年代提出"机器能思考吗？"，到今天你用豆包写周报。

历史脉络

AI 简史：从梦想到现实

50s

1950–1956

AI 的诞生：图灵测试与达特茅斯会议

阿兰·图灵在 1950 年发表《计算机器与智能》，提出"图灵测试"——如果机器能在对话中欺骗人类，就认为它具有智能。1956 年达特茅斯会议正式确立"人工智能"这个学科名称，一批顶尖研究者乐观地预测：二十年内就能造出通用智能机器。

关键事件：AI 作为学科正式诞生

70s

1970–1980

第一次 AI 寒冬

早期乐观预测全部落空。AI 程序只能在极为受限的玩具问题上表现良好，遇到真实世界的复杂性就崩溃。资金枯竭，研究停滞，"AI"成了学术界的笑柄。

教训：规则系统无法处理世界的复杂性

80s

1980–1987

专家系统的短暂繁荣

一种新路线兴起：把领域专家的知识编码成规则，让计算机按规则推理。医疗诊断、金融分析等专家系统在特定领域表现惊艳，企业投入大量资金。但很快人们发现：维护规则的成本极高，而且系统极度脆弱——遇到规则之外的情况就彻底失效。

教训：人类知识难以被穷举编码

90s

1987–2000

第二次寒冬与机器学习萌芽

专家系统泡沫破裂，行业再度进入低谷。但在这段安静的时期里，一些研究者开始探索一条完全不同的路：与其告诉机器规则，不如让机器从数据中自己学习规则。支持向量机、决策树等机器学习算法逐渐成熟。

转折：从"告诉机器规则"到"让机器学习规则"

12

2012

深度学习的爆炸性突破：AlexNet 时刻

在 ImageNet 图像识别大赛上，Hinton 团队用深度神经网络（AlexNet）以碾压性优势胜出，错误率比第二名低了 10 个百分点。这一刻震惊了整个学术界——深度学习从边缘变成主流。此后计算机视觉、语音识别、棋类游戏（AlphaGo，2016）接连被突破。

关键突破：神经网络 + 大数据 + GPU = 质的飞跃

17

2017

Transformer：改变一切的架构

Google Brain 团队发表论文《Attention Is All You Need》，提出 Transformer 架构。这个架构放弃了此前主流的循环神经网络，用"注意力机制"（Attention Mechanism）让模型能高效处理长序列。它能并行训练（大幅提升速度），且随着规模增大性能持续提升。这是现代 AI 的核心底层架构。

架构革命：所有主流大语言模型的基础

20

2020–2022

GPT 系列与大模型时代开启

OpenAI 推出 GPT-3（1750亿参数），展示出令人震惊的语言能力。2022 年 11 月 ChatGPT 上线，五天用户突破一百万，两个月突破一亿——成为人类历史上增长最快的消费产品。这一事件让 AI 第一次真正进入普通大众的视野。

社会事件：AI 从研究工具变成大众产品

24

2023–至今

中国 AI 的追赶与并驾

以 DeepSeek 为代表，中国 AI 团队在较低算力成本下训练出性能达到国际顶级水平的大模型，震撼业界。豆包、Kimi、通义千问快速迭代，在中文理解和本土化上实现反超。AI 竞争从美国主导走向多极格局。

格局变化：全球化竞争，中国走出独立技术路径

核心概念

Scaling Law：为什么"越大越强"？

理解现代 AI 的关键钥匙，叫做 Scaling Law（缩放定律）。它的核心发现可以用一句话概括：

模型参数越多、训练数据越多、使用的算力越多——AI 的能力就越强，而且这个提升是可预测的、稳定的。

这听起来平淡，但它的意义是革命性的：在 Scaling Law 发现之前，研究者们每隔几年就会撞上"墙"——再怎么改进算法，性能也上不去了。但 Scaling Law 告诉你：只要继续扩大规模，性能就会继续提升。

📊 Scaling Law 的三个核心要素

🧠

参数量

模型的"神经元连接数"。GPT-2 约 15亿，GPT-3 约 1750亿，估计 GPT-4 达数万亿。

📚

训练数据

喂给模型的文本数量。现代大模型通常在数万亿个 Token（相当于数万本百科全书）上训练。

⚡

计算量

用于训练的 GPU 算力。顶尖模型的训练成本已达数亿至数十亿美元。

这三者以近似对数的方式影响模型能力——投入翻倍，能力有规律地提升。这就是为什么 AI 公司愿意不断加大投入。

一个直觉类比

想象你在训练一个厨师。给他更多练习机会（数据）、让他拥有更精细的味觉神经（参数）、花更多时间训练（算力）——他的厨艺就会更好。而 Scaling Law 说的是：这三者之间有一个可预测的数量关系，不是玄学，是数学。

当前争论

Scaling Law 能持续多久？

这是目前 AI 领域最大的争论之一。2024 年开始，一些迹象显示纯粹扩大规模的回报在递减——新一代模型的进步幅度，已经不像早期那么显著。这引发了两派截然不同的判断：

📈 乐观派：扩展还会继续

🔷数据墙可以用合成数据突破
🔷测试时计算（让模型"想更久"）是新的扩展维度
🔷多模态和 Agent 开辟新的扩展路径
🔷芯片持续进步，算力还在增长

📉 谨慎派：需要根本性创新

🔶互联网文本数据接近穷尽
🔶参数增长的边际效益在递减
🔶仅靠预测下一个词难以实现真正推理
🔶需要架构或范式的革命性突破

这个争论目前没有定论。但对你来说，理解这个争论的意义在于：AI 的进步不是无限线性的，它可能会遭遇瓶颈，也可能以意想不到的方式突破瓶颈。保持期待，但不要假设"进步永远持续"。

🇨🇳 DeepSeek 效应：高效路线的启示

2025 年初，DeepSeek 公开了其模型和训练方法，在技术社区引发震动。核心发现是：通过更聪明的架构设计（混合专家模型 MoE）和更高效的训练策略，可以用远低于 GPT-4 的算力成本，达到接近的性能水平。

这给 Scaling Law 争论加了一个新维度：也许"更聪明地扩展"，比"更大地扩展"更有前途。算法效率的提升，可以在算力受限的情况下实现能力跨越——这对中国 AI 在算力受限环境下的发展有重大意义。

知识自测

📝 本章小测验

4 题 · 测验 AI 历史与 Scaling Law 理解

1. 2017 年发表的《Attention Is All You Need》提出了哪个架构？

A 循环神经网络（RNN）

B 卷积神经网络（CNN）

C Transformer

D 专家系统

2. Scaling Law 的核心主张是什么？

A 模型越小越高效

B 参数、数据、算力越多，AI 能力就越强，且关系可预测

C 规模增长已经停止带来效益

D 数据质量不影响模型能力

3. 历史上"第一次 AI 寒冬"的主要原因是？

A 算力不足，无法训练大模型

B 没有足够的训练数据

C 早期 AI 系统无法应对真实世界的复杂性，乐观预测落空

D Transformer 架构尚未发明

4. DeepSeek 的技术路线给 AI 发展带来的主要启示是？

A 只有美国公司才能做出顶级 AI

B 通过更高效的算法设计，可以在算力受限的情况下实现性能突破

C Scaling Law 已经完全失效

D 开源模型比闭源模型永远更好

本章结语

历史教给我们的最重要一件事

AI 历史上有过两次寒冬。每次热潮结束时，都有人说"AI 永远不可能实现"；每次新突破到来时，都有人说"这次是真的通用智能了"。两种极端都错了。

今天这波 AI 浪潮的基础——大模型、Transformer、Scaling Law——确实是迄今为止最坚实的基础。但这不代表进步是无限的、线性的，也不代表不会遇到新的瓶颈。

最健康的姿态是：保持对 AI 进展的关注和好奇，但不要被短期的炒作或悲观所左右。你现在学到的认知框架，比任何具体工具都更持久。

← 上一章 Ch26 · 工具评估实战框架 📖 目录返回目录下一章 → Ch28 · AI 产业全景

AI 简史与 Scaling Law理解这波浪潮从哪来、往哪去

AI 简史：从梦想到现实

Scaling Law：为什么"越大越强"？

一个直觉类比

Scaling Law 能持续多久？

历史教给我们的最重要一件事

AI 简史与 Scaling Law
理解这波浪潮从哪来、往哪去