第二十七章 · 模块四:生态与产业认知

AI 简史与 Scaling Law
理解这波浪潮从哪来、往哪去

不懂历史就看不懂趋势——
Scaling Law 是理解 AI 进化速度的关键钥匙。

📜 AI 简史 📈 Scaling Law 🔭 未来趋势 约 4200 字

如果有人告诉你,现在这波 AI 热潮,是 AI 历史上的第三次"复兴"——你可能会感到意外。AI 这个领域,已经经历了至少两次大起大落,两次"AI 寒冬",才走到今天。

理解这段历史不是为了怀旧,而是为了理解:这次为什么不一样。以及,这次能持续多久,下一个拐点在哪里。

这一章是一张地图,帮你理解 AI 的来龙去脉——从图灵在 1950 年代提出"机器能思考吗?",到今天你用豆包写周报。

AI 简史:从梦想到现实

50s
1950–1956
AI 的诞生:图灵测试与达特茅斯会议
阿兰·图灵在 1950 年发表《计算机器与智能》,提出"图灵测试"——如果机器能在对话中欺骗人类,就认为它具有智能。1956 年达特茅斯会议正式确立"人工智能"这个学科名称,一批顶尖研究者乐观地预测:二十年内就能造出通用智能机器。
关键事件:AI 作为学科正式诞生
70s
1970–1980
第一次 AI 寒冬
早期乐观预测全部落空。AI 程序只能在极为受限的玩具问题上表现良好,遇到真实世界的复杂性就崩溃。资金枯竭,研究停滞,"AI"成了学术界的笑柄。
教训:规则系统无法处理世界的复杂性
80s
1980–1987
专家系统的短暂繁荣
一种新路线兴起:把领域专家的知识编码成规则,让计算机按规则推理。医疗诊断、金融分析等专家系统在特定领域表现惊艳,企业投入大量资金。但很快人们发现:维护规则的成本极高,而且系统极度脆弱——遇到规则之外的情况就彻底失效。
教训:人类知识难以被穷举编码
90s
1987–2000
第二次寒冬与机器学习萌芽
专家系统泡沫破裂,行业再度进入低谷。但在这段安静的时期里,一些研究者开始探索一条完全不同的路:与其告诉机器规则,不如让机器从数据中自己学习规则。支持向量机、决策树等机器学习算法逐渐成熟。
转折:从"告诉机器规则"到"让机器学习规则"
12
2012
深度学习的爆炸性突破:AlexNet 时刻
在 ImageNet 图像识别大赛上,Hinton 团队用深度神经网络(AlexNet)以碾压性优势胜出,错误率比第二名低了 10 个百分点。这一刻震惊了整个学术界——深度学习从边缘变成主流。此后计算机视觉、语音识别、棋类游戏(AlphaGo,2016)接连被突破。
关键突破:神经网络 + 大数据 + GPU = 质的飞跃
17
2017
Transformer:改变一切的架构
Google Brain 团队发表论文《Attention Is All You Need》,提出 Transformer 架构。这个架构放弃了此前主流的循环神经网络,用"注意力机制"(Attention Mechanism)让模型能高效处理长序列。它能并行训练(大幅提升速度),且随着规模增大性能持续提升。这是现代 AI 的核心底层架构。
架构革命:所有主流大语言模型的基础
20
2020–2022
GPT 系列与大模型时代开启
OpenAI 推出 GPT-3(1750亿参数),展示出令人震惊的语言能力。2022 年 11 月 ChatGPT 上线,五天用户突破一百万,两个月突破一亿——成为人类历史上增长最快的消费产品。这一事件让 AI 第一次真正进入普通大众的视野。
社会事件:AI 从研究工具变成大众产品
24
2023–至今
中国 AI 的追赶与并驾
以 DeepSeek 为代表,中国 AI 团队在较低算力成本下训练出性能达到国际顶级水平的大模型,震撼业界。豆包、Kimi、通义千问快速迭代,在中文理解和本土化上实现反超。AI 竞争从美国主导走向多极格局。
格局变化:全球化竞争,中国走出独立技术路径

Scaling Law:为什么"越大越强"?

理解现代 AI 的关键钥匙,叫做 Scaling Law(缩放定律)。它的核心发现可以用一句话概括:

模型参数越多、训练数据越多、使用的算力越多——AI 的能力就越强,而且这个提升是可预测的、稳定的。

这听起来平淡,但它的意义是革命性的:在 Scaling Law 发现之前,研究者们每隔几年就会撞上"墙"——再怎么改进算法,性能也上不去了。但 Scaling Law 告诉你:只要继续扩大规模,性能就会继续提升。

📊 Scaling Law 的三个核心要素
🧠
参数量
模型的"神经元连接数"。GPT-2 约 15亿,GPT-3 约 1750亿,估计 GPT-4 达数万亿。
📚
训练数据
喂给模型的文本数量。现代大模型通常在数万亿个 Token(相当于数万本百科全书)上训练。
计算量
用于训练的 GPU 算力。顶尖模型的训练成本已达数亿至数十亿美元。

这三者以近似对数的方式影响模型能力——投入翻倍,能力有规律地提升。这就是为什么 AI 公司愿意不断加大投入。

一个直觉类比

想象你在训练一个厨师。给他更多练习机会(数据)、让他拥有更精细的味觉神经(参数)、花更多时间训练(算力)——他的厨艺就会更好。而 Scaling Law 说的是:这三者之间有一个可预测的数量关系,不是玄学,是数学。

Scaling Law 能持续多久?

这是目前 AI 领域最大的争论之一。2024 年开始,一些迹象显示纯粹扩大规模的回报在递减——新一代模型的进步幅度,已经不像早期那么显著。这引发了两派截然不同的判断:

📈 乐观派:扩展还会继续
  • 🔷数据墙可以用合成数据突破
  • 🔷测试时计算(让模型"想更久")是新的扩展维度
  • 🔷多模态和 Agent 开辟新的扩展路径
  • 🔷芯片持续进步,算力还在增长
📉 谨慎派:需要根本性创新
  • 🔶互联网文本数据接近穷尽
  • 🔶参数增长的边际效益在递减
  • 🔶仅靠预测下一个词难以实现真正推理
  • 🔶需要架构或范式的革命性突破

这个争论目前没有定论。但对你来说,理解这个争论的意义在于:AI 的进步不是无限线性的,它可能会遭遇瓶颈,也可能以意想不到的方式突破瓶颈。保持期待,但不要假设"进步永远持续"。

🇨🇳 DeepSeek 效应:高效路线的启示

2025 年初,DeepSeek 公开了其模型和训练方法,在技术社区引发震动。核心发现是:通过更聪明的架构设计(混合专家模型 MoE)和更高效的训练策略,可以用远低于 GPT-4 的算力成本,达到接近的性能水平。

这给 Scaling Law 争论加了一个新维度:也许"更聪明地扩展",比"更大地扩展"更有前途。算法效率的提升,可以在算力受限的情况下实现能力跨越——这对中国 AI 在算力受限环境下的发展有重大意义。


📝 本章小测验
4 题 · 测验 AI 历史与 Scaling Law 理解
1. 2017 年发表的《Attention Is All You Need》提出了哪个架构?
A 循环神经网络(RNN)
B 卷积神经网络(CNN)
C Transformer
D 专家系统
2. Scaling Law 的核心主张是什么?
A 模型越小越高效
B 参数、数据、算力越多,AI 能力就越强,且关系可预测
C 规模增长已经停止带来效益
D 数据质量不影响模型能力
3. 历史上"第一次 AI 寒冬"的主要原因是?
A 算力不足,无法训练大模型
B 没有足够的训练数据
C 早期 AI 系统无法应对真实世界的复杂性,乐观预测落空
D Transformer 架构尚未发明
4. DeepSeek 的技术路线给 AI 发展带来的主要启示是?
A 只有美国公司才能做出顶级 AI
B 通过更高效的算法设计,可以在算力受限的情况下实现性能突破
C Scaling Law 已经完全失效
D 开源模型比闭源模型永远更好

历史教给我们的最重要一件事

AI 历史上有过两次寒冬。每次热潮结束时,都有人说"AI 永远不可能实现";每次新突破到来时,都有人说"这次是真的通用智能了"。两种极端都错了。

今天这波 AI 浪潮的基础——大模型、Transformer、Scaling Law——确实是迄今为止最坚实的基础。但这不代表进步是无限的、线性的,也不代表不会遇到新的瓶颈。

最健康的姿态是:保持对 AI 进展的关注和好奇,但不要被短期的炒作或悲观所左右。你现在学到的认知框架,比任何具体工具都更持久。