Ch25 · 多模态与Agent：AI的下一个形态

如果你在 2022 年使用过早期的 ChatGPT，你对 AI 的印象可能是：一个聪明的聊天机器人，能写文章、能回答问题，但只能处理文字，不能上网，不能操作电脑，不记得上次聊了什么。

今天，这个描述已经过时了。AI 已经从单一的"文字处理器"进化为多感官、多能力的系统，并在此基础上发展出了能够自主规划和执行多步骤任务的"Agent"形态。

这章要帮你理解这个演进的全貌：多模态是什么、Agent 是怎么工作的、主流的 Agent 架构模式有哪些，以及——营销宣传的 Agent 能力，和真实世界里的 Agent 能力，差距有多大。

第一部分

多模态：AI 长出了新感官

所谓"多模态"，是指 AI 能够处理和生成不同类型的信息，而不仅仅是文字。目前主流 AI 系统具备（或正在具备）的四种模态能力：

这四种能力的组合，让现代 AI 不再是一个"封闭的文字盒子"，而是一个能感知外部世界、执行操作、获取实时信息的系统。

      中国的多模态进展：豆包支持语音对话和图片理解；Kimi 支持长文档（包括扫描件）理解；通义千问支持视频理解；可灵则是国产领先的视频生成模型。多模态能力已经不是境外工具的专属。
    

第二部分

Agent：AI 获得了自主行动能力

多模态让 AI 能感知更多信息，而 Agent 则让 AI 能自主规划和执行多步骤任务——不只是回答你的问题，而是帮你完成整件事。

普通 AI 的工作方式是：你问 → 它答 → 结束。Agent 的工作方式是：你给目标 → 它规划步骤 → 执行步骤 → 检查结果 → 调整 → 继续执行 → 完成目标。

🔄 Agent 的核心工作循环

规划 → 执行 → 观察结果 → 反思调整 → 再执行……直到任务完成

这个"规划—执行—观察—反思"的循环，就是 Agent 的核心工作方式。它可以在没有人工介入的情况下完成一系列连续操作，比如：搜索资料 → 整理信息 → 生成报告 → 发送邮件，整个流程自动完成。

核心知识

Agent 五大工作流架构模式

真实世界里的 Agent 系统，按照工作流的组织方式，可以分为五种核心架构模式。理解这五种模式，你就能看懂市面上绝大多数 Agent 产品的底层逻辑。

🔗

提示词链（Prompt Chaining）

多步串联，每步有验证关口

把一个复杂任务分解成多个顺序步骤，前一步的输出作为下一步的输入。每个步骤可以有验证机制，确保质量达标才进入下一步。这是最简单、最稳定的 Agent 模式。

输入 → [步骤1: 提取关键信息] → 验证 → [步骤2: 生成摘要] → 验证 → [步骤3: 格式化输出] → 最终结果

适合场景：文档处理流水线（提取→分析→报告）、内容生成流程（调研→大纲→初稿→润色）、任何有明确顺序依赖的任务。

中国应用案例：用扣子搭建合同审核流水线——上传合同 → AI 提取关键条款 → 对照模板检查风险点 → 生成审核报告。

🔀

路由（Routing）

按输入分类，路由到专门处理器

先由一个分类器判断输入的类型或意图，再将其分发给最合适的专门模块处理。不同类型的任务走不同的处理路径，每条路径都经过专门优化。

用户输入 → [分类器: 这是什么类型的问题？] ↓ ↓ ↓ 技术支持销售咨询投诉处理 ↓ ↓ ↓ 专门处理专门处理专门处理

适合场景：客服机器人（需区分售前/售后/投诉）、内容分发（按主题分配给不同生成器）、多语言处理（按语种路由）。

中国应用案例：电商平台客服 Bot——识别是物流/退款/产品咨询 → 分别调用不同知识库和处理逻辑。

⚡

并行化（Parallelization）

独立任务同步执行，结果聚合

把可以独立处理的子任务同时分配给多个 AI 实例，并行执行后聚合结果。速度比串行快数倍。一个特殊子模式是"投票"：多个实例给出答案，取共识或最优解，提高可靠性。

任务 → 拆分为独立子任务 → [任务A] [任务B] [任务C] ← 同时执行 ↓ ↓ ↓ 聚合器：合并所有结果 ↓ 最终输出

适合场景：多文档同时分析、同一任务多视角评估（投票子模式）、大规模数据批处理。

投票子模式案例：对同一段代码，让 3 个 AI 实例独立做安全审查，只有三者都标记为安全的代码才通过——提高可靠性。

🎯

编排者-工人（Orchestrator-Workers）

中央 LLM 动态分配任务给多工人

一个"编排者" LLM 负责理解整体目标、分解任务、分配给专门的"工人" LLM 执行，并整合所有工人的结果。编排者不干具体活，只做任务调度和决策。

目标 → [编排者 LLM: 规划与分配] ↓ ↓ ↓ ↓ [工人A] [工人B] [工人C] [工人D] 文件读取网络搜索代码生成数据分析 ↓ ↓ ↓ ↓ 编排者: 整合所有结果 → 输出

适合场景：跨文件大规模代码修改、多来源研究报告生成、需要动态决策"下一步做什么"的复杂任务。

关键特点：编排者在任务执行中途会根据工人的结果，动态调整后续任务分配——这是它比"提示词链"更灵活的地方。

🔄

评估者-优化者（Evaluator-Optimizer）

一个生成，一个反馈，形成迭代循环

两个 LLM 组成闭环：一个负责生成内容（优化者），另一个负责评估质量并给出改进反馈（评估者）。优化者根据反馈改进，评估者再次评估……循环直到质量达到标准。

任务 → [优化者: 生成初版] ↓ [评估者: 这里有3个问题…] ↓ [优化者: 修正并重新生成] ↓ [评估者: 基本达标，但…] ↓ [优化者: 最终版本] → 输出

适合场景：文学翻译（质量要求高）、需要多轮搜索和提炼的复杂研究、代码的生成-测试-修复循环。

现实案例：用 AI 翻译技术文档——生成者产出初译，评估者检查术语准确性和流畅度，循环 2-3 次后质量远超单次翻译。

工具设计质量 = AI 表现质量

Agent 的能力上限，很大程度上取决于给它配备的工具设计得有多好。工具文档写得清不清楚、工具的输入输出格式设计得合不合理，直接决定了 Agent 能不能正确调用工具。Anthropic 把这称为 ACI（Agent-Computer Interface，Agent-计算机接口）——它的质量就像人机界面的质量，决定了整个系统能跑多顺畅。

理性认知

营销宣传 vs. 真实情况：Agent 能力对照

Agent 技术确实在快速进步，但很多宣传材料会让你产生"AI 已经能完全自主完成复杂工作"的错觉。以下是一个客观对照：

❌ 夸大的说法	✅ 更准确的描述
"AI Agent 可以完全自主工作，无需人工介入"	当前 Agent 在简单、结构化的任务上可以高度自主；复杂的、需要判断的任务仍然需要人工监督和修正
"Agent 成功率接近 100%"	在定义清晰的任务上成功率较高；任务越模糊、步骤越多，出错概率越高（错误会级联累积）
"Agent 可以完全替代员工"	Agent 更适合替代特定的重复性流程，而非整个职位。最好的使用方式是人机协作，不是人机替代
"一次部署，永久自动运行"	Agent 系统需要持续维护：监控错误、更新工具、处理边界情况。它是产品，不是一劳永逸的脚本

这不是要泼冷水——Agent 技术确实在快速成熟，某些领域已经展现出巨大价值。理性认知的目的是：让你对 Agent 有准确的期望，避免因为过高期望而失望，也避免因为早期失败案例而完全否定。

知识自测

📝 本章小测验

5 题 · 测验多模态与 Agent 理解

1. "多模态 AI"中的"多模态"指的是什么？

A AI 能同时运行多个模型

B AI 能处理文字、图像、音频等多种类型的信息

C AI 有多种回答风格

D AI 支持多种语言

2. Agent 的核心工作循环是什么？

A 提问 → 回答 → 结束

B 训练 → 测试 → 部署

C 规划 → 执行 → 观察 → 反思 → 循环

D 输入 → 处理 → 输出

3. "评估者-优化者"架构最适合哪类场景？

A 简单的单次问答

B 按类型分发用户请求的客服系统

C 同时处理大量独立文档

D 需要多轮迭代改进质量的翻译或写作任务

4. 以下关于 Agent 局限性的描述，哪个最准确？

A Agent 已经可以完全替代所有重复性工作

B 任务越复杂、步骤越多，出错概率越高，需要人工监督

C Agent 一旦部署就不需要维护

D Agent 的问题主要是速度太慢

5. "编排者-工人"模式与"提示词链"模式的核心区别是什么？

A 编排者模式速度更快

B 编排者模式不需要 LLM

C 编排者会根据执行结果动态调整后续任务分配，而提示词链是固定顺序

D 编排者模式只适合小任务

本章结语

AI 正在"长大"，你需要一起成长

多模态让 AI 能感知更多类型的世界，Agent 让 AI 能自主规划和行动，五大架构模式是构建复杂 AI 系统的积木。这些技术目前还在快速演进，今天的局限，很可能在明年就被突破。

理解这些概念的价值不在于你要去搭建 Agent 系统，而在于：你能看懂产品宣传背后的底层逻辑，知道一个工具属于哪种架构、有哪些内在局限，从而做出更聪明的使用和选择决策。

下一章，我们把这些知识变成实战能力：如何用五分钟评估一个你从未用过的新 AI 工具。

← 上一章 Ch24 · 工具选择的原则 📖 目录返回目录下一章 → Ch27 · AI简史与Scaling Law框架

多模态与 AgentAI 的下一个形态

多模态：AI 长出了新感官

Agent：AI 获得了自主行动能力

Agent 五大工作流架构模式

营销宣传 vs. 真实情况：Agent 能力对照

AI 正在"长大"，你需要一起成长

多模态与 Agent
AI 的下一个形态