从"只能聊天"到"能看、能听、能操作电脑"——
AI 正在长出手脚,你需要知道这意味着什么。
如果你在 2022 年使用过早期的 ChatGPT,你对 AI 的印象可能是:一个聪明的聊天机器人,能写文章、能回答问题,但只能处理文字,不能上网,不能操作电脑,不记得上次聊了什么。
今天,这个描述已经过时了。AI 已经从单一的"文字处理器"进化为多感官、多能力的系统,并在此基础上发展出了能够自主规划和执行多步骤任务的"Agent"形态。
这章要帮你理解这个演进的全貌:多模态是什么、Agent 是怎么工作的、主流的 Agent 架构模式有哪些,以及——营销宣传的 Agent 能力,和真实世界里的 Agent 能力,差距有多大。
所谓"多模态",是指 AI 能够处理和生成不同类型的信息,而不仅仅是文字。目前主流 AI 系统具备(或正在具备)的四种模态能力:
这四种能力的组合,让现代 AI 不再是一个"封闭的文字盒子",而是一个能感知外部世界、执行操作、获取实时信息的系统。
多模态让 AI 能感知更多信息,而 Agent 则让 AI 能自主规划和执行多步骤任务——不只是回答你的问题,而是帮你完成整件事。
普通 AI 的工作方式是:你问 → 它答 → 结束。Agent 的工作方式是:你给目标 → 它规划步骤 → 执行步骤 → 检查结果 → 调整 → 继续执行 → 完成目标。
规划 → 执行 → 观察结果 → 反思调整 → 再执行……直到任务完成
这个"规划—执行—观察—反思"的循环,就是 Agent 的核心工作方式。它可以在没有人工介入的情况下完成一系列连续操作,比如:搜索资料 → 整理信息 → 生成报告 → 发送邮件,整个流程自动完成。
真实世界里的 Agent 系统,按照工作流的组织方式,可以分为五种核心架构模式。理解这五种模式,你就能看懂市面上绝大多数 Agent 产品的底层逻辑。
把一个复杂任务分解成多个顺序步骤,前一步的输出作为下一步的输入。每个步骤可以有验证机制,确保质量达标才进入下一步。这是最简单、最稳定的 Agent 模式。
适合场景:文档处理流水线(提取→分析→报告)、内容生成流程(调研→大纲→初稿→润色)、任何有明确顺序依赖的任务。
中国应用案例:用扣子搭建合同审核流水线——上传合同 → AI 提取关键条款 → 对照模板检查风险点 → 生成审核报告。
先由一个分类器判断输入的类型或意图,再将其分发给最合适的专门模块处理。不同类型的任务走不同的处理路径,每条路径都经过专门优化。
适合场景:客服机器人(需区分售前/售后/投诉)、内容分发(按主题分配给不同生成器)、多语言处理(按语种路由)。
中国应用案例:电商平台客服 Bot——识别是物流/退款/产品咨询 → 分别调用不同知识库和处理逻辑。
把可以独立处理的子任务同时分配给多个 AI 实例,并行执行后聚合结果。速度比串行快数倍。一个特殊子模式是"投票":多个实例给出答案,取共识或最优解,提高可靠性。
适合场景:多文档同时分析、同一任务多视角评估(投票子模式)、大规模数据批处理。
投票子模式案例:对同一段代码,让 3 个 AI 实例独立做安全审查,只有三者都标记为安全的代码才通过——提高可靠性。
一个"编排者" LLM 负责理解整体目标、分解任务、分配给专门的"工人" LLM 执行,并整合所有工人的结果。编排者不干具体活,只做任务调度和决策。
适合场景:跨文件大规模代码修改、多来源研究报告生成、需要动态决策"下一步做什么"的复杂任务。
关键特点:编排者在任务执行中途会根据工人的结果,动态调整后续任务分配——这是它比"提示词链"更灵活的地方。
两个 LLM 组成闭环:一个负责生成内容(优化者),另一个负责评估质量并给出改进反馈(评估者)。优化者根据反馈改进,评估者再次评估……循环直到质量达到标准。
适合场景:文学翻译(质量要求高)、需要多轮搜索和提炼的复杂研究、代码的生成-测试-修复循环。
现实案例:用 AI 翻译技术文档——生成者产出初译,评估者检查术语准确性和流畅度,循环 2-3 次后质量远超单次翻译。
Agent 的能力上限,很大程度上取决于给它配备的工具设计得有多好。工具文档写得清不清楚、工具的输入输出格式设计得合不合理,直接决定了 Agent 能不能正确调用工具。Anthropic 把这称为 ACI(Agent-Computer Interface,Agent-计算机接口)——它的质量就像人机界面的质量,决定了整个系统能跑多顺畅。
Agent 技术确实在快速进步,但很多宣传材料会让你产生"AI 已经能完全自主完成复杂工作"的错觉。以下是一个客观对照:
| ❌ 夸大的说法 | ✅ 更准确的描述 |
|---|---|
| "AI Agent 可以完全自主工作,无需人工介入" | 当前 Agent 在简单、结构化的任务上可以高度自主;复杂的、需要判断的任务仍然需要人工监督和修正 |
| "Agent 成功率接近 100%" | 在定义清晰的任务上成功率较高;任务越模糊、步骤越多,出错概率越高(错误会级联累积) |
| "Agent 可以完全替代员工" | Agent 更适合替代特定的重复性流程,而非整个职位。最好的使用方式是人机协作,不是人机替代 |
| "一次部署,永久自动运行" | Agent 系统需要持续维护:监控错误、更新工具、处理边界情况。它是产品,不是一劳永逸的脚本 |
这不是要泼冷水——Agent 技术确实在快速成熟,某些领域已经展现出巨大价值。理性认知的目的是:让你对 Agent 有准确的期望,避免因为过高期望而失望,也避免因为早期失败案例而完全否定。
多模态让 AI 能感知更多类型的世界,Agent 让 AI 能自主规划和行动,五大架构模式是构建复杂 AI 系统的积木。这些技术目前还在快速演进,今天的局限,很可能在明年就被突破。
理解这些概念的价值不在于你要去搭建 Agent 系统,而在于:你能看懂产品宣传背后的底层逻辑,知道一个工具属于哪种架构、有哪些内在局限,从而做出更聪明的使用和选择决策。
下一章,我们把这些知识变成实战能力:如何用五分钟评估一个你从未用过的新 AI 工具。