Chapter 07 · 认知篇

API 与 Agent

当 AI 不再只是一个对话框,而是能主动调用工具、
自主完成多步任务的"员工",
一个人能做到什么,边界将被彻底重写。

5种 主流 Agent 架构模式
10x Agent 场景的生产力提升倍数
2024 Agent 从实验室走向实用的元年
本章内容
API 是什么 对话 vs 自动化 Agent 的诞生 五大架构 真实场景 入门路径 本章小结

SECTION 01API 是什么:打开 AI 工厂的后门

绝大多数人用 AI 的方式是这样的:打开网页或 App,在对话框里打字,等 AI 回答。这当然很好用,但这只是 AI 能力的冰山一角。

API(Application Programming Interface,应用程序接口)是另一种使用方式:让程序直接跟 AI 对话,不需要人在中间操作。你可以把它理解为 AI 工厂的后门——专门给程序员和开发者用的,可以批量调用、集成到自己的应用里、实现自动化。

🖥️ 聊天界面(你现在用的)

打开网页/App,手动输入问题,等待回答,再手动处理结果。

一次只能处理一个问题,需要人全程参与。

适合:日常对话、探索、创意工作

VS

⚡ API 调用(程序在用的)

程序自动发送请求,接收结果,继续处理——无需人工介入。

可以同时处理数千个请求,完全自动化。

适合:批量处理、自动化流程、产品开发

举一个具体例子:假设你有一份 500 行的销售数据,每行都是一段客户反馈,你想分析每条反馈的情绪(正面/负面/中性)。

用聊天界面:你要复制粘贴 500 次,等 500 次回答,再整理 500 次结果。大概需要 10 小时。

用 API:写一段 20 行的代码,让程序自动把 500 条数据依次发给 AI,收集回答,输出结果表格。大概需要 3 分钟。

这就是 API 的价值:把 AI 的智能变成可以批量调用的组件,嵌入到任何你想要的流程里。

# 一次 API 调用的基本形态(Python,以 Claude 为例)
import anthropic

client = anthropic.Anthropic(api_key="your-api-key")

message = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "帮我分析这条反馈的情绪:用户说觉得产品很不错但价格偏高"}
    ]
)

print(message.content[0].text)
# 输出:情绪:复杂。正面:产品质量满意。负面:价格敏感,存在购买阻力。
你不一定要会写代码

API 是程序员的工具,这没错。但今天的 AI 时代,你不需要自己写代码才能利用 API 的力量。字节跳动的扣子(Coze)腾讯云自动化、以及海外的 Zapier、n8n 等"无代码自动化平台",让你通过拖拽界面就能连接 AI 和其他工具,构建自动化流程。对于国内用户,扣子是最推荐的入门工具——免费、中文界面、有大量现成的 Agent 模板可以直接用。

SECTION 02从对话到自动化:工作流与 Agent 的区别

理解了 API,下一个概念是自动化工作流(Workflow)和 Agent 的区别。这两个词经常被混用,但它们有根本性的不同。

工作流:有固定剧本的流水线

工作流是把 AI 嵌入一个预先设计好的流程中。每个步骤、每个分支都是程序员事先规划的,AI 在其中承担特定的角色,比如"在这一步生成邮件内容"、"在这一步判断用户意图"。

典型工作流示例:客户邮件自动回复
收到邮件
AI 分类邮件类型
路由到对应模板
AI 撰写个性化回复
人工审核
发送

工作流的优点:可预测、可靠、容易调试。缺点:遇到"剧本里没有的情况"就会卡住,需要人工干预。

Agent:能即兴发挥的"员工"

Agent 是完全不同的东西。Agent 由 AI 自主决定:下一步该做什么、调用哪个工具、是否需要重试、什么时候算完成。它的行为不是预先写死的,而是实时推理出来的。

给 Agent 一个目标("帮我调研 AI 行业最新动态,写一份 1000 字的中文摘要"),它会自主决定:先搜索什么关键词、访问哪些网页、如何筛选信息、以什么结构组织内容。整个过程,你不需要介入。

📋

工作流(Workflow)

• 步骤预先设计好
• AI 在指定位置发挥作用
• 可预测,便于质量控制
• 遇到意外需要人工处理
• 适合:重复性、标准化的任务

🤖

Agent(智能体)

• AI 自主规划和决策
• 可以调用各种工具(搜索、代码、文件等)
• 灵活应对未知情况
• 需要更多监督防止偏轨
• 适合:复杂、开放式的任务

关键判断标准

Anthropic 的研究团队在《构建高效 Agent》中给出了一个简洁的判断标准:任务是否需要动态调整?还是预定义流程就够了?如果答案是后者,工作流更好。工作流更可靠,更容易控制,不要为了显得高级而上 Agent。

SECTION 03Agent 是怎么工作的:感知、思考、行动的循环

一个 Agent 的核心,是一个不断重复的循环:感知环境 → 推理决策 → 执行行动 → 观察结果 → 继续推理……直到完成目标或遇到无法处理的情况。

Agent 的"工具箱"

让 Agent 强大的,是它能调用的工具列表。每个工具都是 Agent 的一只手——它可以随时决定伸出哪只手,做什么动作。

🔍

搜索工具

访问网络、检索数据库,获取最新信息,打破训练数据的时间限制。

💻

代码执行

编写并运行代码,进行数学计算、数据处理、文件操作,验证自己的推理。

📁

文件操作

读取、创建、修改文件。访问电子表格、文档、图片,持久化处理结果。

📧

通信接口

发送邮件、消息,调用第三方 API,与外部系统交互。

🌐

浏览器控制

像人一样操作浏览器:点击、填表、截图,完成需要页面交互的任务。

🧠

记忆管理

维护跨任务的记忆:记住用户偏好、历史操作,让 Agent 越用越懂你。

为什么说 Agent 是质变?

之前的 AI,是一个"有问必答的百科全书"——你问,它答。Agent 是一个"能完成任务的助手"——你说目标,它去做。这不只是量的提升,是 AI 角色的根本转变:从信息提供者,变成任务执行者。这个转变,正在让 AI 真正渗透到工作流程的核心。

SECTION 04五大 Agent 架构:它们是如何被设计的?

Anthropic 的研究团队在 2024 年末发布了一份影响深远的技术报告《构建高效 Agent》,系统总结了当前最成熟的 5 种 Agent 架构模式。理解这些模式,你就能看懂市面上大多数 AI Agent 产品的底层逻辑。

01 提示链(Prompt Chaining)

把一个复杂任务拆成多个顺序步骤,每步的输出作为下一步的输入。就像工厂流水线,每道工序各司其职。

核心价值:每步可以专注、可以检验,复杂任务被分解成可管理的块。

示例:用户需求 → 拆解子问题 → 逐一解答 → 合并报告
02 路由(Routing)

先判断任务类型,再分发给最合适的处理模块。就像呼叫中心的智能派单系统。

核心价值:不同类型的任务用不同的专用模型或流程,效果更好,成本更低。

示例:收到用户问题 → 判断是技术/商务/投诉 → 路由到对应专家模块
03 并行化(Parallelization)

多个 AI 实例同时处理不同子任务,最后汇总。速度提升的同时,还能用"多数投票"机制提升准确率。

核心价值:把线性时间变成并行时间;用多个视角减少单点偏差。

示例:同时让 3 个 AI 分析同一份合同,取共同结论,差异点人工复查
04 编排-工作者(Orchestrator-Workers)

一个"主 AI"负责拆解任务、分派给多个"子 AI"去执行,子 AI 完成后汇报给主 AI,由主 AI 综合决策。

核心价值:处理超出单次上下文能力的复杂长任务;自动调度,人只需设定目标。

示例:主 AI 拆解"调研竞品报告"→ 派 5 个子 AI 各研究一个竞品 → 主 AI 综合汇总
05 评估-优化(Evaluator-Optimizer)

一个 AI 负责生成内容,另一个 AI 负责评估和批评。两者形成迭代循环,直到质量达到标准。

核心价值:打破"自我验证"的盲区——自己写的东西,自己很难发现问题。换一个 AI 来评审,能找到第一个看不到的问题。

实际流程:
Writer AI → 生成内容

Critic AI → 发现问题,给出改进建议

Writer AI → 修改

循环,直到 Critic 评分达标
哪种架构最好?

没有最好的架构,只有最合适的架构。简单任务用提示链就够了,不要过度设计。复杂的质量敏感任务(如法律文书、医疗建议)用评估-优化。需要并行速度用并行化。需要自主完成开放任务用编排-工作者。真正高手的判断是:用最简单的架构解决当前的问题。

SECTION 05真实场景:Agent 正在改变哪些工作?

理论讲完了,来看真实世界里 Agent 已经在做什么。这些不是科幻,是 2024-2025 年已经落地的应用。

这些案例有一个共同模式:Agent 承担了人工作中"重复性、规则性、可拆解"的部分,人聚焦在"判断、创意、关系"的部分。这不是在取代人,而是在升级人的角色——从执行者变成审阅者和决策者。

SECTION 06你的入门路径:从对话框到 Agent 的三步跨越

你不需要一步跨越到复杂的 Agent 开发。这里给你一条循序渐进、人人都能走的路径。

🌱

第一步:用现成的 Agent 产品

先不自己搭建,直接用别人做好的 Agent 产品感受一下能力边界:

Kimi 搜索:国内最好的搜索 Agent,自动搜索+总结+引用

豆包:带记忆的对话 Agent,日常助手首选

扣子(Coze):字节推出的 Agent 搭建平台,有大量现成模板

Claude Projects(需 VPN):长期项目的专项 Agent

🔧

第二步:用扣子搭简单流程

扣子(coze.cn)是国内最易上手的无代码 Agent 搭建工具:

• 每日定时 → AI 搜集行业资讯 → 推送到微信

• 客户问题 → AI 分类 → 路由到不同回复模板

• 文章草稿 → AI 润色优化 → 生成多平台版本

完全不需要写代码,注册后 30 分钟能上手。

🚀

第三步:用 API 构建专属 Agent

如果你有编程基础,或者愿意学一点 Python:

• 调用 DeepSeek/Claude API 处理批量任务

• 用 LangChain 或 CrewAI 搭建多 Agent 系统

• 部署到阿里云/腾讯云,7×24 小时自动运行

这一步能解锁 AI 能力的天花板。

从今天开始的行动建议

今天就可以做的一件事:打开 Kimi(kimi.moonshot.cn,免费),开启"联网搜索"模式,输入一个你真正想研究的问题,比如"2025年中国 AI 行业最新动态"。观察它如何自主搜索多个来源、综合信息、给出带引用的答案——这就是最简单的搜索 Agent,也是你进入 Agent 世界的第一步。

本章核心要点

  • API 是让程序直接调用 AI 的接口——它让 AI 从"对话工具"变成"可编程的组件",可以批量处理、嵌入任何工作流程。
  • 工作流是预先设计好的自动化流程,AI 在固定位置发挥作用;Agent 是能自主决策、调用工具、完成开放任务的智能体。复杂未必更好,选对才重要。
  • Agent 的核心是"感知→推理→行动"的循环,工具箱包括搜索、代码执行、文件操作、通信接口等。
  • Anthropic 总结的五大架构模式:提示链、路由、并行化、编排-工作者、评估-优化。每种有其适用场景,用最简单的架构解决当前问题。
  • Agent 的真正价值:承担人工中"重复性、规则性"的部分,让人聚焦在"判断、创意、关系"的高价值部分——这是升级而不是替代。
  • 入门三步:先用现成 Agent 产品体验 → 用无代码工具搭简单流程 → 有能力则学 API 构建专属 Agent。
下一章预告

前七章,我们建立了 AI 的基础认知。下一章我们要聊一个所有人都绕不开的话题:AI 安全的底线。AI 会不会伤害你?你的隐私安全吗?AI 会不会被用来针对你?在全面拥抱 AI 之前,把这些风险看清楚,是每个 AI 原住民的必修课。

← 上一章 Ch05 · 上下文窗口与 Token 📖 目录 返回目录 下一章 → Ch08 · AI 安全底线