Ch07 · API 与 Agent · AI 原住民养成手册

SECTION 01API 是什么：打开 AI 工厂的后门

绝大多数人用 AI 的方式是这样的：打开网页或 App，在对话框里打字，等 AI 回答。这当然很好用，但这只是 AI 能力的冰山一角。

API（Application Programming Interface，应用程序接口）是另一种使用方式：让程序直接跟 AI 对话，不需要人在中间操作。你可以把它理解为 AI 工厂的后门——专门给程序员和开发者用的，可以批量调用、集成到自己的应用里、实现自动化。

🖥️ 聊天界面（你现在用的）

打开网页/App，手动输入问题，等待回答，再手动处理结果。

一次只能处理一个问题，需要人全程参与。

适合：日常对话、探索、创意工作

VS

⚡ API 调用（程序在用的）

程序自动发送请求，接收结果，继续处理——无需人工介入。

可以同时处理数千个请求，完全自动化。

适合：批量处理、自动化流程、产品开发

举一个具体例子：假设你有一份 500 行的销售数据，每行都是一段客户反馈，你想分析每条反馈的情绪（正面/负面/中性）。

用聊天界面：你要复制粘贴 500 次，等 500 次回答，再整理 500 次结果。大概需要 10 小时。

用 API：写一段 20 行的代码，让程序自动把 500 条数据依次发给 AI，收集回答，输出结果表格。大概需要 3 分钟。

这就是 API 的价值：把 AI 的智能变成可以批量调用的组件，嵌入到任何你想要的流程里。

# 一次 API 调用的基本形态（Python，以 Claude 为例）
import anthropic

client = anthropic.Anthropic(api_key="your-api-key")

message = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "帮我分析这条反馈的情绪：用户说觉得产品很不错但价格偏高"}
    ]
)

print(message.content[0].text)
# 输出：情绪：复杂。正面：产品质量满意。负面：价格敏感，存在购买阻力。

你不一定要会写代码

API 是程序员的工具，这没错。但今天的 AI 时代，你不需要自己写代码才能利用 API 的力量。字节跳动的扣子（Coze）、腾讯云自动化、以及海外的 Zapier、n8n 等"无代码自动化平台"，让你通过拖拽界面就能连接 AI 和其他工具，构建自动化流程。对于国内用户，扣子是最推荐的入门工具——免费、中文界面、有大量现成的 Agent 模板可以直接用。

SECTION 02从对话到自动化：工作流与 Agent 的区别

理解了 API，下一个概念是自动化工作流（Workflow）和 Agent 的区别。这两个词经常被混用，但它们有根本性的不同。

工作流：有固定剧本的流水线

工作流是把 AI 嵌入一个预先设计好的流程中。每个步骤、每个分支都是程序员事先规划的，AI 在其中承担特定的角色，比如"在这一步生成邮件内容"、"在这一步判断用户意图"。

典型工作流示例：客户邮件自动回复

收到邮件

→

AI 分类邮件类型

→

路由到对应模板

→

AI 撰写个性化回复

→

人工审核

→

发送

工作流的优点：可预测、可靠、容易调试。缺点：遇到"剧本里没有的情况"就会卡住，需要人工干预。

Agent：能即兴发挥的"员工"

Agent 是完全不同的东西。Agent 由 AI 自主决定：下一步该做什么、调用哪个工具、是否需要重试、什么时候算完成。它的行为不是预先写死的，而是实时推理出来的。

给 Agent 一个目标（"帮我调研 AI 行业最新动态，写一份 1000 字的中文摘要"），它会自主决定：先搜索什么关键词、访问哪些网页、如何筛选信息、以什么结构组织内容。整个过程，你不需要介入。

📋

工作流（Workflow）

• 步骤预先设计好
• AI 在指定位置发挥作用
• 可预测，便于质量控制
• 遇到意外需要人工处理
• 适合：重复性、标准化的任务

🤖

Agent（智能体）

• AI 自主规划和决策
• 可以调用各种工具（搜索、代码、文件等）
• 灵活应对未知情况
• 需要更多监督防止偏轨
• 适合：复杂、开放式的任务

关键判断标准

Anthropic 的研究团队在《构建高效 Agent》中给出了一个简洁的判断标准：任务是否需要动态调整？还是预定义流程就够了？如果答案是后者，工作流更好。工作流更可靠，更容易控制，不要为了显得高级而上 Agent。

SECTION 03Agent 是怎么工作的：感知、思考、行动的循环

一个 Agent 的核心，是一个不断重复的循环：感知环境 → 推理决策 → 执行行动 → 观察结果 → 继续推理……直到完成目标或遇到无法处理的情况。

Agent 的"工具箱"

让 Agent 强大的，是它能调用的工具列表。每个工具都是 Agent 的一只手——它可以随时决定伸出哪只手，做什么动作。

🔍

搜索工具

访问网络、检索数据库，获取最新信息，打破训练数据的时间限制。

💻

代码执行

编写并运行代码，进行数学计算、数据处理、文件操作，验证自己的推理。

📁

文件操作

读取、创建、修改文件。访问电子表格、文档、图片，持久化处理结果。

📧

通信接口

发送邮件、消息，调用第三方 API，与外部系统交互。

🌐

浏览器控制

像人一样操作浏览器：点击、填表、截图，完成需要页面交互的任务。

🧠

记忆管理

维护跨任务的记忆：记住用户偏好、历史操作，让 Agent 越用越懂你。

为什么说 Agent 是质变？

之前的 AI，是一个"有问必答的百科全书"——你问，它答。Agent 是一个"能完成任务的助手"——你说目标，它去做。这不只是量的提升，是 AI 角色的根本转变：从信息提供者，变成任务执行者。这个转变，正在让 AI 真正渗透到工作流程的核心。

SECTION 04五大 Agent 架构：它们是如何被设计的？

Anthropic 的研究团队在 2024 年末发布了一份影响深远的技术报告《构建高效 Agent》，系统总结了当前最成熟的 5 种 Agent 架构模式。理解这些模式，你就能看懂市面上大多数 AI Agent 产品的底层逻辑。

01 提示链（Prompt Chaining）

把一个复杂任务拆成多个顺序步骤，每步的输出作为下一步的输入。就像工厂流水线，每道工序各司其职。

核心价值：每步可以专注、可以检验，复杂任务被分解成可管理的块。

示例：用户需求 → 拆解子问题 → 逐一解答 → 合并报告

02 路由（Routing）

先判断任务类型，再分发给最合适的处理模块。就像呼叫中心的智能派单系统。

核心价值：不同类型的任务用不同的专用模型或流程，效果更好，成本更低。

示例：收到用户问题 → 判断是技术/商务/投诉 → 路由到对应专家模块

03 并行化（Parallelization）

多个 AI 实例同时处理不同子任务，最后汇总。速度提升的同时，还能用"多数投票"机制提升准确率。

核心价值：把线性时间变成并行时间；用多个视角减少单点偏差。

示例：同时让 3 个 AI 分析同一份合同，取共同结论，差异点人工复查

04 编排-工作者（Orchestrator-Workers）

一个"主 AI"负责拆解任务、分派给多个"子 AI"去执行，子 AI 完成后汇报给主 AI，由主 AI 综合决策。

核心价值：处理超出单次上下文能力的复杂长任务；自动调度，人只需设定目标。

示例：主 AI 拆解"调研竞品报告"→ 派 5 个子 AI 各研究一个竞品 → 主 AI 综合汇总

05 评估-优化（Evaluator-Optimizer）

一个 AI 负责生成内容，另一个 AI 负责评估和批评。两者形成迭代循环，直到质量达到标准。

核心价值：打破"自我验证"的盲区——自己写的东西，自己很难发现问题。换一个 AI 来评审，能找到第一个看不到的问题。

实际流程：
Writer AI → 生成内容
↓
Critic AI → 发现问题，给出改进建议
↓
Writer AI → 修改
↓
循环，直到 Critic 评分达标

哪种架构最好？

没有最好的架构，只有最合适的架构。简单任务用提示链就够了，不要过度设计。复杂的质量敏感任务（如法律文书、医疗建议）用评估-优化。需要并行速度用并行化。需要自主完成开放任务用编排-工作者。真正高手的判断是：用最简单的架构解决当前的问题。

SECTION 05真实场景：Agent 正在改变哪些工作？

理论讲完了，来看真实世界里 Agent 已经在做什么。这些不是科幻，是 2024-2025 年已经落地的应用。

📊 数据分析自动化：一键生成周报效率提升 90%+

某电商公司的数据团队，原来每周需要 2 名数据分析师花 1 天时间整理各渠道数据、编写分析报告。

引入 Agent 后：Agent 每周一自动从数据库拉取数据 → 用代码工具计算各项指标 → 对比上周数据 → 识别异常点 → 用自然语言撰写分析洞见 → 输出完整 PDF 报告。整个过程 40 分钟完成，人工只需花 15 分钟审阅。

两名分析师从重复性报告工作中解放出来，专注于更有价值的策略分析和实验设计。
⚖️ 法律文件审查：合同逐条核对成本降低 60%

律所的初级律师花大量时间做合同审阅——逐条核对条款、标注风险点、与标准模板对比。这些工作费时费力，但价值相对有限。

Agent 解决方案：上传合同 → Agent 逐页阅读 → 与律所合规标准库对比 → 标注偏离点和风险条款 → 生成审阅报告。律师只需复查 Agent 标注的高风险部分，大量低风险条款直接通过。

一份 200 页的合同，人工需要 4-6 小时，Agent 需要 15 分钟，律师复查需要 30 分钟。总时间减少 80%。
💻 软件开发辅助：从需求到代码编码效率翻倍

GitHub Copilot、Cursor、Claude Code 等 AI 编程助手，本质上都是 Agent——它们不只是"补全代码"，而是能读懂整个代码库、理解上下文、自主修改多个文件、运行测试验证结果。

一个使用 Claude Code 的开发者描述：以前写一个新功能需要 2-3 小时，现在描述需求给 Agent，它会自主：分析现有代码结构 → 设计实现方案 → 编写代码 → 运行测试 → 修复 Bug → 提交变更。开发者从"码农"变成了"需求审阅者"，全程约 30 分钟。
🎯 内容营销：一个人运营多个渠道内容产量增加 5x

一个创业公司的市场经理，原来每周能产出 2-3 篇文章、1 份邮件营销、3-5 条社交媒体内容。

引入 Agent 工作流后：Agent 每天自动搜集行业动态 → 筛选有价值的素材 → 起草内容草稿 → 按不同平台调整风格和格式 → 生成日历安排。市场经理审阅、修改、发布。每周内容产量增加到 10+ 篇文章，3 份邮件，20+ 条社交内容。人力不变，产量翻倍。

这些案例有一个共同模式：Agent 承担了人工作中"重复性、规则性、可拆解"的部分，人聚焦在"判断、创意、关系"的部分。这不是在取代人，而是在升级人的角色——从执行者变成审阅者和决策者。

SECTION 06你的入门路径：从对话框到 Agent 的三步跨越

你不需要一步跨越到复杂的 Agent 开发。这里给你一条循序渐进、人人都能走的路径。

🌱

第一步：用现成的 Agent 产品

先不自己搭建，直接用别人做好的 Agent 产品感受一下能力边界：

• Kimi 搜索：国内最好的搜索 Agent，自动搜索+总结+引用

• 豆包：带记忆的对话 Agent，日常助手首选

• 扣子（Coze）：字节推出的 Agent 搭建平台，有大量现成模板

• Claude Projects（需 VPN）：长期项目的专项 Agent

🔧

第二步：用扣子搭简单流程

扣子（coze.cn）是国内最易上手的无代码 Agent 搭建工具：

• 每日定时 → AI 搜集行业资讯 → 推送到微信

• 客户问题 → AI 分类 → 路由到不同回复模板

• 文章草稿 → AI 润色优化 → 生成多平台版本

完全不需要写代码，注册后 30 分钟能上手。

🚀

第三步：用 API 构建专属 Agent

如果你有编程基础，或者愿意学一点 Python：

• 调用 DeepSeek/Claude API 处理批量任务

• 用 LangChain 或 CrewAI 搭建多 Agent 系统

• 部署到阿里云/腾讯云，7×24 小时自动运行

这一步能解锁 AI 能力的天花板。

从今天开始的行动建议

今天就可以做的一件事：打开 Kimi（kimi.moonshot.cn，免费），开启"联网搜索"模式，输入一个你真正想研究的问题，比如"2025年中国 AI 行业最新动态"。观察它如何自主搜索多个来源、综合信息、给出带引用的答案——这就是最简单的搜索 Agent，也是你进入 Agent 世界的第一步。

本章核心要点

API 是让程序直接调用 AI 的接口——它让 AI 从"对话工具"变成"可编程的组件"，可以批量处理、嵌入任何工作流程。
工作流是预先设计好的自动化流程，AI 在固定位置发挥作用；Agent 是能自主决策、调用工具、完成开放任务的智能体。复杂未必更好，选对才重要。
Agent 的核心是"感知→推理→行动"的循环，工具箱包括搜索、代码执行、文件操作、通信接口等。
Anthropic 总结的五大架构模式：提示链、路由、并行化、编排-工作者、评估-优化。每种有其适用场景，用最简单的架构解决当前问题。
Agent 的真正价值：承担人工中"重复性、规则性"的部分，让人聚焦在"判断、创意、关系"的高价值部分——这是升级而不是替代。
入门三步：先用现成 Agent 产品体验 → 用无代码工具搭简单流程 → 有能力则学 API 构建专属 Agent。

下一章预告

前七章，我们建立了 AI 的基础认知。下一章我们要聊一个所有人都绕不开的话题：AI 安全的底线。AI 会不会伤害你？你的隐私安全吗？AI 会不会被用来针对你？在全面拥抱 AI 之前，把这些风险看清楚，是每个 AI 原住民的必修课。