Ch41 · 错误恢复SOP

01 · 正确的第一反应不是"这破AI"

新手和成熟用户面对AI垃圾输出时的反应截然不同。新手会说"这AI真烂"，然后放弃或者换个模型。成熟用户会停下来问："这个失败信息在告诉我什么？"

这不是心理建设，而是一个可操作的思维转变。垃圾结果不是终点，而是诊断信号。它告诉你：

你的提示词哪里不清楚
AI对这个任务的理解差了什么维度
这个任务对AI来说是否已经超出能力范围
你对问题的认知是否有遗漏

把失败变成信息，这就是从消费者心态升级到工程师心态的关键。消费者说"这个产品不好用"，工程师说"我需要调试这个系统"。

关键认知转变：AI的失败是你系统设计的失败，不是AI品质的失败。如果AI输出不满意，那就说明你的"输入→处理→输出"这个循环的某个环节需要改进。

02 · 五步错误恢复 SOP

当AI给你一个让人不满意的结果时，跟着这五步走。这不是建议，而是一套标准操作流程（SOP）。

停止（Stop）

不要在错误的基础上继续堆砌。立刻停止当前路径。很多人的习惯是"再问一遍"或者"继续追问"，结果AI在错误的理解基础上继续错下去。立即叫停，就像在冲刺时突然看到悬崖，你必须紧急制动，而不是试图在错误的方向上加速修正。

诊断（Diagnose）

是哪种错误？幻觉（AI编造了不存在的事实）？误解（AI没理解你的要求）？超限（这个任务AI根本做不到）？格式（输出形式乱了）？四种错误类型需要完全不同的修复策略。花30秒诊断，能节省你30分钟的瞎试。

重构（Restructure）

根据诊断结果，选择专项修复策略。幻觉用核查法，误解用示例法，超限用拆分法，格式用模板法。这一步是你从"试试看"变成"有的放矢"的转折点。不同的错误需要不同的手术方案。

验证（Verify）

修复后的输出，用什么方法验证是否真的解决了问题？事实类用搜索引擎核对，逻辑类用反例测试，格式类用目检法。验证不是多余的，它确保你不会把一个"漂亮的错误"当成了正确答案。

记录（Record）

把这个失败模式记下来，建立你个人的踩坑库。"在Y场景下提X要求时，AI容易犯Z错误，修复方案是W"。下次遇到类似场景，你就不需要重新诊断，直接用已验证的方案。这是把一次失败变成永久知识的唯一方法。

03 · 四种错误类型的专项修复策略

幻觉型：AI编造了不存在的事实

症状："根据XYZ公司2023年财报…"（但这家公司根本没有公开财报）；"某著名研究表明…"（搞不清是真论文还是AI编造的）。

修复策略：

要求源标注："请在每个事实后面标注来源。如果你不确定来源，就标注为[不确定]"
交叉核查：把AI的答案贴到搜索引擎里验证，或者问另一个AI的同意见
换问法：不问"A是什么"，改问"A的哪三个权威来源可以查到"

误解型：AI没理解你真正的需求

症状：AI理解了字面意思，但没抓到核心意图；或者只完成了任务的一部分；或者理解反了。

修复策略：

重新CRAFT：用CRAFT框架完整表述一遍，特别是Context和Format
加具体示例："我要的不是ABC，是这样的：[输入示例] → [你期望的输出示例]"
反向验证：先让AI说一遍"我理解你的需求是…"，你确认后再做任务

超限型：这个任务AI根本做不到

症状：不管怎么问，AI都做不了；或者AI给出的答案质量特别差，明显超过了它的能力范围。

修复策略：

拆分任务：把大任务分解成更小的、AI能做的子任务
降低难度：从"生成创意"改成"评估这个创意"；从"做决策"改成"列举决策因素"
换模型或工具：有的任务Claude做不了，GPT-4可能行；有的任务AI做不了，得靠专业软件

格式型：输出乱了

症状：AI的内容可能不错，但排版乱、结构不清、不符合你的使用场景。

修复策略：

明确Format要求："用Markdown格式，三级标题开头，每段不超过200字"
给模板：直接给出你要的结构，AI按模板填空往往比自由发挥更准确
要求输出验证："完成后，列出你输出的结构清单，确认符合要求"

04 · 3-Strike 升级原则

如果同一个问题连续失败3次，你必须升级策略。不允许在同一条路上反复撞墙。

这不是建议，这是一条纪律。为什么？因为AI的学习能力有天花板。如果换个问法后还是失败，那就说明你的整个方向可能需要调整。

3-Strike 升级检查表：
第1次失败 → 微调提示词
第2次失败 → 改变问题分解方式
第3次失败 → 彻底换思路（换框架/换模型/换方法）
如果还是不行 → 这个任务可能不适合AI，考虑人工或其他工具

升级意味着什么？

换提示词框架：从"一次性问题"改成"多轮对话"，或从"自由生成"改成"约束化生成"
换问题分解方式：不是把问题切得更细，而是换个角度切，可能是功能维度、时间维度或角色维度
换模型深度：从Claude改成GPT-4，或用多模型配合

05 · 建立你的个人踩坑库

把每一个失败变成可复用的知识。你的踩坑库就是你和AI协作的经验数据库。

为什么要记录

不是为了炫耀"我踩过这个坑"，而是为了下次不再重复踩。你用AI的次数越多，遇到的错误类型就越多。没有记录的话，这些经验就会散落，每次都像第一次遇见一样。

记录的标准格式

踩坑库记录模板

场景：用AI生成季度总结，涉及具体数据
错误类型：幻觉
症状： AI编造了不存在的部门业绩数据
修复方案：让AI先列举所有需要验证的数据点，然后要求"对于没有明确提供的数据，标注为[需核实]，不要编造"
验证方法：对比AI输出和源数据，确保所有数字都有出处
效果：成功率从40%提升到95%

如何持续维护

踩坑库不是记完就忘的笔记，而是活跃的知识库。建议的维护方式：

每周5分钟，回顾这周遇到的3-5个失败案例，按格式记录
每月整理一次，看看有没有重复的错误模式，可以合并或优化
跨越新模型时，用旧模型的踩坑库快速调试新模型在同样场景下的表现
和团队分享，而不是闷在心里。一个人的踩坑库有100条记录，10个人的踩坑库可以互补成1000条

Exercise · 实战演练

锻炼你的错误诊断能力

场景1：内容创作失败
你要AI写一份"面向25-35岁高管的LinkedIn文案"，AI给了个特别生硬的公文体。这是哪种错误？用哪个修复策略？写出你的诊断+修复提示词。
场景2：数据幻觉
你问AI"苹果公司在2024年Q1的营收是多少"，AI给了个数字。你怎么验证这个数字的真假？设计一个修复策略。
场景3：超限任务
你想让AI根据一段混乱的录音记录生成完整的会议纪要。AI试了几次都做得很差。这是超限吗？有没有其他办法？
场景4：建立你自己的踩坑库
选择你最近一个AI失败的案例（真实的），按照"场景-错误类型-症状-修复方案-验证方法-效果"的格式记录下来。下次遇到类似场景，你就有了参考。

06 · AI 输出诊断树——60 秒定位问题

前面讲了理论框架，现在来一个实战工具：一棵能在60秒内诊断任何AI失败的决策树。遇到垃圾输出，跟着这棵树走，逐步缩小问题范围，最后精准定位根本原因和修复方案。

🔍 第一步：输出了什么？

快速判断输出的症状类型。选择最符合的一个：

分支 A

输出太短 / 拒绝回答

原因：触发了安全过滤

修复：重新措辞，避免敏感词；用更温和的表述换个角度问

原因：任务不清晰

修复：用 CRAFT 框架完整重写提示词，特别补充 Context 和约束条件

原因：上下文太长导致截断

修复：精简上下文，删除无关内容；或分段处理（先处理前半部分，再处理后半部分）

分支 B

输出离题 / 答非所问

原因：提示词有歧义

修复：加入具体约束和示例（few-shot），明确告诉 AI「我不要什么」

原因：角色设定误导了方向

修复：调整角色设定或移除它；用「以专家的身份」替换「假装你是…」

原因：上下文中有干扰信息

修复：清理上下文，只保留最相关的部分；把无关背景信息删掉

分支 C

输出有事实错误

原因：知识截止日期之后的信息

修复：在提示词中提供最新信息作为上下文；或说「根据以下最新数据…」

原因：罕见 / 专业领域知识超出训练数据

修复：提供参考资料给 AI，要求「基于以下材料回答，不要凭记忆编造」

原因：AI 自信地编造（「幻觉」）

修复：要求 AI 标注不确定部分；加上「如果你不确定，请说『我不知道』而不是猜测」

分支 D

输出质量差（啰嗦、模板化、缺深度）

原因：提示词太模糊

修复：明确指定期望的深度、长度、风格；用「简洁专业」代替「好的」

原因：没有提供示例

修复：用 few-shot，给 1-3 个具体示例说明「好的输出应该是这样」

原因：Temperature 太高（如果可调）

修复：降低 Temperature 或明确要求「请严谨、精准地回答，避免冗余」

分支 E

输出格式错误

原因：没有明确指定格式

修复：在提示词中详细说明格式（Markdown、JSON、表格、列表等）

原因：格式指令被忽略

修复：把格式要求放在提示词的最后（AI 对末尾指令更敏感）；或用「---」分隔出格式说明

原因：输出太长导致格式崩坏

修复：分段生成（「先列出标题，再逐个展开」）或限制字数（「不超过 500 字」）

⚡ 修复速查表

根据症状快速找到修复方案。按优先级尝试——高优先级通常能解决 80% 的问题。

症状	最可能的原因	修复方案（按优先级）	诊断时间
拒绝回答 / 输出太短	安全过滤 / 任务不清	1. 换个温和的措辞 2. 用 CRAFT 重写 3. 精简上下文	10 秒
完全答非所问	歧义提示词 / 角色误导	1. 加具体示例 2. 加约束条件 3. 清理上下文	15 秒
编造事实	知识外 / 自信幻觉	1. 提供参考资料 2. 要求标注不确定 3. 改问法验证	20 秒
啰嗦 / 模板化	提示词太模糊 / 无示例	1. 给出好坏示例 2. 明确深度要求 3. 加「避免冗余」约束	15 秒
格式乱	无格式指令 / 太长截断	1. 明确指定格式 2. 格式要求放最后 3. 限制字数分段	10 秒
质量总体差	可能是超限任务	1. 试试 3-Strike 升级 2. 拆分任务 3. 换模型或工具	30 秒

如何用这棵树

第一次遇到失败输出：扫一遍五个分支（A-E），判断属于哪一种。单这一步就能淘汰 60% 的错误修复方案，直接针对根本原因。

进入对应分支后：看原因1-3，问自己「哪个最可能」。不确定的话，就按顺序试。通常原因1就能解决问题。

应用修复方案：每个原因下都有对应的修复措施，直接复制到你的提示词里，不需要自己想。

记录和复用：每次成功修复，把「症状 → 分支 → 原因 → 修复」这个路径记到你的踩坑库里。下次遇到完全一样的问题，0秒诊断，直接用已验证方案。

实战建议：把这棵树截图或打印出来贴在工作区。前 5 次用可能需要 30-60 秒才能找到答案。用到第 20 次，你就能在 10 秒内诊断任何 AI 失败，因为常见的模式早就刻在脑子里了。