Ch14 · AI 输出质量的评估框架

01 · 你可能正在犯一个常见错误

大多数人评估 AI 输出的方式是：看起来不错，感觉挺好，就用了。

这在低风险场景下勉强可以——比如问一个菜谱、找个句子改改语气。但只要涉及任何重要的事：商业决策、医疗建议、法律问题、技术实现……这个策略会让你付出代价。

核心问题：AI 生成的文字和"正确答案"的文字，在语感上几乎没有区别。自信的错误听起来和自信的正确答案一模一样。你的直觉会被语言质量欺骗，而不是内容质量。

一个律师助理看到 AI 写出的案例分析，措辞严谨、逻辑清晰、引用详尽——他直接用了。结果 3 个案例是 AI 虚构的，法庭上被直接打脸。一个产品经理让 AI 分析竞品，得到了一份有数据、有图表的漂亮报告——但数据是 AI 基于训练期的记忆"推算"的，竞品早就换了策略。

问题不是 AI 说错了你没发现。问题是你没有建立评估习惯，就等于默认信任了一个有时正确、有时一本正经地说错话的系统。

02 · CARLA 评估框架

这不是某个权威机构的官方标准——而是从大量实践中提炼出的，五个你每次都应该问自己的问题。

记忆方法：CARLA——五个维度的首字母。

Correctness · 准确性

事实层面是否正确？核心信息是否有据可查？

这个事实我能验证吗？

有没有可疑的"具体数字"？

它引用了真实来源吗？

Alignment · 对齐性

AI 回答的，是你真正想问的吗？有没有答非所问？

它回答了我的核心问题吗？

有没有在绕弯子回避重点？

它的假设和我的情况一致吗？

Reasoning · 推理性

逻辑链是否成立？结论是否由前提自然推导？

论据能支撑结论吗？

有没有跳跃性推断？

前提假设合理吗？

Limitation · 局限性

AI 是否承认了它的不确定？有没有过度自信？

它说"可能"了吗，还是全都是肯定句？

有没有说明不适用的情况？

知识截止日期有影响吗？

Actionability · 可用性

这个输出在你的实际场景里能直接用吗？

建议是否具体可执行？

有没有遗漏你的关键约束？

需要做哪些适配才能用？

使用方式：不必每次把五个维度都深入审查。根据任务风险等级决定力度——低风险（闲聊、头脑风暴）快速扫一遍；高风险（专业建议、对外发布、重要决策）逐项认真核查。

03 · 互动评分器：给你的 AI 输出打分

把你刚刚得到的某个 AI 输出放在旁边，用下面这个评分器对照评估。每个维度 1–5 分。

🧪 AI 输出质量评分器

点击星星为每个维度评分（1星 = 很差，5星 = 很好）

—

/ 25 分

完成评分后查看结果

为五个维度各打分，即可得到综合评估

当你的总分低于 15 分，通常意味着这个输出需要大幅修改或重新提问。高于 20 分，说明输出质量较高，做针对性调整后可以使用。

04 · 不同输出类型，评估重点不同

CARLA 是通用框架，但在具体应用时，不同任务类型有不同的评估侧重点。

输出类型	最重要的维度	最常见的坑	核查方式
事实查询（定义、历史、数据）	准确性 ↑↑↑	虚构来源、数字错误、过时信息	搜索引擎交叉核实，尤其是数字和人名
分析报告（竞品分析、市场调研）	推理性 ↑↑↑ + 局限性	基于过时数据，逻辑跳跃，结论过于笼统	追问"你的数据来源是"，核查关键数字
创意写作（文案、故事）	对齐性 ↑↑↑ + 可用性	风格不对、没抓住受众、过于公式化	大声朗读，感受语感；让目标用户看看
建议决策（方案选择、策略）	局限性 ↑↑↑ + 可用性	遗漏重要约束，过度简化，缺乏风险提示	追问"有什么你没考虑到的情况吗"
代码生成	准确性 ↑↑↑ + 可用性	编译可过但逻辑有误，依赖版本不匹配	运行测试，边界条件检查，code review
翻译润色	对齐性 ↑↑↑	过度意译，专业术语错误，语气偏移	对照原文逐段检查，关键术语单独确认

05 · 七个高风险信号

这些是 AI 输出中需要立即提高警惕的语言模式。它们不一定意味着输出是错的，但意味着你需要主动去核实。

🔢

精确的数字

比如"该市场 2024 年规模达到 473.2 亿美元"。AI 经常"杜撰精确数字"——越具体的数字越需要核实，因为精确本身会降低你的警惕性。

📚

引用具体来源

比如"根据《哈佛商业评论》2023年3月的研究"——AI 经常虚构出听起来真实的论文标题、期刊名、作者名。遇到具体引用，务必自行搜索验证。

🎯

过于完美的例子

当 AI 给出的案例恰好完美印证它的观点，没有任何例外，要怀疑。真实世界充满例外，完美论证通常是 AI 在"构造"而非"描述"。

📅

涉及近一两年的信息

AI 的知识有截止日期。任何关于近年发生的事情、最新产品、近期政策——都需要用搜索引擎确认，不管 AI 说得多么肯定。

👤

具体人物的言论

比如"马化腾曾说过……"、"李彦宏在某次演讲中指出……"——AI 经常"发明"名人语录。除非能找到原始出处，不要引用任何 AI 提供的人物语录。

⚖️

法律/医疗/财务建议

AI 可以帮你理解概念，但不能替代专业人士的判断。这三个领域的输出，用于理解背景可以，用于实际决策必须经专业人士确认。

🔄

前后矛盾

在同一个回答里，或者跨多次对话，AI 对同一个事实给出了不同的表述。这是一个强烈信号——它在凑答案，而不是提取知识。

06 · 评估后怎么办：追问的技术

发现质量问题后，很多人的本能是放弃这个对话，重新开始。但更高效的做法是定向追问——用具体的评估维度告诉 AI 哪里不够好。

❌ 低效追问

"这个回答不太好，重新写一下"

问题：没有给 AI 具体信息，它只会给你一个风格不同但同样问题的新版本。

✓ 精准追问

"你引用的那个数字（473 亿美元）是哪里来的？能告诉我数据来源吗？"

原则：针对具体维度追问，迫使 AI 明确信息来源和置信度。

❌ 低效追问

"你的分析太浅了，给我更深入的分析"

✓ 精准追问

"你的分析没有考虑到我们是 B2B 公司、目标客户是中小企业这个约束。基于这个重新分析一下，重点说渠道策略。"

❌ 低效追问

"逻辑有问题，帮我修一下"

✓ 精准追问

"你在第 3 点中说'用户愿意付费因为产品质量好'，但这个推断没有考虑竞品价格和用户替代成本，请补充这两个因素重新推导结论。"

万能追问句式："你在 [X 位置] 说了 [Y 内容]，但我注意到 [Z 疑点/遗漏/假设]，请针对这一点重新推导/说明/补充。"

07 · 三阶段评估流程

把评估行为嵌入使用流程的三个阶段，而不是事后补救。

预设评估标准

这个输出要用在哪？
哪些维度最重要？
什么结果意味着我需要二次核实？
在提示词里就说清楚要求（如"请说明信息来源"）

快速扫描

用 CARLA 扫描一遍
标记所有"高风险信号"
判断是否需要追问
低风险任务：60 秒扫描
高风险任务：逐段审查

关键信息核实

数字/来源：搜索引擎核查
逻辑链：拆解每一步推断
时效性：确认知识截止影响
适配性：结合实际情况调整

节省时间的原则：评估成本要低于出错成本。闲聊和头脑风暴，快速扫一眼就够了；涉及对外发布、重要决策、专业建议的内容，值得花 5–10 分钟认真核查。

🎯 本章练习：实战评估

把这个框架用于真实场景，是建立习惯的最快方法。

选一个你工作中会问 AI 的真实问题（可以是分析、建议、查询任何类型），发给 AI 得到一个输出。
用 CARLA 框架对这个输出逐维度评分（就用本章的互动评分器）。
找出最低分的那个维度，写出一个针对该维度的追问句子。
发送追问，对比前后两次输出的质量差异。
思考：你原本会直接用第一次的输出吗？有没有发现之前你会忽视的问题？

← 上一章 Ch13 · 提示词认知科学 📖 目录返回目录下一章 → Ch15 · 模块二练习