第十四章 · 模块二:深度使用

AI 输出质量的评估框架

AI 说得头头是道,但怎么判断它说得对不对?建立一套系统的评估方法,是从"随便用用"到"深度使用"的分水岭。

01 · 你可能正在犯一个常见错误

大多数人评估 AI 输出的方式是:看起来不错,感觉挺好,就用了

这在低风险场景下勉强可以——比如问一个菜谱、找个句子改改语气。但只要涉及任何重要的事:商业决策、医疗建议、法律问题、技术实现……这个策略会让你付出代价。

核心问题:AI 生成的文字和"正确答案"的文字,在语感上几乎没有区别。自信的错误听起来和自信的正确答案一模一样。你的直觉会被语言质量欺骗,而不是内容质量。

一个律师助理看到 AI 写出的案例分析,措辞严谨、逻辑清晰、引用详尽——他直接用了。结果 3 个案例是 AI 虚构的,法庭上被直接打脸。一个产品经理让 AI 分析竞品,得到了一份有数据、有图表的漂亮报告——但数据是 AI 基于训练期的记忆"推算"的,竞品早就换了策略。

问题不是 AI 说错了你没发现。问题是你没有建立评估习惯,就等于默认信任了一个有时正确、有时一本正经地说错话的系统。

02 · CARLA 评估框架

这不是某个权威机构的官方标准——而是从大量实践中提炼出的,五个你每次都应该问自己的问题

记忆方法:CARLA——五个维度的首字母。

C
Correctness · 准确性
事实层面是否正确?核心信息是否有据可查?
这个事实我能验证吗?
有没有可疑的"具体数字"?
它引用了真实来源吗?
A
Alignment · 对齐性
AI 回答的,是你真正想问的吗?有没有答非所问?
它回答了我的核心问题吗?
有没有在绕弯子回避重点?
它的假设和我的情况一致吗?
R
Reasoning · 推理性
逻辑链是否成立?结论是否由前提自然推导?
论据能支撑结论吗?
有没有跳跃性推断?
前提假设合理吗?
L
Limitation · 局限性
AI 是否承认了它的不确定?有没有过度自信?
它说"可能"了吗,还是全都是肯定句?
有没有说明不适用的情况?
知识截止日期有影响吗?
A
Actionability · 可用性
这个输出在你的实际场景里能直接用吗?
建议是否具体可执行?
有没有遗漏你的关键约束?
需要做哪些适配才能用?
使用方式:不必每次把五个维度都深入审查。根据任务风险等级决定力度——低风险(闲聊、头脑风暴)快速扫一遍;高风险(专业建议、对外发布、重要决策)逐项认真核查。

03 · 互动评分器:给你的 AI 输出打分

把你刚刚得到的某个 AI 输出放在旁边,用下面这个评分器对照评估。每个维度 1–5 分。

🧪 AI 输出质量评分器

点击星星为每个维度评分(1星 = 很差,5星 = 很好)

/ 25 分
完成评分后查看结果
为五个维度各打分,即可得到综合评估

当你的总分低于 15 分,通常意味着这个输出需要大幅修改或重新提问。高于 20 分,说明输出质量较高,做针对性调整后可以使用。

04 · 不同输出类型,评估重点不同

CARLA 是通用框架,但在具体应用时,不同任务类型有不同的评估侧重点。

输出类型 最重要的维度 最常见的坑 核查方式
事实查询(定义、历史、数据) 准确性 ↑↑↑ 虚构来源、数字错误、过时信息 搜索引擎交叉核实,尤其是数字和人名
分析报告(竞品分析、市场调研) 推理性 ↑↑↑ + 局限性 基于过时数据,逻辑跳跃,结论过于笼统 追问"你的数据来源是",核查关键数字
创意写作(文案、故事) 对齐性 ↑↑↑ + 可用性 风格不对、没抓住受众、过于公式化 大声朗读,感受语感;让目标用户看看
建议决策(方案选择、策略) 局限性 ↑↑↑ + 可用性 遗漏重要约束,过度简化,缺乏风险提示 追问"有什么你没考虑到的情况吗"
代码生成 准确性 ↑↑↑ + 可用性 编译可过但逻辑有误,依赖版本不匹配 运行测试,边界条件检查,code review
翻译润色 对齐性 ↑↑↑ 过度意译,专业术语错误,语气偏移 对照原文逐段检查,关键术语单独确认

05 · 七个高风险信号

这些是 AI 输出中需要立即提高警惕的语言模式。它们不一定意味着输出是错的,但意味着你需要主动去核实

🔢
精确的数字
比如"该市场 2024 年规模达到 473.2 亿美元"。AI 经常"杜撰精确数字"——越具体的数字越需要核实,因为精确本身会降低你的警惕性。
📚
引用具体来源
比如"根据《哈佛商业评论》2023年3月的研究"——AI 经常虚构出听起来真实的论文标题、期刊名、作者名。遇到具体引用,务必自行搜索验证。
🎯
过于完美的例子
当 AI 给出的案例恰好完美印证它的观点,没有任何例外,要怀疑。真实世界充满例外,完美论证通常是 AI 在"构造"而非"描述"。
📅
涉及近一两年的信息
AI 的知识有截止日期。任何关于近年发生的事情、最新产品、近期政策——都需要用搜索引擎确认,不管 AI 说得多么肯定。
👤
具体人物的言论
比如"马化腾曾说过……"、"李彦宏在某次演讲中指出……"——AI 经常"发明"名人语录。除非能找到原始出处,不要引用任何 AI 提供的人物语录。
⚖️
法律/医疗/财务建议
AI 可以帮你理解概念,但不能替代专业人士的判断。这三个领域的输出,用于理解背景可以,用于实际决策必须经专业人士确认。
🔄
前后矛盾
在同一个回答里,或者跨多次对话,AI 对同一个事实给出了不同的表述。这是一个强烈信号——它在凑答案,而不是提取知识。

06 · 评估后怎么办:追问的技术

发现质量问题后,很多人的本能是放弃这个对话,重新开始。但更高效的做法是定向追问——用具体的评估维度告诉 AI 哪里不够好。

❌ 低效追问

"这个回答不太好,重新写一下"

问题:没有给 AI 具体信息,它只会给你一个风格不同但同样问题的新版本。

✓ 精准追问

"你引用的那个数字(473 亿美元)是哪里来的?能告诉我数据来源吗?"

原则:针对具体维度追问,迫使 AI 明确信息来源和置信度。

❌ 低效追问

"你的分析太浅了,给我更深入的分析"

✓ 精准追问

"你的分析没有考虑到我们是 B2B 公司、目标客户是中小企业这个约束。基于这个重新分析一下,重点说渠道策略。"

❌ 低效追问

"逻辑有问题,帮我修一下"

✓ 精准追问

"你在第 3 点中说'用户愿意付费因为产品质量好',但这个推断没有考虑竞品价格和用户替代成本,请补充这两个因素重新推导结论。"

万能追问句式:"你在 [X 位置] 说了 [Y 内容],但我注意到 [Z 疑点/遗漏/假设],请针对这一点重新推导/说明/补充。"

07 · 三阶段评估流程

把评估行为嵌入使用流程的三个阶段,而不是事后补救。

预设评估标准

  • 这个输出要用在哪?
  • 哪些维度最重要?
  • 什么结果意味着我需要二次核实?
  • 在提示词里就说清楚要求(如"请说明信息来源")

快速扫描

  • 用 CARLA 扫描一遍
  • 标记所有"高风险信号"
  • 判断是否需要追问
  • 低风险任务:60 秒扫描
  • 高风险任务:逐段审查

关键信息核实

  • 数字/来源:搜索引擎核查
  • 逻辑链:拆解每一步推断
  • 时效性:确认知识截止影响
  • 适配性:结合实际情况调整
节省时间的原则:评估成本要低于出错成本。闲聊和头脑风暴,快速扫一眼就够了;涉及对外发布、重要决策、专业建议的内容,值得花 5–10 分钟认真核查。

🎯 本章练习:实战评估

把这个框架用于真实场景,是建立习惯的最快方法。

  1. 选一个你工作中会问 AI 的真实问题(可以是分析、建议、查询任何类型),发给 AI 得到一个输出。
  2. 用 CARLA 框架对这个输出逐维度评分(就用本章的互动评分器)。
  3. 找出最低分的那个维度,写出一个针对该维度的追问句子。
  4. 发送追问,对比前后两次输出的质量差异。
  5. 思考:你原本会直接用第一次的输出吗?有没有发现之前你会忽视的问题?
← 上一章 Ch13 · 提示词认知科学 📖 目录 返回目录 下一章 → Ch15 · 模块二练习