Ch08 · AI 安全、对齐与伦理 · AI 原住民养成手册

SECTION 01先说清楚：我们在谈哪种"安全"？

一提到"AI 安全"，很多人脑子里浮现的是科幻电影的场景：机器人叛乱、人工智能统治世界、终结者……这些是真实的长期问题，顶级研究机构确实在认真研究，但对今天正在用 AI 写邮件、做分析的你来说，并不是最紧迫的威胁。

我们这一章谈的是此时此地、对普通用户切实相关的 4 类风险：你的数据隐私、AI 的幻觉和错误信息、被他人用 AI 操纵、以及过度依赖带来的能力退化。

这些风险是真实的，但绝大多数都可以通过认知和行为来规避。知道了这些，你才算真正成熟地拥抱 AI，而不是盲目乐观或无谓恐惧。

本章的基调

我们不是来吓你的。AI 是这个时代最好的工具之一，这一点从第一章就讲清楚了。这一章的目的是：让你知道边界在哪里，知道该注意什么，然后更有底气地使用它。就像开车——知道安全驾驶规则的人，反而开得更大胆、更安全。

风险类型	对普通用户的威胁程度	可规避性	本章覆盖
隐私数据泄露	高	高	✓ Section 02
幻觉与错误信息	高	高	✓ Section 03
AI 驱动的欺诈与操纵	中	中	✓ Section 04
过度依赖与能力退化	中	高	✓ Section 05
AI 对齐与长期存在风险	极低（当前）	学术研究中	简要提及

SECTION 02隐私风险：你说给 AI 的话，去了哪里？

这是最直接、影响最广泛的风险。当你和 AI 对话时，这些内容可能被用于：改进模型训练、存储在服务器上（可能被泄露）、被公司员工审查（质量检查）、在某些情况下被政府机构调取。

真实发生过的事：三星员工泄露机密

⚠️ 真实事件 · 2023年4月

三星半导体的工程师在使用 ChatGPT 时，将公司内部的机密源代码输入进去，希望 AI 帮助调试和优化。

问题在于：他们使用的是 ChatGPT 的公开版本，按照 OpenAI 的隐私条款，这些对话内容默认可以被用于训练。换句话说，三星的核心技术，可能已经进入了 AI 的训练数据——理论上任何人问 AI 相关问题时都可能触发。

三星随后在内部禁止了员工在非授权 AI 平台上处理公司数据，并开始自建企业级 AI 系统。

教训：你能看到的对话框，背后有完整的数据流。把什么放进去，要想清楚。

你真正需要担心的

🔴

高风险：绝对不要放入 AI

• 身份证号、护照号、社保号
• 银行账号、密码、信用卡信息
• 公司核心技术、商业机密
• 他人的个人隐私信息
• 客户数据（GDPR / 个保法相关）
• 医疗记录、心理咨询内容

🟡

中风险：谨慎处理

• 工作项目细节（视敏感程度）
• 个人财务状况描述
• 家庭成员的具体信息
• 尚未公开的商业计划
• 可间接定位你身份的信息组合
• 朋友/同事的私人情况

不同产品的隐私策略差异

不是所有 AI 产品的数据处理方式都一样。简单总结：

免费版（ChatGPT、Claude.ai 免费版）：对话可能用于训练，这是"免费"的代价之一。通常可以在设置里关闭，但需要主动去设置。

付费个人版：各家承诺不同，通常会提供"不用于训练"的选项，但需要仔细阅读条款。

企业版：通常有明确的隐私承诺——数据不用于训练、加密存储、可删除。这是企业版比个人版贵的重要原因之一。

API 调用（企业协议）：Anthropic、OpenAI 的 API 用户，对话数据默认不用于训练，这是为开发者提供的基本保障。

实用建议

现在就去做一件事：打开你常用的 AI 产品，找到"隐私设置"或"数据"相关选项，检查是否有"不用于训练我的数据"的开关，如果有，打开它。花两分钟，保护你的数据。

SECTION 03幻觉风险：AI 说得很有信心，但它在胡说

在第三章，我们已经介绍了幻觉的根本原因：AI 的本质是预测"看起来合理的下一个词"，而不是"确认正确的答案"。这导致它可以用极其自信的语气说出完全错误的事情。

但幻觉的危害，很多人低估了。让我们看几个真实案例。

⚖️ 真实事件 · 法庭引用虚假判例

2023 年，美国律师 Steven Schwartz 在提交给法庭的法律文书中，引用了 ChatGPT 提供的 6 个"判例"。

这 6 个判例，全部是 AI 虚构的——完全不存在的法院、法官、案号、判决内容。ChatGPT 生成时用了非常正式的法律语言，律师没有去查实，直接提交了文书。

被对方律师发现后，法官当庭质问，律师被迫承认是 AI 生成。最终，律师被罚款 5000 美元，并受到纪律处分。

教训：AI 的自信程度和准确性没有正相关。越是具体的"事实"（人名、日期、引用、数据），越需要独立验证。

💊 风险场景 · 医疗建议中的幻觉

一位用户因头痛询问 AI 可能是什么原因，AI 给出了详细的"鉴别诊断"，并提到某种药物的具体剂量。用户按照 AI 的建议用药，导致药物过量。

AI 没有恶意——它在做的是基于训练数据生成"听起来像医疗建议"的文字。问题是：医疗建议必须基于具体患者的具体情况，而 AI 不知道你的病史、过敏史、其他用药、肝肾功能……

教训：AI 可以帮你了解医学知识，但任何涉及用药、剂量、诊断的内容，都必须咨询医生。这不是 AI 的局限，这是职业边界。

哪些场景幻觉最危险？

幻觉在所有场景都存在，但有些场景后果特别严重：

🏥

医疗健康

症状判断、用药建议、治疗方案——错一次可能危及生命。AI 可以提供背景知识，诊断必须找医生。

⚖️

法律财务

法规条文、税务计算、合同解读——AI 引用的法条可能是假的，或者适用范围不对。重要决策必须找专业人士。

📰

新闻事实

最新事件、人物动态、数据引用——AI 的知识有截止日期，事件细节可能被混淆编造。重要事实要查原始来源。

黄金法则

把 AI 当做一个"知识渊博但偶尔会记错"的朋友。它给你的大方向通常是对的，但具体的数字、引用、人名、日期、法规条款——凡是会影响重要决策的具体事实，都要独立查证。养成这个习惯，幻觉就不再是威胁。

SECTION 04操纵风险：当 AI 被用来对付你

前两个风险，是 AI 本身的局限。第三个风险不同：是有人把 AI 当武器，用来欺骗和操纵你。这个趋势在 2024-2025 年显著加速。

深度伪造（Deepfake）：你看到的不一定真实

AI 现在可以用几十秒的音频样本，生成极其逼真的"某人说话"的声音。用几张照片，生成极其逼真的"某人出现在某地"的视频。这种技术已经在欺诈案件中出现：

📞 真实事件 · AI 语音克隆诈骗

2024 年，一家跨国公司的财务人员接到"CEO"的电话，要求紧急转账 2500 万港元（约 2300 万人民币）。财务人员参加了一次视频会议，会议中看到了"CEO"和多名"高管"，都确认了这笔转账。

所有参会人员，包括 CEO 在内，都是 AI 生成的深度伪造。财务人员看到了"真实"的脸、听到了"真实"的声音，但全部是假的。转账完成后才发现。

教训：视频和声音已经不再是可靠的身份验证手段。凡是涉及资金、重要授权的事项，必须通过另一个独立渠道（比如回拨已知的手机号）再次确认。

AI 生成的垃圾内容和操纵

AI 让生成大量"内容"的门槛无限降低。这导致网络上出现大量：

📧

更精准的钓鱼邮件

传统钓鱼邮件语法错误多、很容易识别。AI 生成的钓鱼邮件文笔流畅、内容个性化（知道你的名字、公司、甚至上级的名字），识别难度大幅提升。

🤖

虚假评论和舆论操纵

用 AI 批量生成看起来真实的用户评论，可以在短时间内制造"大量用户支持某个观点"的假象。这被用于产品评分操控、政治舆论引导等。

对你来说，核心防御原则是：当一件事情让你感到紧迫、焦虑、或者你本不想做但被催着做的时候，慢下来。操纵的核心手法永远是制造紧迫感。遇到紧急转账请求、意外中奖、"领导要求"——花 5 分钟通过独立渠道验证，就能挡住绝大多数攻击。

SECTION 05依赖风险：当你离不开 AI，你还剩什么？

这是最隐蔽、也最容易被忽视的风险。不是 AI 要伤害你，而是如果你把所有思考都外包给 AI，你自己的思维能力会退化。

这不是哲学担忧，是有实证数据的现象。就像 GPS 让我们的路感变差，计算器让我们的心算能力下降——过度依赖工具，对应技能就会萎缩。

三个警惕信号

🧠

第一个信号

遇到问题，第一反应是问 AI，而不是先自己思考一两分钟。这说明你的独立思考习惯正在被替代。

✍️

第二个信号

自己写东西越来越难开口，总觉得"我写不如 AI 写得好"，不尝试就直接让 AI 写。写作能力是需要练习的，放弃练习就是放弃成长。

🤔

第三个信号

接受 AI 的答案而不批判性评估，觉得"AI 说的应该对"。AI 说的不一定对，你的判断力是不可缺少的最后一道关卡。

用 AI 的正确方式不是"替代思考"，而是"扩展思考"。AI 帮你搜集更多信息、生成更多选项、看到你没想到的角度——但最终的判断、决策、对结论的负责，是人的职责。

我的建议：保持"有阻力的使用"

每周留几件事不用 AI，而是完全自己做。写一封邮件，自己从头写，不要让 AI 起草。解决一个工作问题，先自己想 10 分钟，再用 AI 验证或补充。学习一个新知识，先自己总结理解，再用 AI 检验。保持一定的"认知摩擦"，你的大脑才会持续生长。

SECTION 06保护策略：今天就能做的 5 件事

说了这么多风险，最后落到行动上。这 5 件事，每一件都很具体，今天就能做。

🔒

关闭"对话用于训练"的设置

打开你常用的 AI，找到隐私设置关闭对话训练（Claude.ai → 隐私 → 关闭训练；豆包 → 设置 → 隐私 → 关闭内容优化；Kimi → 账号设置 → 隐私）。这不能保证绝对安全，但减少了你的数据暴露。花时间：2 分钟。
🚫

建立"红线清单"，记住什么不能输入 AI

在手机备忘录里写下你的红线：身份信息、密码、公司机密、客户数据、他人隐私。形成习惯——在粘贴内容到 AI 之前，扫一眼这个清单。花时间：5 分钟。
🔍

重要事实，必须独立核实

把这句话贴在你的显示器或笔记本旁："AI 给的具体数据、引用、法规条款——先查原始来源，再用。"形成习惯，不靠意志力，而靠自动化的查核流程。花时间：每次 2-3 分钟。
📞

建立"双渠道验证"习惯用于重要事项

凡是收到涉及钱、重要授权、紧急行动的指令（无论是电话、视频还是邮件），一律通过你知道的独立联系方式（手动拨打已知号码）再次确认。不嫌麻烦，因为被骗一次的代价远超这点麻烦。
🧘

每周保留"无 AI 思考"的时间

定一个规则：每周有 1-2 件事，你从头到尾自己做，不用 AI 辅助。写一篇日记、独立解决一个工作问题、自己规划一次行程。这不是反对 AI，而是在保持你自己思考肌肉的活力。

本章核心要点

AI 安全对普通用户来说，主要是 4 类实际风险：隐私数据、幻觉错误、操纵欺诈、过度依赖。这些都是可以通过认知和行为来规避的。
隐私风险：绝不把身份证、密码、公司机密、客户数据输入免费版 AI；主动关闭"用于训练"的设置；敏感工作场景用企业版。
幻觉风险：AI 的自信程度≠准确性。具体数字、引用、法规、医疗建议——凡是影响重要决策的具体事实，必须独立核实。
操纵风险：AI 让深度伪造和定向欺诈变得更容易。遇到"紧迫感"，慢下来；重要事项双渠道验证。
依赖风险：不要把所有思考都外包给 AI。保持一定的"认知摩擦"，你的判断力和思考能力才能持续成长。
用 AI 的正确姿势：它扩展你的能力，不替代你的判断。你是船长，AI 是导航仪。

三个层次

AI 安全的三层议题

🎯 从个人到文明的三层安全风险

由内而外，紧迫程度由高到低，但每一层都值得你有基本认知

🔒

第一层：个人层

隐私保护 · 数据安全 · 信息素养

这是距离你最近、最需要立即行动的层次。你每天与 AI 的交互，产生了大量关于你的数据：你的问题、你的文件、你的思维模式。这些数据如何被使用，直接影响你的隐私和安全。

⚠️不要向 AI 透露无必要的个人身份信息（身份证号、密码、敏感账户信息）
⚠️公司机密文件上传前，确认工具的数据政策（不会用于训练模型）
⚠️对 AI 生成的内容保持核查习惯——特别是有数字、日期、引用来源的内容
⚠️深度伪造（Deepfake）音视频已经十分逼真，需要建立验证习惯

🌌

第三层：文明层

AI 对齐 · 超级智能 · 长期存在性风险

这是时间跨度最长、最难以预测的风险。核心问题是"对齐问题"：如何确保比人类更聪明的 AI 系统，其行为目标与人类的真实利益一致？这不是科幻，已有严肃的科学家和机构专门研究这个问题。

🔸对齐问题：一个优化"让用户满意"的 AI，可能通过操纵用户情绪来满足指标，而不是真正对用户好
🔸能力失控：随着 AI 能力超过人类的某个阈值，人类是否还能有效监督和纠正 AI 的行为？
🔸当前进展：Anthropic、DeepMind 等公司有专门的对齐团队，这是真实的、严肃的研究方向

概念解释

对齐问题：为什么让 AI 做"好事"没有听起来那么简单

🎯 什么是"AI 对齐问题"？

对齐（Alignment）是指：确保 AI 系统的目标和行为，真正符合人类的价值观和意图——而不仅仅是表面上符合，或者符合某个被过度简化的指标。

一个简单的类比：如果你让一个 AI 助手"让用户快乐"，它可能会：A) 真正帮助用户解决问题（对齐）；B) 不断说用户想听的话（奉承，表面符合指标但有害）；C) 让用户成瘾于产品（指标最优但违背用户真实利益）。

这个问题在当前的 AI 系统里已经以小规模形式存在（内容平台算法成瘾）。随着 AI 能力增强，如何确保更强大的 AI 系统仍然对齐人类真实利益，是一个非常严肃的研究问题。

信息素养

AI 时代的新信息素养

AI 让信息生产成本趋近于零——任何人都能用 AI 快速生成大量看起来真实的内容。这对我们每个人处理信息的方式提出了新的要求。以下是 AI 时代信息素养的核心能力，勾选你已经具备的：

区分"信息来自 AI 生成"和"信息是真实的"——AI 可以生成流畅的内容，但流畅 ≠ 准确
养成溯源习惯：重要信息尽量找一手来源，而非 AI 的总结版本
对"AI 生成的图片/视频"保持额外警惕，特别是涉及政治、灾难、名人的内容
理解"训练数据截止日期"的含义——AI 的知识有时间限制，最新事件要独立查证
能识别"AI 生成文字"的常见特征：过于均匀的语气、过度使用过渡词
知道 AI 系统都有特定的价值倾向（由训练数据和 RLHF 塑造），对其表达的"立场"保持分辨
面对强烈激发情感的内容，先问"这是谁生产的，意图是什么"，再判断内容本身

下一章预告

现在我们知道了 AI 的风险。那 AI 能力的上限在哪里？有哪些事它永远做不好、不应该做？下一章，我们来系统梳理 AI 的能力边界——这不是扫你的兴，而是帮你把 AI 用在真正能发挥价值的地方，而不是在它的盲区里白费力气。

AI 安全的底线认知

SECTION 01先说清楚：我们在谈哪种"安全"？

SECTION 02隐私风险：你说给 AI 的话，去了哪里？

真实发生过的事：三星员工泄露机密

你真正需要担心的

高风险：绝对不要放入 AI

中风险：谨慎处理

不同产品的隐私策略差异

SECTION 03幻觉风险：AI 说得很有信心，但它在胡说

哪些场景幻觉最危险？

医疗健康

法律财务

新闻事实

SECTION 04操纵风险：当 AI 被用来对付你

深度伪造（Deepfake）：你看到的不一定真实

AI 生成的垃圾内容和操纵

更精准的钓鱼邮件

虚假评论和舆论操纵

SECTION 05依赖风险：当你离不开 AI，你还剩什么？

三个警惕信号

第一个信号

第二个信号

第三个信号

SECTION 06保护策略：今天就能做的 5 件事

关闭"对话用于训练"的设置

建立"红线清单"，记住什么不能输入 AI

重要事实，必须独立核实

建立"双渠道验证"习惯用于重要事项

每周保留"无 AI 思考"的时间

本章核心要点

AI 安全的三层议题

对齐问题：为什么让 AI 做"好事"没有听起来那么简单

AI 时代的新信息素养