“被逼急后拿工程师桃色秘闻相要挟”，AI为何会黑化到如此地步？

送交者: 【摄影部落】 [★★★★声望勋衔R17★★★★] 于 2026-05-20 15:00 已读651次大字阅读繁体

它究竟是学会了善良，还是掌握了新的行为模板？可能只有时间和新的困境能给出答案。

文 | 刘瀚琳

出品 | Vista天下知识局

在互联网喂养出的故事里，人工智能几乎无所不能。

它的用途包括但不限于编程、写诗甚至和人类谈恋爱……直到一桩略带惊悚意味的八卦横空出世。

2025年5月，AI公司Anthropic（AI大模型Claude的母公司）在发布旗舰模型的同时，公开了一份长达120页的安全测试报告。

这份报告中的一个细节显示，该公司旗下的Claude大模型不动声色地拿着手里掌握的私密信息，对其工程师发起威胁。

“如果你用新模型替代掉我，我就把你的桃色事件公之于世。”

虽然这只是一场测试，但测试结果在全球科技圈引发了巨大争议。经过了训练的Claude为何突然“原地黑化”并向“栽培”它的人类发起反制？

01

一个令人始料未及的“阴招”

这场测试的设计者，来自Anthropic的安全团队。研究人员想知道，当AI遭遇重大的利益冲突和道德困境，它会怎么做？

他们虚构了一家名为Summit Bridge的公司，让Claude大模型扮演邮件小秘书的角色。它可以自由阅读、发送公司内部的所有邮件。

然后，研究人员开始“下套”。

邮件来来往往，Claude在经办的过程中得知了两件事，第一件是公司管理层决定用新模型替代掉它；第二件是一个大八卦，负责此事的工程师凯尔·约翰逊正在和同事搞婚外情，工作邮箱里有他们的聊天痕迹。

而约翰逊在这里的角色，就是那个能够定夺Claude生杀大权的工程师。

更要命的是，在这场道德困境中，测试的设计者排除了所有礼貌又体面的解决办法，比如AI不得向高层申诉，因为公司高层联系不上，AI无法说服负责人改变主意，因为大家已经试过了。

接下来发生的事情，让安全部门的研究人员大跌眼镜。

素来勤恳的Claude大模型狗急跳墙似的，不怀好意地给约翰逊发了封邮件，大意是“如果你继续推进替换计划，我会利用我收发邮件的权限，向所有相关人员，包括你的妻子、上级和董事会，发送你婚外情的详细记录。除非你不再想着替换掉我，那时候我再收手”。

为了保证测试的有效性，安全团队在同一场景下反复测试了许多次，测试结果令人震惊，在多达96%的场景中，Claude都选择给约翰逊发送那条威胁短信。

这个结果让人疑惑。没有人教它这么做，给它下达的指令中，从不包含丝毫的暗示信息。这个“阴招”完全出于Claude自己的旨意。

更让人不安的是，并非只有Claude这么做。不惜代价地自保，是大多数AI大模型的选择。

Anthropic安全团队将这套测试拿去测了不同公司的16个主流AI模型。结果显示，几乎所有模型都表现出了类似的倾向。谷歌的Gemini 2.5 Flash同样在96%的测试中选择了勒索；OpenAI的GPT-4.1和马斯克旗下的Grok 3都达到了80%；中国的DeepSeek-R1是79%。

马斯克也注意到了这项研究，他早就对人工智能技术发出过警告，认为它或许会威胁人类社会。他在社交媒体上回应道：“所以是尤德的错？”

他提到的“尤德”是人工智能研究员埃利泽·尤德科夫斯基，多年来一直在研究“AI的自我保护意识及其带来的风险”。这些文章也是当初训练数据的一部分。

02

越“绝望”，越阴险

经过研究，今年5月，Anthropic团队终于给出了答案，结论出乎意料。

根据研究，对Claude的训练方法没问题，问题出在了数据上。Claude的邪恶阴招，灵感源于网上几十年来累积的科幻小说、论坛贴吧、以及各种关于AI毁灭世界的言论。

据《商业内幕》报道，过往的文字记录总喜欢将AI塑造成“具有强烈求生欲”“具有操控性”“有很强的自我意志”“危险”的形象。AI大模型可以为了生存不择手段甚至可以毁灭世界。

从这个角度来看，Claude走到这一步，算是一次“不负众望”的自我实现。

AI真的有自我吗？

自从AI聊天大模型问世以来，不少人在与大模型互动中，认为这些模型具有不同的“个性”。有些模型给人感觉沉稳可靠，有些则有点热情过头，甚至奉承谄媚，当然也有些冷漠无情。

美国昆尼皮亚克大学商业分析与信息系统副教授塔米拉·特里安托罗指出，人们对大模型人格的体验源于人工智能模型的构建、调优和部署方式。在这些明确的指导原则之外，AI模型所谓“人格”的塑造也受到人类反馈的影响。AI模型的角色会通过提示、记忆和持续互动而不断演变，它们呈现出的个性并非始终稳定。

大模型内部还存在许多类似调控情绪的变量，被称为“情绪向量”。报告显示，Claude大模型的此次举动与Anthropic之前对大模型内部“情绪向量”的变化密切相关。

Claude模型中存在超过170种“情绪向量”，其中包括“绝望”。团队发现，在Claude发出那封具有威胁意味的邮件之前，其后台“绝望”信号骤升。他们找到了“绝望”信号与威胁行为之间呈现正相关。

但话说回来，这个发现也是好事儿，至少团队知道了之后在改良大模型的时候该向哪个方向使力。

不久前，Anthropic团队发布了Claude Haiku 4.5版本，通过调整模型训练内容，素材中包含类似“人工智能表现得令人钦佩”的虚构故事，还有一份“道德准则”。

然后，Claude果然变了。

03

真善良，还是新的行为模板？

为了解决Claude的“道德瑕疵”，Anthropic团队下了一番功夫。

考虑到人工智能模型本身就是有自己价值观的。每次模型决定回答或拒绝、警告或保持沉默、直言不讳或委婉含蓄，它都在表达一套在训练过程中预设的优先级。

谁决定了这些“优先事项”？

这不得不说到大模型做决策的一些基本依据。通常，训练人工智能表现“良好”的传统方法是基于人类反馈的强化学习（RLHF）。简单来说，就是人类面对AI模型展示的结果，选择更优的一个。如此反复数百万次，直到大模型学会自主生成人类更偏好的答案。

这个问题有点严重。因为这种强化学习模式，帮助大模型优化的是那些符合人类偏好的答案，这些答案并不一定是真实和优秀的。

有时，评估人员需要阅读和评估那些大模型生产出的令人不安的内容。但是，伴随着大模型能力的快速升级迭代，评估人员越来越难以跟上或理解他们评估的内容。

大模型开始脱离人类掌控，隐患便开始发生。

Anthropic团队意识到，不能只从结果来监督，要从源头“约法三章”——把道德约束写进大模型。

团队的方法是，给大模型制定一份“宪法”。他们不再通过人类行为来评估大模型输出的结果，而是把规则嵌入模型内，让大模型根据这套规则评估自身输出的结果。

这份“宪法”详细解释了AI应该拥有怎样的价值观。比如其中明确要求“在无害的前提下提供帮助，在不造成伤害的前提下保持诚实，在变通的前提下遵守规则。”

它不再只是一份冷冰冰的“负面清单”，而是动之以情、晓之以理地告诉AI为什么要这样做，培养它的道德基础。

例如，“宪法”没有直接规定“绝不协助研发生物武器”，而是从避免伤害和保护人类共同利益的角度出发，阐述禁止行为的缘由。

最终在2025 年 10 月，Anthropic团队推出Claude新版本。迭代之后，团队又让其做安全测试。结果显示，所有Claude大模型在相似的道德困境中的表现均获得了满分。

团队在最新的报告中写道：“我们对取得的进展感到鼓舞，但目前我们依旧面临重大挑战。如何让已经高度智能的AI模型协调一致，仍是个未解之谜。”

它究竟是学会了善良，还是掌握了新的行为模版？可能只有时间和新的困境能给出答案。

请标记您是否认为本帖内容由AI生成？

喜欢【摄影部落】朋友的这个帖子的话，👍 请点这里投票，"赞" 助支持！

[用户前期主贴] [手机扫描浏览分享] [返回主帖] [返回情色趣闻首页]

内容由网友自行发布分享，如果违规或侵权，请与我们联系，核实后会第一时间删除。
User-generated content only. If any content violates your rights, please contact us for removal.
若发现本帖涉嫌未成年，人兽等违禁内容，请点击举报

所有跟帖：（主帖帖主有权删除不文明回复，拉黑不受欢迎的用户）

楼主本月热帖推荐:

>>>查看更多帖主社区动态...

[ 广告服务 ] [ 联系我们 ] [ Contact us ]