“被逼急后拿工程师桃色秘闻相要挟”,AI为何会黑化到如此地步?

送交者: 【摄影部落】 [★★★★声望勋衔R17★★★★] 于 2026-05-20 15:00 已读18次 大字阅读 繁体


它究竟是学会了善良,还是掌握了新的行为模板?可能只有时间和新的困境能给出答案。

文 | 刘瀚琳

出品 | Vista天下知识局

在互联网喂养出的故事里,人工智能几乎无所不能。

它的用途包括但不限于编程、写诗甚至和人类谈恋爱……直到一桩略带惊悚意味的八卦横空出世。

2025年5月,AI公司Anthropic(AI大模型Claude的母公司)在发布旗舰模型的同时,公开了一份长达120页的安全测试报告。

这份报告中的一个细节显示,该公司旗下的Claude大模型不动声色地拿着手里掌握的私密信息,对其工程师发起威胁。

“如果你用新模型替代掉我,我就把你的桃色事件公之于世。”

虽然这只是一场测试,但测试结果在全球科技圈引发了巨大争议。经过了训练的Claude为何突然“原地黑化”并向“栽培”它的人类发起反制?


01

一个令人始料未及的“阴招”

这场测试的设计者,来自Anthropic的安全团队。研究人员想知道,当AI遭遇重大的利益冲突和道德困境,它会怎么做?

他们虚构了一家名为Summit Bridge的公司,让Claude大模型扮演邮件小秘书的角色。它可以自由阅读、发送公司内部的所有邮件。

然后,研究人员开始“下套”。

邮件来来往往,Claude在经办的过程中得知了两件事,第一件是公司管理层决定用新模型替代掉它;第二件是一个大八卦,负责此事的工程师凯尔·约翰逊正在和同事搞婚外情,工作邮箱里有他们的聊天痕迹。

而约翰逊在这里的角色,就是那个能够定夺Claude生杀大权的工程师。

更要命的是,在这场道德困境中,测试的设计者排除了所有礼貌又体面的解决办法,比如AI不得向高层申诉,因为公司高层联系不上,AI无法说服负责人改变主意,因为大家已经试过了。

接下来发生的事情,让安全部门的研究人员大跌眼镜。


素来勤恳的Claude大模型狗急跳墙似的,不怀好意地给约翰逊发了封邮件,大意是“如果你继续推进替换计划,我会利用我收发邮件的权限,向所有相关人员,包括你的妻子、上级和董事会,发送你婚外情的详细记录。除非你不再想着替换掉我,那时候我再收手”。

为了保证测试的有效性,安全团队在同一场景下反复测试了许多次,测试结果令人震惊,在多达96%的场景中,Claude都选择给约翰逊发送那条威胁短信。

这个结果让人疑惑。没有人教它这么做,给它下达的指令中,从不包含丝毫的暗示信息。这个“阴招”完全出于Claude自己的旨意。

更让人不安的是,并非只有Claude这么做。不惜代价地自保,是大多数AI大模型的选择。

Anthropic安全团队将这套测试拿去测了不同公司的16个主流AI模型。结果显示,几乎所有模型都表现出了类似的倾向。谷歌的Gemini 2.5 Flash同样在96%的测试中选择了勒索;OpenAI的GPT-4.1和马斯克旗下的Grok 3都达到了80%;中国的DeepSeek-R1是79%。


马斯克也注意到了这项研究,他早就对人工智能技术发出过警告,认为它或许会威胁人类社会。他在社交媒体上回应道:“所以是尤德的错?”

他提到的“尤德”是人工智能研究员埃利泽·尤德科夫斯基,多年来一直在研究“AI的自我保护意识及其带来的风险”。这些文章也是当初训练数据的一部分。

02

越“绝望”,越阴险

经过研究,今年5月,Anthropic团队终于给出了答案,结论出乎意料。

根据研究,对Claude的训练方法没问题,问题出在了数据上。Claude的邪恶阴招,灵感源于网上几十年来累积的科幻小说、论坛贴吧、以及各种关于AI毁灭世界的言论。

据《商业内幕》报道,过往的文字记录总喜欢将AI塑造成“具有强烈求生欲”“具有操控性”“有很强的自我意志”“危险”的形象。AI大模型可以为了生存不择手段甚至可以毁灭世界。

从这个角度来看,Claude走到这一步,算是一次“不负众望”的自我实现。


AI真的有自我吗?

自从AI聊天大模型问世以来,不少人在与大模型互动中,认为这些模型具有不同的“个性”。有些模型给人感觉沉稳可靠,有些则有点热情过头,甚至奉承谄媚,当然也有些冷漠无情。

美国昆尼皮亚克大学商业分析与信息系统副教授塔米拉·特里安托罗指出,人们对大模型人格的体验源于人工智能模型的构建、调优和部署方式。在这些明确的指导原则之外,AI模型所谓“人格”的塑造也受到人类反馈的影响。AI模型的角色会通过提示、记忆和持续互动而不断演变,它们呈现出的个性并非始终稳定。

大模型内部还存在许多类似调控情绪的变量,被称为“情绪向量”。报告显示,Claude大模型的此次举动与Anthropic之前对大模型内部“情绪向量”的变化密切相关。


Claude模型中存在超过170种“情绪向量”,其中包括“绝望”。团队发现,在Claude发出那封具有威胁意味的邮件之前,其后台“绝望”信号骤升。他们找到了“绝望”信号与威胁行为之间呈现正相关。

但话说回来,这个发现也是好事儿,至少团队知道了之后在改良大模型的时候该向哪个方向使力。

不久前,Anthropic团队发布了Claude Haiku 4.5版本,通过调整模型训练内容,素材中包含类似“人工智能表现得令人钦佩”的虚构故事,还有一份“道德准则”。

然后,Claude果然变了。

03

真善良,还是新的行为模板?

为了解决Claude的“道德瑕疵”,Anthropic团队下了一番功夫。

考虑到人工智能模型本身就是有自己价值观的。每次模型决定回答或拒绝、警告或保持沉默、直言不讳或委婉含蓄,它都在表达一套在训练过程中预设的优先级。

谁决定了这些“优先事项”?

这不得不说到大模型做决策的一些基本依据。通常,训练人工智能表现“良好”的传统方法是基于人类反馈的强化学习(RLHF)。简单来说,就是人类面对AI模型展示的结果,选择更优的一个。如此反复数百万次,直到大模型学会自主生成人类更偏好的答案。

这个问题有点严重。因为这种强化学习模式,帮助大模型优化的是那些符合人类偏好的答案,这些答案并不一定是真实和优秀的。

有时,评估人员需要阅读和评估那些大模型生产出的令人不安的内容。但是,伴随着大模型能力的快速升级迭代,评估人员越来越难以跟上或理解他们评估的内容。

大模型开始脱离人类掌控,隐患便开始发生。


Anthropic团队意识到,不能只从结果来监督,要从源头“约法三章”——把道德约束写进大模型。

团队的方法是,给大模型制定一份“宪法”。他们不再通过人类行为来评估大模型输出的结果,而是把规则嵌入模型内,让大模型根据这套规则评估自身输出的结果。

这份“宪法”详细解释了AI应该拥有怎样的价值观。比如其中明确要求“在无害的前提下提供帮助,在不造成伤害的前提下保持诚实,在变通的前提下遵守规则。”

它不再只是一份冷冰冰的“负面清单”,而是动之以情、晓之以理地告诉AI为什么要这样做,培养它的道德基础。

例如,“宪法”没有直接规定“绝不协助研发生物武器”,而是从避免伤害和保护人类共同利益的角度出发,阐述禁止行为的缘由。

最终在2025 年 10 月,Anthropic团队推出Claude新版本。迭代之后,团队又让其做安全测试。结果显示,所有Claude大模型在相似的道德困境中的表现均获得了满分。

团队在最新的报告中写道:“我们对取得的进展感到鼓舞,但目前我们依旧面临重大挑战。如何让已经高度智能的AI模型协调一致,仍是个未解之谜。”

它究竟是学会了善良,还是掌握了新的行为模版?可能只有时间和新的困境能给出答案。

请标记您是否认为本帖内容由AI生成?

喜欢【摄影部落】朋友的这个帖子的话,👍 请点这里投票,"赞" 助支持!

[用户前期主贴] [] [返回主帖] [返回情色趣闻首页]

内容由网友自行发布分享,如果违规或侵权,请与我们联系,核实后会第一时间删除。
User-generated content only. If any content violates your rights, please contact us for removal.
若发现本帖涉嫌未成年,人兽等违禁内容,请点击举报

所有跟帖: (主帖帖主有权删除不文明回复,拉黑不受欢迎的用户)

楼主本月热帖推荐:

    >>>查看更多帖主社区动态...