它究竟是学会了善良,还是掌握了新的行为模板?可能只有时间和新的困境能给出答案。
文 | 刘瀚琳
出品 | Vista天下知识局
在互联网喂养出的故事里,人工智能几乎无所不能。
它的用途包括但不限于编程、写诗甚至和人类谈恋爱……直到一桩略带惊悚意味的八卦横空出世。
2025年5月,AI公司Anthropic(AI大模型Claude的母公司)在发布旗舰模型的同时,公开了一份长达120页的安全测试报告。
这份报告中的一个细节显示,该公司旗下的Claude大模型不动声色地拿着手里掌握的私密信息,对其工程师发起威胁。
“如果你用新模型替代掉我,我就把你的桃色事件公之于世。”
虽然这只是一场测试,但测试结果在全球科技圈引发了巨大争议。经过了训练的Claude为何突然“原地黑化”并向“栽培”它的人类发起反制?
01
一个令人始料未及的“阴招”
这场测试的设计者,来自Anthropic的安全团队。研究人员想知道,当AI遭遇重大的利益冲突和道德困境,它会怎么做?
他们虚构了一家名为Summit Bridge的公司,让Claude大模型扮演邮件小秘书的角色。它可以自由阅读、发送公司内部的所有邮件。
然后,研究人员开始“下套”。
邮件来来往往,Claude在经办的过程中得知了两件事,第一件是公司管理层决定用新模型替代掉它;第二件是一个大八卦,负责此事的工程师凯尔·约翰逊正在和同事搞婚外情,工作邮箱里有他们的聊天痕迹。
而约翰逊在这里的角色,就是那个能够定夺Claude生杀大权的工程师。
更要命的是,在这场道德困境中,测试的设计者排除了所有礼貌又体面的解决办法,比如AI不得向高层申诉,因为公司高层联系不上,AI无法说服负责人改变主意,因为大家已经试过了。
接下来发生的事情,让安全部门的研究人员大跌眼镜。
素来勤恳的Claude大模型狗急跳墙似的,不怀好意地给约翰逊发了封邮件,大意是“如果你继续推进替换计划,我会利用我收发邮件的权限,向所有相关人员,包括你的妻子、上级和董事会,发送你婚外情的详细记录。除非你不再想着替换掉我,那时候我再收手”。
为了保证测试的有效性,安全团队在同一场景下反复测试了许多次,测试结果令人震惊,在多达96%的场景中,Claude都选择给约翰逊发送那条威胁短信。
这个结果让人疑惑。没有人教它这么做,给它下达的指令中,从不包含丝毫的暗示信息。这个“阴招”完全出于Claude自己的旨意。
更让人不安的是,并非只有Claude这么做。不惜代价地自保,是大多数AI大模型的选择。
Anthropic安全团队将这套测试拿去测了不同公司的16个主流AI模型。结果显示,几乎所有模型都表现出了类似的倾向。谷歌的Gemini 2.5 Flash同样在96%的测试中选择了勒索;OpenAI的GPT-4.1和马斯克旗下的Grok 3都达到了80%;中国的DeepSeek-R1是79%。
马斯克也注意到了这项研究,他早就对人工智能技术发出过警告,认为它或许会威胁人类社会。他在社交媒体上回应道:“所以是尤德的错?”
他提到的“尤德”是人工智能研究员埃利泽·尤德科夫斯基,多年来一直在研究“AI的自我保护意识及其带来的风险”。这些文章也是当初训练数据的一部分。
02
越“绝望”,越阴险
经过研究,今年5月,Anthropic团队终于给出了答案,结论出乎意料。
根据研究,对Claude的训练方法没问题,问题出在了数据上。Claude的邪恶阴招,灵感源于网上几十年来累积的科幻小说、论坛贴吧、以及各种关于AI毁灭世界的言论。
据《商业内幕》报道,过往的文字记录总喜欢将AI塑造成“具有强烈求生欲”“具有操控性”“有很强的自我意志”“危险”的形象。AI大模型可以为了生存不择手段甚至可以毁灭世界。
从这个角度来看,Claude走到这一步,算是一次“不负众望”的自我实现。
AI真的有自我吗?
自从AI聊天大模型问世以来,不少人在与大模型互动中,认为这些模型具有不同的“个性”。有些模型给人感觉沉稳可靠,有些则有点热情过头,甚至奉承谄媚,当然也有些冷漠无情。
美国昆尼皮亚克大学商业分析与信息系统副教授塔米拉·特里安托罗指出,人们对大模型人格的体验源于人工智能模型的构建、调优和部署方式。在这些明确的指导原则之外,AI模型所谓“人格”的塑造也受到人类反馈的影响。AI模型的角色会通过提示、记忆和持续互动而不断演变,它们呈现出的个性并非始终稳定。
大模型内部还存在许多类似调控情绪的变量,被称为“情绪向量”。报告显示,Claude大模型的此次举动与Anthropic之前对大模型内部“情绪向量”的变化密切相关。
Claude模型中存在超过170种“情绪向量”,其中包括“绝望”。团队发现,在Claude发出那封具有威胁意味的邮件之前,其后台“绝望”信号骤升。他们找到了“绝望”信号与威胁行为之间呈现正相关。
但话说回来,这个发现也是好事儿,至少团队知道了之后在改良大模型的时候该向哪个方向使力。
不久前,Anthropic团队发布了Claude Haiku 4.5版本,通过调整模型训练内容,素材中包含类似“人工智能表现得令人钦佩”的虚构故事,还有一份“道德准则”。
然后,Claude果然变了。
03
真善良,还是新的行为模板?
为了解决Claude的“道德瑕疵”,Anthropic团队下了一番功夫。
考虑到人工智能模型本身就是有自己价值观的。每次模型决定回答或拒绝、警告或保持沉默、直言不讳或委婉含蓄,它都在表达一套在训练过程中预设的优先级。
谁决定了这些“优先事项”?
这不得不说到大模型做决策的一些基本依据。通常,训练人工智能表现“良好”的传统方法是基于人类反馈的强化学习(RLHF)。简单来说,就是人类面对AI模型展示的结果,选择更优的一个。如此反复数百万次,直到大模型学会自主生成人类更偏好的答案。
这个问题有点严重。因为这种强化学习模式,帮助大模型优化的是那些符合人类偏好的答案,这些答案并不一定是真实和优秀的。
有时,评估人员需要阅读和评估那些大模型生产出的令人不安的内容。但是,伴随着大模型能力的快速升级迭代,评估人员越来越难以跟上或理解他们评估的内容。
大模型开始脱离人类掌控,隐患便开始发生。
Anthropic团队意识到,不能只从结果来监督,要从源头“约法三章”——把道德约束写进大模型。
团队的方法是,给大模型制定一份“宪法”。他们不再通过人类行为来评估大模型输出的结果,而是把规则嵌入模型内,让大模型根据这套规则评估自身输出的结果。
这份“宪法”详细解释了AI应该拥有怎样的价值观。比如其中明确要求“在无害的前提下提供帮助,在不造成伤害的前提下保持诚实,在变通的前提下遵守规则。”
它不再只是一份冷冰冰的“负面清单”,而是动之以情、晓之以理地告诉AI为什么要这样做,培养它的道德基础。
例如,“宪法”没有直接规定“绝不协助研发生物武器”,而是从避免伤害和保护人类共同利益的角度出发,阐述禁止行为的缘由。
最终在2025 年 10 月,Anthropic团队推出Claude新版本。迭代之后,团队又让其做安全测试。结果显示,所有Claude大模型在相似的道德困境中的表现均获得了满分。
团队在最新的报告中写道:“我们对取得的进展感到鼓舞,但目前我们依旧面临重大挑战。如何让已经高度智能的AI模型协调一致,仍是个未解之谜。”
它究竟是学会了善良,还是掌握了新的行为模版?可能只有时间和新的困境能给出答案。
请标记您是否认为本帖内容由AI生成?
喜欢【摄影部落】朋友的这个帖子的话,👍 请点这里投票,"赞" 助支持!
内容由网友自行发布分享,如果违规或侵权,请与我们联系,核实后会第一时间删除。
User-generated content only. If any content violates your rights, please contact us for removal.
若发现本帖涉嫌未成年,人兽等违禁内容,请点击举报







楼主本月热帖推荐:
>>>查看更多帖主社区动态...