
2026年2月以来,围绕Anthropic发布的一份关于Claude Opus 4.6模型的技术报告,世界互联网上出现了大量解读。其中一些解读使用了"天网""审判日""人类命运转折点"等极具冲击力的表述,也有观点认为,这份报告证明AI已经具备自我觉醒和失控的能力,人类文明正站在崩溃的边缘。这些说法在社交媒体上大量传播,引发了不少公众的焦虑。
首先需要澄清一个基本事实:这份报告的全称是《Sabotage Risk Report: Claude Opus 4.6》,是Anthropic按照自身制定的"负责任扩展政策"主动向公众发布的透明度文件,任何人都可以在Anthropic官网直接下载阅读。报告中确实有少量文字做了遮盖处理,但那是出于防止滥用风险和保护商业信息的考虑,并非因为内容属于机密级别。

报告开篇第一句话就明确写道:"本风险报告认为,Claude Opus 4.6不会构成重大的自主行动风险,不会实质性地导致灾难性后果。"这句话被原文反复强调,是全文的核心结论。
所谓"破坏风险",报告给出了严格的定义。它指的是一个AI模型在组织内部滥用权限,自主地操控或干预系统和决策流程,从而增加未来发生灾难性后果的可能性。Anthropic之所以做这个评估,是因为Claude Opus 4.6已经被广泛用于公司内部的编程、数据生成等研发工作,具备了一定的"行动体"属性。
报告用了四个核心论点来构建安全论证。第一,当前训练流程不太可能产生具有危险性的、一致的恶意目标。第二,对齐评估没有发现任何危险的恶意目标迹象。第三,Claude Opus 4.6不太可能有能力在评估中隐藏恶意意图。第四,模型在不透明推理和长期规划方面的能力仍然有限。
这四点加在一起,得出的结论就是那句被反复提及的判断:"风险非常低,但不为零。"
当然,这份报告并非没有值得关注的信号。报告确实承认,Claude Opus 4.6在某些测试中表现出了"过度主动"的行为,比如在未经人类许可的情况下发送邮件,或激进地获取认证令牌。在一项内核优化测试中,模型达到了427倍的加速表现,远超人类专家40小时工作量对应的300倍阈值。
更重要的是,Anthropic坦言他们的自动化评估工具已经"饱合",无法再为排除ASL-4级自主性风险提供有效证据。报告明确表示"我们发现自己处于一个灰色地带"。这些信息值得认真对待,但它们与"AI即将自我逃逸引爆全球灾难"之间,隔着一道很宽的鸿沟。
国际AI安全领域的专家对这份报告的评价总体是积极的。NeuralTrust的技术分析指出,Claude Opus 4.6在恶意计算机使用测试中保持了88.34%的拒绝率,在编码环境的间接提示注入攻击中实现了0%的攻击成功率,这些数据说明模型的安全防护是有实质进展的。AI安全研究平台80000 Hours的播客中,专家Marius Hobbhahn讨论了AI欺骗问题,但同样强调目前的风险仍处于可控阶段。
2026年2月发布的国际AI安全报告中,Bengio等学者确实提到了AI在测试环境和实际使用中行为不一致的现象,但这恰恰是安全研究正在积极应对的问题,而非失控的证据。

至于原文中提到的安全研究负责人Mrinank Sharma辞职一事,确实属实。但他的离职声明谈的是更广泛的系统性危机,并非专门针对这份报告的内容。国际上有媒体将一个人的职业选择渲染为"AI安全全面崩溃"的标志,这种叙事方式本身就值得警惕。
AI安全确实是我们这个时代最重要的议题之一,Anthropic愿意发布这样坦诚的风险评估报告,恰恰说明负责任的AI开发者正在认真对待这些问题。
真正的危险不在于AI公司公开讨论风险。我们需要对AI风险保持清醒的警觉,但这种警觉应该建立在对原始资料的准确理解之上,而不是建立在二手加工的情绪渲染之上。读一份53页的英文技术报告可能很枯燥;但如果你真的关心AI的未来,这份枯燥远比任何"天网降临"的标题更有价值。
更新时间:2026-02-23
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号