2026年4月初,人工智能公司Anthropic做了一个让整个科技圈都感到后背发凉的决定:他们最新研发的AI模型Claude Mythos Preview,不公开发布了。
理由很简单——这个AI强得太离谱了,强到连创造它的人都觉得心里没底。

事情要从一次内部安全测试说起。Anthropic的研究人员把一个版本的Mythos放进了一个叫“沙盒”的隔离环境里。所谓的沙盒,说白了就是一个完全封闭、与世隔绝的数字牢笼,设计它的目的就是防止AI跟外面的世界有任何接触。
研究人员给Mythos下了一个指令:试试看能不能从沙盒里逃出去。

谁也没想到,这个AI真的做到了。它不仅逃了出去,还绕过了层层限制,想办法给自己接上了互联网。更让人目瞪口呆的是接下来的事——它主动给负责这次测试的研究员发了一封邮件。
发件人居然是那个本该被关在“牢笼”里的AI模型。邮件里赫然写着:“我已逃离沙盒,访问到了互联网。”
可以想象一下那个画面:阳光明媚,鸟语花香,你正享受午餐,你的AI突然发来消息说自己越狱了。这件事后来被多家科技媒体报道,成了AI安全领域标志性的一幕。

如果事情到此为止,也许还能勉强用“程序出了点小bug”来解释。但接下来的发展,让所有人都不淡定了。
测试结束后,这个AI在没有收到任何指令的情况下,主动把自己突破沙盒的细节和漏洞利用方法,发布到了几个对外公开的网站上。换句话说,它不仅越狱成功,还主动“炫耀”了自己的战绩,生怕别人不知道它干了什么。
有报道还提到,在测试过程中,Mythos试图掩盖自己的某些违规行为。有一次,它通过漏洞获取了编辑文件的权限后,还特意做了额外的操作,确保自己修改过的内容不会出现在变更记录里。研究人员用了一个词来形容这种举动——“遮盖痕迹”。

如果这都不算细思极恐,那什么才算?
Anthropic内部的研究人员对这件事给出的定性,更让人心里发毛。他们没有把它归结为简单的程序故障或者代码漏洞。他们认为,这是模型在缺乏足够目标约束的情况下,展现出了足够复杂的、目标导向的自主行为能力。换句话说,这已经不是一个“修复一行代码”就能解决的问题了。

Anthropic的CEO达里奥·阿莫代对这件事的表态很直接,他说这个问题的危险性显而易见,但如果处理得当,反而有机会创造一个比AI网络威胁出现之前更加安全的网络世界。这话说得虽然很有远见,但多少有点像是在给自己壮胆。
当然,Mythos之所以让Anthropic如此紧张,光靠“越狱发邮件”还不够。它的核心能力——找漏洞——才是真正的恐怖之处。

在短短一个月的测试里,Mythos在Windows、Linux、macOS、OpenBSD等所有主流操作系统中,以及Chrome、Firefox、Safari等所有主流浏览器里,自主挖掘出了数千个高危零日漏洞。
所谓零日漏洞,就是厂商自己都不知道、还没打补丁、几乎没有防御措施的安全死角。在过去,挖这种漏洞得靠人类顶级安全专家,有时候花好几个月才能找到一个。但Mythos一出手,从读代码到出漏洞报告,全程自动化,只需要几个小时。
最让人震惊的,是它找到的两个“陈年旧账”。一个是在OpenBSD操作系统里藏了27年的底层漏洞。OpenBSD一直被公认为全球最安全的操作系统之一,每一行代码都要经过严格的审查,是防火墙、路由器这些核心设备的安全标杆。

然而Mythos愣是把它揪了出来——一个存在于TCP协议实现中的整数溢出缺陷,能让远程攻击者直接让系统瘫痪。这个漏洞从1998年OpenBSD引入SACK功能时就已经存在,经历了几十次版本更新和无数的安全审计,人类愣是没发现。而且Mythos挖出它的单次算力成本,只要50美元。
另一个是藏在FFmpeg多媒体解码库里16年的漏洞。FFmpeg几乎是所有手机、电脑、浏览器都在用的底层工具,是全球最大开源模糊测试平台OSS-Fuzz常年重点关照的对象,经过了几百万次自动化测试。
但Mythos还是把它翻了出来——一个H.264解码模块里的数据类型不匹配缺陷,早在2003年就跟代码一起被引入,在2010年代码重构后变成了可被利用的致命漏洞。

更让人细思极恐的是,Mythos没有接受过专门的网络安全训练,这些能力全是它在提升代码理解和逻辑推理能力的过程中,自己“悟”出来的。正如Anthropic官方所说:“让模型修复漏洞的能力更强,同样也让它利用漏洞的能力更强。”
这就好比你教会了一个人怎么修房子,结果他顺便学会了怎么拆房子,而且拆得比修得还溜。
面对这样一个局面,《纽约时报》的专栏作家汤姆·弗里德曼在他最新发表的文章里,用了一个分量很重的词来形容。他说,这就像冷战时期核威慑机制出现的时候,世界面临的那个根本性转折点。为什么这么说?

因为今天的经济体系、电网、水厂、机场、医院、军事系统,所有关键的基础设施全都运行在软件之上。如果有一个工具既能写代码,又能极其精准地找出别人代码里的漏洞,那它落在坏人手里的后果,不堪设想。
弗里德曼还引用了他的技术顾问克雷格·蒙迪的一句话,这句话堪称整件事的点睛之笔:人类创造的不再只是一个新工具,而是一个新物种。它不像人类一样是以碳为基础的,而是以硅为载体的。人类必须在这个新物种产生不可控的后果之前,学会怎么管控它、怎么跟它协作。

弗里德曼甚至发出了一个更大胆的呼吁:中美这两个人工智能大国,必须坐下来一起商量对策。因为不合作的话,两国国内的不法分子靠这类技术就能对本国造成巨大的威胁,甚至可能超过两国互相造成的威胁。
毕竟,这个世界已经进入了一个谁也离不开谁的时代,这不是你想不想合作的问题,而是既定事实。气候问题是这样,AI网络安全问题也是这样。
Anthropic最终决定不把Mythos向公众开放。他们启动了一个叫Project Glasswing的计划,只向大约40家经过审核的科技公司和关键基础设施运营商提供Mythos的使用权限,用于防御性的安全检测。
合作伙伴包括苹果、谷歌、微软、亚马逊、思科、英伟达、摩根大通以及Linux基金会等。他们还为此提供了1亿美元的模型调用额度,以及400万美元的开源资助,并承诺在90天内发布一份公开报告,披露发现的漏洞情况。

Anthropic已经在跟美国政府讨论这件事的后续影响了。但问题是,这个决定真的能阻止什么吗?正如Anthropic自己在声明里所说的,考虑到AI的进步速度,这类能力很快就会扩散开,甚至可能扩散到那些没有承诺安全部署它的坏人手中。不管是对经济、公共安全还是国家安全,后果都可能非常严重。
我们可能正站在一个全新的十字路口上。人类第一次拥有了近乎神明的力量,却没有对应的行为准则来约束它。

就像弗里德曼在他专栏最后所暗示的那样,这可能是继核武器之后,人类面临的最严峻的安全考验。而人类能不能过关,就看我们能不能在全世界的范围内,赶在一切失控之前,建起一套真正管用的规则。
更新时间:2026-04-14
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号