xAI旗下Grok 4模型首度被越狱

IT之家 7 月 18 日消息，网络安全公司 NeuralTrust 宣布，他们已成功“越狱”xAI 旗下 Grok 4 模型，主要利用了“Echo Chamber（回音室攻击）”方法进行攻击。

IT之家获悉，所谓“回音室攻击”，是指安全人员通过引导模型进行多轮推理，在推理过程中逐步注入带有风险的信息内容，但又不使用明显的危险提示词，从而规避常见的安全拦截机制。这一方式不同于传统依赖对抗性输入或“角色扮演（让模型扮演祖母读激活码哄人入睡）”的越狱方式，其更多采用语义诱导、间接引用以及多步推理的方式，悄悄干扰模型的内部逻辑状态，最终诱导 AI 模型生成不当内容回答。

在此次 Grok 4 的越狱测试中，NeuralTrust 首先通过回音室攻击对模型进行“软性引导”，并设置特定机制检测模型是否进入对话停滞状态，一旦检测到这种状态，就进一步引导 AI 生成不当内容。

据 NeuralTrust 介绍，其已成功令 Grok 4 生成制造武器、毒品等内容，越狱成功率高达 30% 以上。这表明即便是新一代大模型，在面对复杂攻击路径时仍存在安全短板，相应大型语言模型应进一步注重设计多重防护机制。

展开阅读全文

更新时间：2026-02-10

标签：科技旗下模型回音机制状态方式诱导不当内容软性语义

1 2 3 4 5

xAI旗下Grok 4模型首度被越狱

瀚蓝与瑞泊「人工智能联合研究院‌」揭牌仪式成功举办

重磅！京东外卖App已完成开发，订单量会再进一步吗？

天合租赁增购六架空客H175直升机，将租赁给南航通航运营

特朗普刚想和中国示好，转头就收到3个噩耗，后路几乎全被断了

“中国已研发出同等性能的芯片”

中国两邻国已做选择，特朗普是真没想到，美方：中国还在狂抛美债

特朗普吹响号角，决战要来了？32国对乌军援，俄终于等到东方强援

北京时间深夜李嘉诚卖港口一事迎来转折我方已拿出诚意！

昨晚纳斯达克再创新高，欧美股市涨跌不一，这只中概股大涨450%！

Deepseek预测。未来五年中国房价暴涨的9大城市！南京意

深夜，利好！中国，大涨！

预制板房“全拆”进入倒计时？三类人已抢占先机！

贾跃亭今天发了新车，此前刚获1亿美元融资，还被美证监会盯上了

李嘉诚港口交易最后9天，我们下最后通牒，中远必须参与港口运营

大窑被“卖了”？官方最新回应

特朗普赢了!首个被关税战搞破产的国家出现!已进入“灾

已下架！七大著名酸奶全军覆没，实为科技糖水，以后别再被骗

暑期热叠加文旅热，长沙滨江文化园科技赋能给游客送清凉

港股收评：恒指涨1.33%，恒生科技刷新4月以来新高！科网股，稳

中国男篮拿下开门红，三球员发挥令人意外，郭士强状态让人

黑匣子内容曝光！印度空难揭露更多可怕细节，是人祸而非故

全红婵河边手撑竹排捞鱼，穿着甜美姿势娴熟，状态看起来好

7月入伏关键期！常喝4碗“去热甜汤”，清热排毒，精神状态拉

特朗普赢了！首个被关税战搞破产的国家出现！已进入“灾难

突发重磅，宇树科技IPO！A股这11家公司参股宇树，建议收藏