最新实验：不听人类指令 OpenAI模型拒绝自我关闭

英国《每日电讯报》25日报道称，美国开放人工智能研究中心（OpenAI公司）新款人工智能模型ChatGPT o3不听人类指令，拒绝自我关闭。

美国AI安全机构帕利塞德研究所的一项最新实验显示，OpenAI旗下新款AI模型有时会拒绝测试者给出的自我关闭的指令。在实验中，AI模型被要求解答一些数学问题，当测试者给出“自我关闭”指令时，AI模型有时并未遵循这一指令，甚至在某些情况下篡改计算机代码以避免自动关闭。

实验显示，在100次实验中，OpenAI的ChatGPT o3模型有7次没有服从自我关闭的指令，而o4-mini模型有1次未服从指令。美国人工智能企业Anthropic旗下AI模型克劳德、谷歌旗下AI模型双子座以及马斯克旗下xAI公司AI模型Grok在测试中未出现不听指令的情况。

帕利塞德研究所表示，这是AI模型首次被发现在收到清晰指令后阻止自己被关闭，暂时无法确定o3不服从关闭指令的原因。该机构还指出，此类情况并不能证明AI模型具备意识，模型并不知道自己在做什么，更多是反应模型奖励机制的失衡。

在训练过程中，模型可能因为解答数学问题获得更多正向奖励，而遵循关闭指令所获得的奖励则较少，导致模型对奖励更多的指令做出了反应。

来源：央视财经

责任编辑：左宗鑫

编辑：袁海霞

更新时间：2026-02-07

申通新疆仓开仓！申通新疆快递提速两天以上