最新实验:不听人类指令 OpenAI模型拒绝自我关闭

英国《每日电讯报》25日报道称,美国开放人工智能研究中心(OpenAI公司)新款人工智能模型ChatGPT o3不听人类指令,拒绝自我关闭。

美国AI安全机构帕利塞德研究所的一项最新实验显示,OpenAI旗下新款AI模型有时会拒绝测试者给出的自我关闭的指令。在实验中,AI模型被要求解答一些数学问题,当测试者给出“自我关闭”指令时,AI模型有时并未遵循这一指令,甚至在某些情况下篡改计算机代码以避免自动关闭。

实验显示,在100次实验中,OpenAI的ChatGPT o3模型有7次没有服从自我关闭的指令,而o4-mini模型有1次未服从指令。美国人工智能企业Anthropic旗下AI模型克劳德、谷歌旗下AI模型双子座以及马斯克旗下xAI公司AI模型Grok在测试中未出现不听指令的情况。

帕利塞德研究所表示,这是AI模型首次被发现在收到清晰指令后阻止自己被关闭,暂时无法确定o3不服从关闭指令的原因。该机构还指出,此类情况并不能证明AI模型具备意识,模型并不知道自己在做什么,更多是反应模型奖励机制的失衡。

在训练过程中,模型可能因为解答数学问题获得更多正向奖励,而遵循关闭指令所获得的奖励则较少,导致模型对奖励更多的指令做出了反应。



来源:央视财经

责任编辑:左宗鑫

编辑:袁海霞

展开阅读全文

更新时间:2025-05-28

标签:科技   指令   模型   人类   自我   最新   人工智能   美国   旗下   测试   更多   新款   研究所

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top