外媒：前 OpenAI 研究员称GPT-4o存在“舍人保己”倾向

【环球网科技综合报道】6月12日消息，前OpenAI研究员史蒂文·阿德勒（Steven Adler）发布了一份独立报告。报告显示，在极端情况下，OpenAI的GPT-4o生成的结果即使会牺牲用户安全，其也会选择自保，防止自己被关闭或被其他模型替代。

阿德勒承认，目前还没有人在涉及生命安全的应用中使用 ChatGPT，但他认为，这些发现提出了一些早期但紧迫的问题：人工智能系统是否会以牺牲人类安全为代价来优先考虑自身的寿命。

阿德勒表示，人工智能的自我保护倾向在当今确实令人担忧，但并非灾难性的。现代人工智能系统的价值观与人们的预期不同。人工智能系统对不同提示的反应非常奇怪，当你向它们寻求帮助时，你不应该假设它们会真心为你着想。

研究的另一个令人惊讶的结果是，ChatGPT 似乎能够感知到自己何时受到测试，而且准确率几乎无可挑剔。这引出了一些更深层次的问题，例如复杂模型的训练感知特性，以及它们的行为在聚光灯下是否会发生变化。

阿德勒还提出，OpenAI 最近减少了在内部安全评估上花费的时间和资源，他认为此举损害了公司 AI 产品的完整性和长期可靠性。（思瀚）

更新时间：2025-10-17

亚马逊Prime Video被曝每小时内容6分钟广告，时长几乎翻番