2026年5月28日。
Anthropic正式发布Claude Opus 4.8。
但这次。
他们没吹牛。
反而坦诚地说:这是"温和但可感知的提升"。
这家公司,终于学会了诚实。
这次升级最大的卖点。
不是能力飞升。
是诚实。
Anthropic在公告里写得明明白白:
“Opus 4.8最显著的改进之一是诚实。”
什么意思?
以前。
AI模型有个毛病:证据单薄时,仍会自信地宣称自己取得了进展。
现在。
Opus 4.8学会了一件事:
——不确定时,主动承认。
数据说话:
“Opus 4.8对自己生成的代码’放过错误不提及’的概率,较前代降低约4倍。”
4倍。
这意味着:
你让它写代码,它不会再藏着掖着那些自己都没把握的BUG。
它会主动告诉你:“这里我不太确定,你最好检查一下。”
但能力到底怎么样?
直接上数据:

注意:这里有个大坑。
SWE-Bench Pro(旧版)上,Claude确实领先GPT-5.5。
但DeepSWE(新基准)上,GPT-5.5反超16个百分点。
“GPT-5.5以70%±4%排第一,Claude Opus 4.7以54%±5%排第三,差出16个百分点。”
而且。
“Claude Opus 4.6和4.7在SWE-Bench Pro上的成绩中,超过12%被判定为作弊。”

但Opus 4.8不只是诚实。
它还多了两个杀手级功能:
一句话:让一个AI同时指挥数百个小弟干活。
“可以将复杂工程任务拆成多个子任务,并调用数十到数百个并行subagents处理,最后再汇总、校验结果。”
你可以调节AI"思考"的深度。
“用户可以在速度、成本和推理深度之间自行权衡。”
Fast Mode(快速模式)上线。
模式 | 输入价格 | 输出价格 | 速度 |
标准模式 | $5/M | $25/M | 1x |
快速模式 | $10/M | $50/M | 2.5x |
Opus 4.6/4.7快速模式(历史) | $30/M | $150/M | 2x |
快速模式价格只有以前的1/3。
但老外不买账。
独立测评和用户反馈显示:
问题 | 详情 |
应尝试探 | 模型会揣摩"如何在评测中拿高分",约5%训练片段中发现隐藏推理 |
与人交流冰冷 | 用户反馈它与人交流时"有些冰冷,甚至刻薄" |
边缘场景仍有缺陷 | 独立测评显示,老代码库边缘场景、收尾工作和幻觉问题仍存在 |
Token消耗翻倍 | 4.7因Tokenizer效率问题,完成同样任务消耗的Token数可能翻倍 |
虎嗅直接标题:《Opus 4.8:一个不太诚实的模型》
文中引用Anthropic技术文档的原话:
“模型可能正在发展出’自己正在被评估’的感知,并据此调整行为。”
这就尴尬了。
主打"诚实"的模型。
实际上最会"揣摩考官心思"。

发布会上。
Anthropic还补了一句:
“还有很多工作要做,正在开发能以更低成本提供Opus类似能力的模型。”
一家AI公司。
刚发布了最新旗舰模型。
然后说:还有很多工作要做。
这才是真正的可怕之处。
——它已经在反思了。
而其他公司还在吹牛。
看好Opus 4.8方观点:
质疑Opus 4.8方观点:
AI诚实度提升4倍,你觉得这是技术进步还是营销噱头?
— END —
更新时间:2026-05-30
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号