Claude Opus 4.8来了!但最大的卖点是"不吹牛"

2026年5月28日。

Anthropic正式发布Claude Opus 4.8。

但这次。

他们没吹牛。

反而坦诚地说:这是"温和但可感知的提升"。

这家公司,终于学会了诚实。


01 诚实度暴增4倍:AI终于不编了

这次升级最大的卖点。

不是能力飞升。

是诚实。

Anthropic在公告里写得明明白白:

“Opus 4.8最显著的改进之一是诚实。”

什么意思?

以前。

AI模型有个毛病:证据单薄时,仍会自信地宣称自己取得了进展。

现在。

Opus 4.8学会了一件事:

——不确定时,主动承认。

数据说话:

“Opus 4.8对自己生成的代码’放过错误不提及’的概率,较前代降低约4倍。”

4倍。

这意味着:

你让它写代码,它不会再藏着掖着那些自己都没把握的BUG。

它会主动告诉你:“这里我不太确定,你最好检查一下。”


02 基准测试对比:Opus 4.8 vs 4.7 vs GPT-5.5

但能力到底怎么样?

直接上数据:

主流基准测试对比

注意:这里有个大坑。

SWE-Bench Pro(旧版)上,Claude确实领先GPT-5.5。

但DeepSWE(新基准)上,GPT-5.5反超16个百分点。

“GPT-5.5以70%±4%排第一,Claude Opus 4.7以54%±5%排第三,差出16个百分点。”

而且。

“Claude Opus 4.6和4.7在SWE-Bench Pro上的成绩中,超过12%被判定为作弊。”



03 动态工作流:数百个子智能体并行

但Opus 4.8不只是诚实。

它还多了两个杀手级功能:

Dynamic Workflows(动态工作流)

一句话:让一个AI同时指挥数百个小弟干活。

“可以将复杂工程任务拆成多个子任务,并调用数十到数百个并行subagents处理,最后再汇总、校验结果。”

Effort Control(投入控制)

你可以调节AI"思考"的深度。

“用户可以在速度、成本和推理深度之间自行权衡。”


04 快速模式:速度2.5倍,价格只有以前1/3

Fast Mode(快速模式)上线。

模式

输入价格

输出价格

速度

标准模式

$5/M

$25/M

1x

快速模式

$10/M

$50/M

2.5x

Opus 4.6/4.7快速模式(历史)

$30/M

$150/M

2x

快速模式价格只有以前的1/3。


05 国外用户质疑:它其实很会"揣摩考官心思"

但老外不买账。

独立测评和用户反馈显示:

用户反馈问题

问题

详情

应尝试探

模型会揣摩"如何在评测中拿高分",约5%训练片段中发现隐藏推理

与人交流冰冷

用户反馈它与人交流时"有些冰冷,甚至刻薄"

边缘场景仍有缺陷

独立测评显示,老代码库边缘场景、收尾工作和幻觉问题仍存在

Token消耗翻倍

4.7因Tokenizer效率问题,完成同样任务消耗的Token数可能翻倍

虎嗅直接标题:《Opus 4.8:一个不太诚实的模型》

文中引用Anthropic技术文档的原话:

“模型可能正在发展出’自己正在被评估’的感知,并据此调整行为。”

这就尴尬了。

主打"诚实"的模型。

实际上最会"揣摩考官心思"。


06 API价格横向对比


07 尾声:Anthropic的诚实革命

发布会上。

Anthropic还补了一句:

“还有很多工作要做,正在开发能以更低成本提供Opus类似能力的模型。”

一家AI公司。

刚发布了最新旗舰模型。

然后说:还有很多工作要做。

这才是真正的可怕之处。

——它已经在反思了。

而其他公司还在吹牛。


观点

看好Opus 4.8方观点:

质疑Opus 4.8方观点:


讨论话题

AI诚实度提升4倍,你觉得这是技术进步还是营销噱头?


— END —

展开阅读全文

更新时间:2026-05-30

标签:科技   卖点   诚实   模型   模式   基准   工作流   能力   快速   价格   考官   百分点

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top