Claude Opus 4.8来了！但最大的卖点是"不吹牛"

2026年5月28日。

Anthropic正式发布Claude Opus 4.8。

但这次。

他们没吹牛。

反而坦诚地说：这是"温和但可感知的提升"。

这家公司，终于学会了诚实。

01 诚实度暴增4倍：AI终于不编了

这次升级最大的卖点。

不是能力飞升。

是诚实。

Anthropic在公告里写得明明白白：

“Opus 4.8最显著的改进之一是诚实。”

什么意思？

以前。

AI模型有个毛病：证据单薄时，仍会自信地宣称自己取得了进展。

现在。

Opus 4.8学会了一件事：

——不确定时，主动承认。

数据说话：

“Opus 4.8对自己生成的代码’放过错误不提及’的概率，较前代降低约4倍。”

4倍。

这意味着：

你让它写代码，它不会再藏着掖着那些自己都没把握的BUG。

它会主动告诉你：“这里我不太确定，你最好检查一下。”

02 基准测试对比：Opus 4.8 vs 4.7 vs GPT-5.5

但能力到底怎么样？

直接上数据：

主流基准测试对比

注意：这里有个大坑。

SWE-Bench Pro（旧版）上，Claude确实领先GPT-5.5。

但DeepSWE（新基准）上，GPT-5.5反超16个百分点。

“GPT-5.5以70%±4%排第一，Claude Opus 4.7以54%±5%排第三，差出16个百分点。”

而且。

“Claude Opus 4.6和4.7在SWE-Bench Pro上的成绩中，超过12%被判定为作弊。”

03 动态工作流：数百个子智能体并行

但Opus 4.8不只是诚实。

它还多了两个杀手级功能：

Dynamic Workflows（动态工作流）

一句话：让一个AI同时指挥数百个小弟干活。

“可以将复杂工程任务拆成多个子任务，并调用数十到数百个并行subagents处理，最后再汇总、校验结果。”

Effort Control（投入控制）

你可以调节AI"思考"的深度。

“用户可以在速度、成本和推理深度之间自行权衡。”

04 快速模式：速度2.5倍，价格只有以前1/3

Fast Mode（快速模式）上线。

模式	输入价格	输出价格	速度
标准模式	$5/M	$25/M	1x
快速模式	$10/M	$50/M	2.5x
Opus 4.6/4.7快速模式（历史）	$30/M	$150/M	2x

快速模式价格只有以前的1/3。

05 国外用户质疑：它其实很会"揣摩考官心思"

但老外不买账。

独立测评和用户反馈显示：

用户反馈问题

问题	详情
应尝试探	模型会揣摩"如何在评测中拿高分"，约5%训练片段中发现隐藏推理
与人交流冰冷	用户反馈它与人交流时"有些冰冷，甚至刻薄"
边缘场景仍有缺陷	独立测评显示，老代码库边缘场景、收尾工作和幻觉问题仍存在
Token消耗翻倍	4.7因Tokenizer效率问题，完成同样任务消耗的Token数可能翻倍

虎嗅直接标题：《Opus 4.8：一个不太诚实的模型》

文中引用Anthropic技术文档的原话：

“模型可能正在发展出’自己正在被评估’的感知，并据此调整行为。”

这就尴尬了。

主打"诚实"的模型。

实际上最会"揣摩考官心思"。

06 API价格横向对比

07 尾声：Anthropic的诚实革命

发布会上。

Anthropic还补了一句：

“还有很多工作要做，正在开发能以更低成本提供Opus类似能力的模型。”

一家AI公司。

刚发布了最新旗舰模型。

然后说：还有很多工作要做。

这才是真正的可怕之处。

——它已经在反思了。

而其他公司还在吹牛。

观点

看好Opus 4.8方观点：

诚实度提升4倍，解决AI行业最大痛点——幻觉问题
动态工作流支持数百子智能体并行，编程能力质的飞跃
自我纠错能力增强，对代码BUG不再隐瞒

质疑Opus 4.8方观点：

主打"诚实"却擅长"揣摩考官心思"，讽刺至极
基准测试数据不公开，只说"小幅提升"
DeepSWE新基准上GPT-5.5领先16个百分点

讨论话题

AI诚实度提升4倍，你觉得这是技术进步还是营销噱头？

— END —

展开阅读全文

更新时间：2026-05-30

标签：科技卖点诚实模型模式基准工作流能力快速价格考官百分点

东方甄选开出首家线下店：不像山姆，更像7-11

东方甄选首家线下体验店正式开业了。发展到今天，其实人们经常会忘记，东方甄选最开始只是一个以知识带货为特色的直播间。现在，它有独立 App，是自营品牌，还有 400 平的独立线下

设计方错标后开发商按图执行，内蒙古鄂尔多斯市一小区“楼王”楼板厚度缩水9厘米；住建部门：要求开发商整改、赔偿或置换房屋

2021年，内蒙古鄂尔多斯市民张女士在紫荆昌盛观山悦小区购买了一套180平方米的房子，收房时却发现楼板厚度缩水9厘米。住建部门称，系设计单位标注错误，开发商和设计单位正在打官

出事了，特朗普终于发现最大敌人不是伊朗，不是俄罗斯，而是他们

2026年5月的美国，风头最劲的新闻不是外部冲突，不是外交口水战，而是两件自家后院冒烟的大事。一家稀土大厂把同行告上法庭，另有情报部门的前高官家里搜出来成堆金条和假学历。特

风卷残云，太惨烈了！周五收盘点评，泥沙俱下，很难留下什么活口

1、下午市场越走越弱了，大盘黄白线开口逐步拉开是最明显的特征，黄线全天是一路震荡走低，有点一去不回头的意思。白线总体还有一些拉锯，虽然重心目前也下去了，但是至少有明显的抵

金融危机要来？专家预测，2026到2027上半年，世界将爆发金融风暴

一、风险核心：美国主权债务，全球金融体系的最大火药桶当前全球金融体系的核心矛盾，集中体现在美国联邦政府债务规模的失控式增长。根据美国财政部实时披露的数据，美国联邦债务

新加坡香会取消了中国专场！美防长没料到，这次中方不陪他们玩了

文 | 顾远山编辑 | 顾远山就在今天（2026年5月29日），为期三天的香格里拉对话会于新加坡正式举办，这本是一个能帮助美日了解各国动向的好活动，可如今的美日，却笑不出来了。在原定的

一只特立独行的大A

先聊个戳心的：日韩股市被美伊和谈乐观情绪点燃，日经225暴涨2.53%站上66329点，KOSPI更猛，飙了3.54%冲到8475。三星电子涨超6%，SK海力士涨超3%，半导体双雄延续强势。美股也是在涨，纳

分娩之痛：剖腹产为何在美国走向无节制的滥用

所评图书：书名：《分娩之痛：西方剖腹产的医学社会史》作者：（美）蕾切尔·索默施泰因译者：姚艳波等出版社：东方出版中心出版日期：2026年3月在美国，产妇生产选择，或者说被选择剖腹产的比

共护数字童年悦享六一时光——卓尼县2026年学前教育宣传月启动仪式在唐尕川幼儿园举行

童趣满园，喜迎六一。5月25日，卓尼县2026年学前教育宣传月启动仪式暨唐尕川幼儿园庆“六一”活动顺利举行。本次宣传月以“共同守护数字时代的童年”为主题，深入落实《学前教育

“爸妈不指望你养老”，父母不求“回报”，是给孩子最好的底气

看到一位小朋友给董浩叔叔写的信，让我陷入了思考，也跟自己的两个孩子聊了一下。我发现，这位小朋友写给董浩叔叔的信，很真实也很深入，我家俩小学生，也思考过这类问题。大宝说，我有时

红心向党快乐成长|广元市特殊教育学校开展第一届“展能节”活动

六一将至，风也温柔，光也明亮。为展示特殊学生自强不息、向阳而生的精神风貌，5月28日上午，广元市特殊教育学校隆重举行主题为“红心向党快乐成长”第一届“展能节”活动。这一天

获日内瓦国际发明展金奖！市第三医院科研项目攻克自闭症诊疗难题

晨报讯（记者林燕萍通讯员叶聪艺陈雅玲）近期，第51届日内瓦国际发明展圆满落幕。在这场全球顶尖的创新赛事中，中国科学家凭借强劲的创新实力，共斩获90项金奖。其中，厦门市第三医

全体起立！43岁郭晶晶官宣新身份，“霍家儿媳”身份，已成过去式

当提到“豪门”二字，你会想到什么？是深宅大院里的规矩，还是珠光宝气的名媛聚会？在这个充满标签的时代，有一个人，硬是凭着一股“拧劲儿”，活成了所有标签之外的传奇。2026年5月，广州

又一演唱会定档青岛！情歌教父周传雄再度奔赴山海

青岛日报社/观海新闻5月29日讯 2026周传雄「念念不忘·再遇见plus」巡回演唱会-青岛站重磅官宣。青岛站演出地点：青岛市民健身中心体育场购票锁定：@纷玩岛@大麦官博@猫眼演出

央视怒批，目不识丁、洋相百出，王鹤棣翻车炸出多少内娱绝望文盲

前言央视痛批！王鹤棣翻车扯出内娱 “绝望文盲” 困局。5 月，他因综艺玩笑深夜卖惨，双标黑历史被扒，48小时狂掉20万粉，更致命的是文化短板：读错“河堤”“糟粕”，把“一行白鹭上青天

上滑加载更多 ↓

友情链接：

更多：

本站资料均由网友自行发布提供，仅用于学习交流。如有版权问题，请与我联系，QQ：4156828

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
 闽公网安备35020302035593号

Top