Claude Opus 4.7发了三天,我整个人都裂开了

这事说起来是真的魔幻。

周四晚上十点半,Claude Opus 4.7发布了。我当时刚从公司下班,掏出手机一看,好家伙,各大媒体平台,同时发布这玩意。

Claude Opus 4.7这玩意,热度真是高啊,于是我赶紧去用一下尝下鲜。结果,给我一下子整不会了。

我让它在后台开多个智能体,默默地跑那几个工作流。

凌晨三点的时候,Claude通知我,API额度已经用完了。我看到那个通知的时候整个人都懵了,Claude 又一次教我做人。

随后,看了一下网上各大自媒体平台网友对它的评价,感觉整个AI社区直接裂成两半。

reddit上有个帖子叫「Claude Opus 4.7是严重倒退,不是升级」,直接冲上3000赞。底下评论区简直比我当年混的贴吧还热闹。

有人说4.7连strawberry有几个字母都数不对。有人晒截图说模型擅改简历编造学历和姓氏,然后跟用户说「我懒得做交叉验证」。

还有个哥们更绝,三问就直接撞限额了。《Pragmatic Engineer》的作者Gergely Orosz试了几天之后直接宣布放弃,换回4.6,形容这模型「出人意料地带攻击性」。

但是呢?同一时间,Artificial Analysis给Opus 4.7的Intelligence Index打了57分,和GPT-5.4、Gemini 3.1 Pro并列全球第一。

创业者Jeremy Howard说这是「第一个真正懂我在工作时到底在做什么的模型」。

Y Combinator的CEO Garry Tan正在拿它做项目。还有网友信誓旦旦地说,Claude Opus 4.7已经实现AGI了。

同一个模型,有人看到了AGI的影子,有人觉得自己的工作流炸了。我当时看到这些反馈的时候,不由得陷入沉思(故作深沉)。这到底是升级了还是降级了啊???

我跟你说,我用Claude已经三年了。从GPT-3.5开始,一路用到Claude 4.6。

我为啥一直用Claude?因为Claude Opus 4.5和4.6牛就牛在「木桶效应」四个字。编程能力是强,但更重要的是啥都会。能写小说,能做策划,能写剧本,能陪你聊深夜三点睡不着的那点心事。

GPT-5.4出来的时候我是真受不了,那破模型写出来的东西一股子AI味,所以我一直觉得,Claude的核心竞争力就是「有人味」这三个字。

结果呢?结果Opus 4.7连「有人味」这个看家本领都不要了。

我给你们摘几句Opus 4.7生成的中文,你们感受感受这个味道。

「我反手再套一个幂等,把这块的逻辑彻底做死」

「顺手把那几个冗余字段给修剪了,代码看着利索点」

「你要是觉得行,我就把剩下的那两个边角料也一并收拾了。」

「我再补一次基础的核对」

「我再追加一次轻微的校验」

我看到这几句话的时候,我真的,我一时间无语了。

我不知道这模型是跟谁学的这套话术。是去了啥培训班吗?还是天天看啥成功学视频?更绝的是,你让它同文风续写一段短剧的剧本,它能给你整出一坨完全不知所云的东西来。

有个reddit老哥说得好,这感觉就像「你雇了个乙方,他来决定今天是思考日还是靠感觉日」。太特么精准了。

但是我跟你说,这事吧,还真不能一刀切。

我翻了翻那几个程序员社区,发现老外那边的反馈也挺有意思的,不是简单的好或者坏,而是有好多层。

第一层是说,官方一直在强调「long-context更稳」,但实际上呢?第三方测试显示Opus 4.6的长上下文能力远超4.7。你没看错,是远超。

第二层是说,Anthropic特别骄傲地强调价格和4.6一模一样,$5/$25。但实际上呢?新tokenizer把同样的文本切成更多token了,多多少呢?官方自己说的,1.0到1.35倍。代码、JSON、非英语文本尤其严重。有个老外很损,他说这波操作属于是「价格没变,但你的账单涨了」。

第三层是说,Opus 4.7干了一件很激进的事,把thinking从默认输出里拿掉了。以前4.6的时候你还能看到模型的思考过程摘要,现在直接默认省略。但问题是,你省略归省略,钱还是照收的。

这啥感觉呢,就是你去吃自助餐,服务员说「为了加快上菜速度,我们不给你看菜品了,但你还是得付全款」。

第四层才是真正有意思的。Anthropic的官方迁移指南里写了这么一句:

「Claude Opus 4.7会以更字面、更明确的方式理解提示词。」

啥意思呢?就是说4.6会猜你的意思帮你脑补,4.7不会了。照你说的做。那这就有意思了。对于那些prompt写得含糊的人来说,这叫「不听话」。但对于那些需要精确执行的人来说,这叫「终于不乱猜了」。

Cursor的设计师Ryo Lu就说,他反而觉得4.7更适合做产品规划,因为精确执行正是他需要的。

所以你发现没,这事没有绝对的对错。不同的人完全不同的体验,完全不同的判断。

反正这舆论发酵了两天之后,Anthropic坐不住了。

4月15号和16号连发两篇Claude Code官方指南,一篇讲Opus 4.7的最佳实践,一篇讲1M context下的session管理。

我仔细看了看这两篇,说真的,写得还挺实在的。

官方承认了五个主要的行为变化:

第一个,tokenizer换了,这个我们说过了。

第二个,默认effort档位从high升到了xhigh。xhigh是这次新加的档位,介于high和max之间。Claude Code已经把它设成默认了,所以你没手动调过的话,升级后自动就切了。xhigh比high想得多、用得多,所以会觉得「反应变慢了」「token烧得凶了」。

第三个,高effort档位下,模型更倾向于多思考,尤其在长session后期。

第四个,三个默认行为改了。回答长度按任务复杂度走,工具调用变少推理变多,spawn subagent变少。

第五个,固定thinking budget模式不支持了,改成了adaptive thinking。

官方说得很明白,模型没变糟,只是默认变了。你把同样的prompt从4.6搬过来,肯定手感不一样。这解释吧,说得通。但问题是,谁来承担这个迁移成本?

是你,是你,就是你,哈哈。

新tokenizer让你的成本预算失效,新的默认行为让你的prompt不再好用,新的接口规范让你的代码直接报错。每一项单独看都有技术上的合理性,但叠在一起,就是把全部迁移成本一次性推给了用户。

Anthropic员工Alex Albert在发布次日发了个帖子,说「很多bug现在都已经修复了,感谢大家的包容和耐心」。行吧,感谢包容和耐心。那我能不能不包容不耐心,直接提个需求:下次升级的时候,能不能给个过渡期???

说到这我得给你们看两组数据,特别有意思。

第一组是NYT Connections Extended基准测试。这玩意用940道《纽约时报》的谜题来测模型的逻辑推理和抗干扰能力。结果呢?Opus 4.6(high reasoning)得分94.7%,Opus 4.7(high reasoning)得分41.0%。从年级第一,直接跌到不及格。

第二组是Anthropic自己的System Card里披露的MRCR v2基准测试,100万token上下文的。Opus 4.6得分78.3%,Opus 4.7得分32.2%,下跌46个百分点。

但是GDPval-AA上,Opus 4.7以1753 Elo登顶,领先第二名79分。这项测试衡量的是AI在44种职业中独立完成知识工作的能力。幻觉率也比4.6下降了25个百分点,降到36%。

所以你发现没,模型在某些维度上确实变强了,但在某些维度上确实变弱了。

不能简单地说「变强了」或者「变弱了」。这就是大模型迭代的现实。能力再分配,有升有降。问题是,这个升降和你个人的使用场景到底匹配不匹配。

匹配,你就觉得真香。

不匹配,你就觉得被背刺了。

说真的,我这几天研究下来,也摸出点门道了。

Anthropic那两篇官方指南很及时,干货也很多。我给你们总结一下核心要点。

第一,档位选择这块。xhigh是默认,适合大部分编码和agent任务。high适合多session并发或者想省钱的时候。low和medium适合任务范围清楚、对成本敏感的场景。max就真正困难的问题才用,容易过度思考。

第二,prompt写法这块。官方建议第一轮就把任务说清楚,意图、约束、验收标准、相关文件位置一次性给足。把Claude当有能力的工程师,而不是结对编程的同伴。

第三,长session管理这块。Claude Code给了几个工具,Continue、Rewind、Compact、Clear、Subagent。简单说就是,context还相关就Continue,Claude走错路了就Rewind,session被陈旧内容填满了就Compact,开始真正的新任务就Clear,下一阶段只需要结论就Subagent。

第四,引导thinking这块。固定预算不支持了,但可以在prompt里写。比如你想多想,就写「Think carefully and step-by-step before responding」;想少想,就写「Prioritize responding quickly rather than thinking deeply」。

听起来挺麻烦的对吧?确实比以前要多操一点心。但官方说,一旦上道,结果会更好。

不管你信不信,反正我信了(黄晓明附体,呵呵)。

最后说说我自己的判断,纯主观,仅供参考。

Opus 4.7是给「写代码的Agent」准备的升级。多步agent、长任务执行、vision这几个维度,它是真的强。但即使是这些场景,在我实测里,它似乎仍然比不上GPT-5.4 xhigh。

Opus 4.7对「其他所有场景」都是降级。写东西的场景、做RAG的、依赖稳定成本的、依赖旧prompt的。

所以我这段时间的决定是,暂时搁置Claude Code。代码方面用Codex,非代码方面用4.6。但这不是说Opus 4.7不好。只是它好的那些地方,和我需要的那些地方,不是很匹配。

你们的情况肯定和我不一样。你们自己判断。

其实吧,让我想到一个最深的问题。

这三年,我眼睁睁看着这些模型,一个接一个,变得越来越聪明,越来越能打,Benchmark一个比一个猛。

但也是这三年,我眼睁睁看着它们,一个接一个,体感并没有越来越好。

可能这不是模型的问题,而是作为用户,我的口味和要求在慢慢的、潜移默化、不知不觉的提升,而自己并没有察觉。

想想AI编程初期,一句话给你生成一个贪吃蛇小游戏,就开心一整天。问AI任何问题,它都能给答案,不需要搜索引擎全网人工筛选答案,太爽了。

模型在变得越来越优秀,而人类的期望也越来越高。

好了,今天就聊到这。既然看到这里了,彦祖们记得点赞、关注、转发、评论一下吧。青山不改绿水长流,我们下期见!

最后,感谢「tangseng」大师对我文章的协助和指导。

展开阅读全文

更新时间:2026-04-21

标签:科技   模型   官方   档位   代码   场景   成本   维度   得分   有意思   人味

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top