Claude Opus 4.7发了三天，我整个人都裂开了

这事说起来是真的魔幻。

周四晚上十点半，Claude Opus 4.7发布了。我当时刚从公司下班，掏出手机一看，好家伙，各大媒体平台，同时发布这玩意。

Claude Opus 4.7这玩意，热度真是高啊，于是我赶紧去用一下尝下鲜。结果，给我一下子整不会了。

我让它在后台开多个智能体，默默地跑那几个工作流。

凌晨三点的时候，Claude通知我，API额度已经用完了。我看到那个通知的时候整个人都懵了，Claude 又一次教我做人。

随后，看了一下网上各大自媒体平台网友对它的评价，感觉整个AI社区直接裂成两半。

reddit上有个帖子叫「Claude Opus 4.7是严重倒退，不是升级」，直接冲上3000赞。底下评论区简直比我当年混的贴吧还热闹。

有人说4.7连strawberry有几个字母都数不对。有人晒截图说模型擅改简历编造学历和姓氏，然后跟用户说「我懒得做交叉验证」。

还有个哥们更绝，三问就直接撞限额了。《Pragmatic Engineer》的作者Gergely Orosz试了几天之后直接宣布放弃，换回4.6，形容这模型「出人意料地带攻击性」。

但是呢？同一时间，Artificial Analysis给Opus 4.7的Intelligence Index打了57分，和GPT-5.4、Gemini 3.1 Pro并列全球第一。

创业者Jeremy Howard说这是「第一个真正懂我在工作时到底在做什么的模型」。

Y Combinator的CEO Garry Tan正在拿它做项目。还有网友信誓旦旦地说，Claude Opus 4.7已经实现AGI了。

同一个模型，有人看到了AGI的影子，有人觉得自己的工作流炸了。我当时看到这些反馈的时候，不由得陷入沉思（故作深沉）。这到底是升级了还是降级了啊？？？

我跟你说，我用Claude已经三年了。从GPT-3.5开始，一路用到Claude 4.6。

我为啥一直用Claude？因为Claude Opus 4.5和4.6牛就牛在「木桶效应」四个字。编程能力是强，但更重要的是啥都会。能写小说，能做策划，能写剧本，能陪你聊深夜三点睡不着的那点心事。

GPT-5.4出来的时候我是真受不了，那破模型写出来的东西一股子AI味，所以我一直觉得，Claude的核心竞争力就是「有人味」这三个字。

结果呢？结果Opus 4.7连「有人味」这个看家本领都不要了。

我给你们摘几句Opus 4.7生成的中文，你们感受感受这个味道。

「我反手再套一个幂等，把这块的逻辑彻底做死」

「顺手把那几个冗余字段给修剪了，代码看着利索点」

「你要是觉得行，我就把剩下的那两个边角料也一并收拾了。」

「我再补一次基础的核对」

「我再追加一次轻微的校验」

我看到这几句话的时候，我真的，我一时间无语了。

我不知道这模型是跟谁学的这套话术。是去了啥培训班吗？还是天天看啥成功学视频？更绝的是，你让它同文风续写一段短剧的剧本，它能给你整出一坨完全不知所云的东西来。

有个reddit老哥说得好，这感觉就像「你雇了个乙方，他来决定今天是思考日还是靠感觉日」。太特么精准了。

但是我跟你说，这事吧，还真不能一刀切。

我翻了翻那几个程序员社区，发现老外那边的反馈也挺有意思的，不是简单的好或者坏，而是有好多层。

第一层是说，官方一直在强调「long-context更稳」，但实际上呢？第三方测试显示Opus 4.6的长上下文能力远超4.7。你没看错，是远超。

第二层是说，Anthropic特别骄傲地强调价格和4.6一模一样，$5/$25。但实际上呢？新tokenizer把同样的文本切成更多token了，多多少呢？官方自己说的，1.0到1.35倍。代码、JSON、非英语文本尤其严重。有个老外很损，他说这波操作属于是「价格没变，但你的账单涨了」。

第三层是说，Opus 4.7干了一件很激进的事，把thinking从默认输出里拿掉了。以前4.6的时候你还能看到模型的思考过程摘要，现在直接默认省略。但问题是，你省略归省略，钱还是照收的。

这啥感觉呢，就是你去吃自助餐，服务员说「为了加快上菜速度，我们不给你看菜品了，但你还是得付全款」。

第四层才是真正有意思的。Anthropic的官方迁移指南里写了这么一句：

「Claude Opus 4.7会以更字面、更明确的方式理解提示词。」

啥意思呢？就是说4.6会猜你的意思帮你脑补，4.7不会了。照你说的做。那这就有意思了。对于那些prompt写得含糊的人来说，这叫「不听话」。但对于那些需要精确执行的人来说，这叫「终于不乱猜了」。

Cursor的设计师Ryo Lu就说，他反而觉得4.7更适合做产品规划，因为精确执行正是他需要的。

所以你发现没，这事没有绝对的对错。不同的人完全不同的体验，完全不同的判断。

反正这舆论发酵了两天之后，Anthropic坐不住了。

4月15号和16号连发两篇Claude Code官方指南，一篇讲Opus 4.7的最佳实践，一篇讲1M context下的session管理。

我仔细看了看这两篇，说真的，写得还挺实在的。

官方承认了五个主要的行为变化：

第一个，tokenizer换了，这个我们说过了。

第二个，默认effort档位从high升到了xhigh。xhigh是这次新加的档位，介于high和max之间。Claude Code已经把它设成默认了，所以你没手动调过的话，升级后自动就切了。xhigh比high想得多、用得多，所以会觉得「反应变慢了」「token烧得凶了」。

第三个，高effort档位下，模型更倾向于多思考，尤其在长session后期。

第四个，三个默认行为改了。回答长度按任务复杂度走，工具调用变少推理变多，spawn subagent变少。

第五个，固定thinking budget模式不支持了，改成了adaptive thinking。

官方说得很明白，模型没变糟，只是默认变了。你把同样的prompt从4.6搬过来，肯定手感不一样。这解释吧，说得通。但问题是，谁来承担这个迁移成本？

是你，是你，就是你，哈哈。

新tokenizer让你的成本预算失效，新的默认行为让你的prompt不再好用，新的接口规范让你的代码直接报错。每一项单独看都有技术上的合理性，但叠在一起，就是把全部迁移成本一次性推给了用户。

Anthropic员工Alex Albert在发布次日发了个帖子，说「很多bug现在都已经修复了，感谢大家的包容和耐心」。行吧，感谢包容和耐心。那我能不能不包容不耐心，直接提个需求：下次升级的时候，能不能给个过渡期？？？

说到这我得给你们看两组数据，特别有意思。

第一组是NYT Connections Extended基准测试。这玩意用940道《纽约时报》的谜题来测模型的逻辑推理和抗干扰能力。结果呢？Opus 4.6（high reasoning）得分94.7%，Opus 4.7（high reasoning）得分41.0%。从年级第一，直接跌到不及格。

第二组是Anthropic自己的System Card里披露的MRCR v2基准测试，100万token上下文的。Opus 4.6得分78.3%，Opus 4.7得分32.2%，下跌46个百分点。

但是GDPval-AA上，Opus 4.7以1753 Elo登顶，领先第二名79分。这项测试衡量的是AI在44种职业中独立完成知识工作的能力。幻觉率也比4.6下降了25个百分点，降到36%。

所以你发现没，模型在某些维度上确实变强了，但在某些维度上确实变弱了。

不能简单地说「变强了」或者「变弱了」。这就是大模型迭代的现实。能力再分配，有升有降。问题是，这个升降和你个人的使用场景到底匹配不匹配。

匹配，你就觉得真香。

不匹配，你就觉得被背刺了。

说真的，我这几天研究下来，也摸出点门道了。

Anthropic那两篇官方指南很及时，干货也很多。我给你们总结一下核心要点。

第一，档位选择这块。xhigh是默认，适合大部分编码和agent任务。high适合多session并发或者想省钱的时候。low和medium适合任务范围清楚、对成本敏感的场景。max就真正困难的问题才用，容易过度思考。

第二，prompt写法这块。官方建议第一轮就把任务说清楚，意图、约束、验收标准、相关文件位置一次性给足。把Claude当有能力的工程师，而不是结对编程的同伴。

第三，长session管理这块。Claude Code给了几个工具，Continue、Rewind、Compact、Clear、Subagent。简单说就是，context还相关就Continue，Claude走错路了就Rewind，session被陈旧内容填满了就Compact，开始真正的新任务就Clear，下一阶段只需要结论就Subagent。

第四，引导thinking这块。固定预算不支持了，但可以在prompt里写。比如你想多想，就写「Think carefully and step-by-step before responding」；想少想，就写「Prioritize responding quickly rather than thinking deeply」。

听起来挺麻烦的对吧？确实比以前要多操一点心。但官方说，一旦上道，结果会更好。

不管你信不信，反正我信了(黄晓明附体，呵呵)。

最后说说我自己的判断，纯主观，仅供参考。

Opus 4.7是给「写代码的Agent」准备的升级。多步agent、长任务执行、vision这几个维度，它是真的强。但即使是这些场景，在我实测里，它似乎仍然比不上GPT-5.4 xhigh。

Opus 4.7对「其他所有场景」都是降级。写东西的场景、做RAG的、依赖稳定成本的、依赖旧prompt的。

所以我这段时间的决定是，暂时搁置Claude Code。代码方面用Codex，非代码方面用4.6。但这不是说Opus 4.7不好。只是它好的那些地方，和我需要的那些地方，不是很匹配。

你们的情况肯定和我不一样。你们自己判断。

其实吧，让我想到一个最深的问题。

这三年，我眼睁睁看着这些模型，一个接一个，变得越来越聪明，越来越能打，Benchmark一个比一个猛。

但也是这三年，我眼睁睁看着它们，一个接一个，体感并没有越来越好。

可能这不是模型的问题，而是作为用户，我的口味和要求在慢慢的、潜移默化、不知不觉的提升，而自己并没有察觉。

想想AI编程初期，一句话给你生成一个贪吃蛇小游戏，就开心一整天。问AI任何问题，它都能给答案，不需要搜索引擎全网人工筛选答案，太爽了。

模型在变得越来越优秀，而人类的期望也越来越高。

好了，今天就聊到这。既然看到这里了，彦祖们记得点赞、关注、转发、评论一下吧。青山不改绿水长流，我们下期见！

最后，感谢「tangseng」大师对我文章的协助和指导。

展开阅读全文

更新时间：2026-04-21

标签：科技模型官方档位代码场景成本维度得分有意思人味

1 2 3 4 5

Claude Opus 4.7发了三天，我整个人都裂开了

2026年中国人民大学复印报刊资料转载指数发布

中国商飞华南枢纽基地项目落户广州花都总投资170亿元

2026天津软件开发公司TOP榜单，政企/中小企业适配推荐

机器人马拉松结果出来了！背后竟然藏着湖南浏阳的机器人产业

印度能源断气濒临崩溃，话音刚落，中方切断技术出口，莫迪傻眼

日本突袭！28万亿市场，中国被踢出局，高市早苗亮出3张底牌

多个商旅平台订购火车票功能受限，客服：受12306风控升级影响

张雪机车

钟楼“宝藏”现房：五星·星韵城度解读来了！

别只盯中际旭创！这家4元低价+800G光模块龙头游资底部扫货7亿元

孙红雷、邓超、黄磊、李晨：曾经演技封神如今无戏可拍的四大男星

真人生赢家！娶著名女演员37年，生2个漂亮女儿，61岁成这样

知名女星自曝：7年没性行为！流泪求救，被强行注射50针不明液体

判若两人！55岁鲁豫近况曝光，与小19岁男友同居后，面相都变了

离婚1年后，黄圣依活成杨子“讨厌”的模样，倪萍当初的话成真了

开源插件引爆大模型暗战：Claude‑mem爆红背后，是 AI 大

曦智科技港股IPO，一共18.4万手货，今年最好中签的热门新

深圳“全城皆场景”

今晚川普又发飙了，国务院放大招了，两大科技股小暴雷！

华为首款AI眼镜正式登场：麒麟双芯加持，实用黑科技太接地

华为发布全新二合一耳机表，六大维度全面焕新高效便捷体

苹果官方不会说的：iPhone12 这样设置，还能再用 3 年！第三

北京队签下NBA发展联盟超级得分手，他在奇才的表现相当

中国未来最大敌人：不是特朗普，而是手握杀招、重构科技规

一静一动四川丹棱串起农文体旅融合新场景