今天字节在 Force 大会上发布了豆包新模型 Doubao Seed 2.1 Pro,官方介绍里提到,其能力已经逼近 GPT-5.5 和 Claude Opus 4.6,重点升级了复杂编程交付、长链路 Agent 执行以及多模态视觉能力。
于是我拿了一个之前测试过很多模型的老任务,重新跑了一遍。
任务很简单:
帮我写一个 HTML 页面,模拟太阳系八大行星绕太阳运行。要求显示轨道、行星运转动画,并在地球轨道上增加月亮绕地球运行的效果。
这个任务不算难,我之前也用不少模型测试过,刚好可以做个横向对比。
生成速度倒是很快。
效果大概是这样的:

初看还不错,自带动画,八大行星也都转起来了。
但仔细看就会发现一个问题:它把所有轨道都画成了圆形。
而现实中的行星轨道是椭圆轨道。
于是我继续提示:
行星轨道是椭圆,你这里搞错了。
模型随后重新生成了一版。
效果变成这样:

不过问题依然存在。
它似乎理解到了“椭圆轨道”这个概念,但在具体实现时,无论是轨道绘制还是行星运动逻辑,都还有不少偏差。
总之,在这个测试里,无论是对天体运动的理解,还是最终代码实现,都还有改进空间。
再回头看看之前其他模型生成的效果。

如果只看大面,这次生成结果基本是正确的。
但如果进一步关注轨道形状、运动规律、月球绕地球运动等细节,就能看到差距。
所以看到官方宣传“直逼 GPT-5.5 和 Opus 4.6”时,我多少还是有些疑问。至少从这次测试来看,在复杂场景下的代码生成质量,与顶级模型之间似乎仍然存在一定距离。
当然,能力是一方面,价格又是另一方面。
根据官方公布的数据:
• Doubao 2.1 Pro 的价格,相比 Claude Opus 4.8 便宜约 80%
• 相比 GLM-5.2 便宜约 30%
• 相比 Qwen 3.7 Max 便宜约 50%
• Doubao 2.1 Turbo 的价格则只有 Pro 版的一半
如果只是用来完成一些日常开发、小工具生成、页面搭建之类的任务,这样的价格确实很有竞争力。
很多时候,企业真正关心的并不是排行榜上领先几个百分点,而是在成本和效果之间找到一个平衡点。
从这个角度看,Doubao Seed 2.1 Pro 未必已经站到了第一梯队,但至少已经进入了一个“足够能用,而且足够便宜”的区间。
而对于大量普通开发者来说,这或许比“是否超过 GPT-5.5”更重要。
Tip
专注于 AI 智能体实践与技术演进深度思考。主理人拥有资深技术背景与心理学视角,致力于通过真实实验(2025年更新361篇实操记录)探索 LLM、RAG 与 Agentic Workflow 的落地订单
更新时间:2026-06-24
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号