阿里千问最强模型:性能比肩GPT-5.2 thinking,4项基准排名第一

昨天晚上,阿里悄然发布了一款新模型,Qwen3-Max-Thinking。这个模型的参数规模超过了1万亿,预训练数据达到36T tokens。

在19项权威基准测试中,其性能可媲美GPT-5.2-Thinking、Claude-Opus-4.5 和Gemini 3 Pro等顶尖模型。

上图是我重制后的表格,我们可以看到在4项基准测试中,千问的表现超过了GPT-5.2、Claude Opus 4.5和Gemini 3 Pro等頂尖模型,刷新了全球的记录,获得了第一。

这4项测试分别是C-Eval、HMMT Nov 2025、HLE (w/ tools)、Arena-Hard v2。

C-Eval第一,说明模型在中文理解、知识检索以及表述更强,Qwen超越了国外顶级模型的表现。

它让模型在理解用户问题的时候更容易抓住重点,能够按照中文的语义拆解问题,结合Arena-Hard,它能让同样的输入能够获得更完整、更少废话更接近人类偏好的回答。

HMMT Nov 25是哈佛和麻省理工数学锦标赛,它用来测试模型的高强度数学推理/解题能力,排名第一说明模型在复杂推理、多条件推导的情况会变得更强,通过提示词写代码逻辑容错性更高了。

而HLE拿到第一,可能对我们的作用更大,它是一个更聪明的智能体,会更懂规划,更会使用工具

Qwen3-Max-Thinking这一次的创新是什么?

1、自适应工具调用的能力

模型调用工具的概念其实不新鲜了,最早期就开始有了Function Call,让模型能够去自主调用工具。但以前更多的时候工具的开关是掌握在用户手里,而现在是掌握在模型手里。

如果说GPT的创新是教会了模型遵循人类的指令,那千问可能是教会了模型在什么时候选择什么工具,以及基于用得好不好做了定向的训练。

根据官方的说明,而在搜索工具以往的幻觉、失忆老问题也得到了解决。

2、测试时扩展技术

这个技术简单的说,是让模型聚焦在没有解决的问题。如果它已经知道这件事就不会再重复推导了。

这件事的原因是,传统的做法是并行多个任务进行推理,然后选择最优的那一条,增加推理能力很多时候是增加推理任务,但这种问题是每条推理路径可能是相同的,那这时候就会造成了浪费。

而Qwen拒绝无休止的多开任务,它限制了任务的数量,用少量并行和多轮迭代把任务做得更深,省下来的计算预算,用来做经验提取和自我反思

通过这种方式实现更高的上下文利用效率,前两周Deepseek 的Engma机制解决了通识查询的问题,这次Qwen解决了推理效率的问题

在相同Token的消耗下

GPQA(研究生级问答/高难知识推理):90.3 → 92.8(+2.5)
HLE(高难长程推理):34.1 → 36.5(+2.4)
LiveCodeBench v6(真实编码能力):88.0 → 91.4(+3.4)
IMO-AnswerBench(奥数风格推理/答案准确):89.5 → 91.5(+2.0)
HLE(w/ tools,带工具的高难推理):55.8 → 58.3(+2.5)

长程推理的分值提升,避免了在长链路推理跑偏或者自相矛盾,真实编程能力让代码的效率更高了,而且还有了类似奥数式的精细推理,结合更好的工具使用能力帮助我们完成任务。

来一次实测吧

在中文理解的部分

Prompt:
帮我写一条回复给朋友的消息,拒绝他的借钱,要求:
语气:真诚但坚定,不怯懦
结构:3 段,每段不超过 2 句
禁用词:不能出现“但是”“抱歉”“可能”“不方便”
必须包含:给出一个替代帮助方式(非借钱)

我把国产的模型都测了1次,Qwen和Kimi的表现明显要更好,在借钱这种很难聊的场景,再顶尖的国外模型表现还是略差一些。

在联网查询+简单数学计算+中文理解部分

Prompt:
今天是 2026-01-27(背景时间)。
请你使用搜索确认:2026 年中国下一个公共假期的名称和日期,并给出引用来源。
然后计算:从 2026-01-27 到这个假期还有多少天(按自然日计算)。
最后用 2 句话告诉我:这个假期适合做什么“低成本”活动(别写旅游攻略)。

联网搜索和数据计算部分,二者表现相当,但GPT在怎么低成本过春节的部分,是让我去合照和年夜饭火锅,Qwen会更贴合中文语境,包饺子、贴春联还有视频拜年。

今天的分享就到这里了,文章没写完DeepseekOCR2,还有Kimi K2.5都来了,跟不上了。

学习和选择新工具的目的是为了搞出一个有用的东西来,而不是为了等着学习下一个工具啊!!

想摆烂。

展开阅读全文

更新时间:2026-01-28

标签:科技   阿里   基准   最强   模型   性能   工具   中文   长程   能力   假期   效率   数学   测试

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top