通义千问首发混合推理模型Qwen3！推理大模型第一宝座该让座了？

大家好，我是喜欢研究AI的一枚产品经理，平时主要从事新能源汽车智能座舱、AI大模型应用等相关工作。另外，我超爱自驾游~

导语：

今天凌晨5点，阿里通义千问团队发布了全球首个“混合推理模型”Qwen3。并且，一口气发了8个模型，包括：2个MoE模型，和6个Dense密集模型。

※大家可能对于这次命名有些疑问，解释下：Qwen3就是这次模型的版本，-xxB代表总参数量，-AxxB代表具体模型的激活参数量。

01 | Qwen3，究竟牛在哪？

我们提到推理模型，尤其是国内，大家公认的，或者认知度最高的可能就是DeepSeek的R1模型了，对吧。甚至，很多人，就是把它排在第一位。

但是，现在，第一的宝座，至少国内推理模型第一的宝座，可能（暂时）要换位了，新王就是Qwen3发布的这一众模型中的王中王→Qwen3-235B-A22B。

而且，不同于之前刚发布的QwQ-32B等模型，这次阿里通义千问团队，相对来说也是比较高调的宣传新模型，看来的确有点东西。

先总的概述下，这次阿里通义千问发布的Qwen3到底牛在哪？

从全方位的评分对比看，Qwen3这次综合实力世界第一梯队毋庸置疑！
Qwen3是第一个混合推理模型（推理和对话自动灵活调用）
一口气发了8个模型，覆盖手机、PC、云端等多设备应用场景
成本进一步大幅下降，235B满血版大概仅为DeepSeek R1的三分之一
支持Apache2.0和MCP协议，全部开源
支持119种语言（之前的Qwen2.5仅支持29种语言）
支持Agent能力，并且接下来重点提升的就是Agent能力

就从上面这7点看，就问大家牛不牛！

02 | 展开聊聊Qwen3，到底牛在哪？

首先，你可以在官网快速体验 https://chat.qwen.ai/

左上角默认就是最新的235B模型，你也可以下拉选择其他模型体验。

然后，对话框左下角可以手动选择思考长度。就是可以理解为，你可以手动设置它的“IQ值”，是不是有点意思。

再然后，通过上面两个评分对比图，可以看到几个比较有意思的结论：

这次发布的小模型Qwen3-4B，比上次的QwQ-23B，能力旗鼓相当
满血版235B与世界上主流顶级模型相比，综合能力旗鼓相当
而235B的参数量远低于其他模型，即使对比国内的DeepSeekR1，成本也仅为R1的三分之一！

对比当前DeepSeek R1-671B满血版，详细来看：

R1的总参数是6710亿，激活参数是370亿
Qwen3-235B-A22B的总参数是2350亿，激活参数是220亿

那么大模型的总参数和激活参数又是什么意思呢？在实际应用中又有什么作用呢？是如何工作的呢？

在大模型中，总参数和激活参数是两个重要的概念，它们在模型的设计和运行中扮演着不同的角色。

1. 总参数

总参数是指模型中所有可学习参数的总和，包括权重和偏置等。这些参数在训练过程中会被调整，以使模型能够学习到输入数据与输出数据之间的映射关系。总参数的数量通常反映了模型的容量和复杂度，参数越多，模型理论上能够学习到的模式就越复杂。

2. 激活参数

激活参数是指在模型的前向传播过程中，实际参与计算的参数数量。在某些架构（如MoE，即Mixture of Experts）中，模型会根据输入动态选择一部分参数进行计算，而不是每次都使用全部参数。这种方式可以显著降低计算成本，同时保持模型的高性能。

3. 区别

3-1. 参与计算的程度：

• 总参数是模型中所有参数的总和，无论是否参与每次的具体计算。

• 激活参数是实际参与每次计算的参数，数量通常少于总参数。

3-2. 对计算资源的影响：

• 总参数决定了模型的最大潜在计算需求。

• 激活参数直接影响每次计算的实际资源消耗。

3-3. 架构依赖性：

• 总参数是模型设计的固有属性。

• 激活参数的数量和选择方式依赖于具体的模型架构（如MoE）。

通过合理设计激活参数的机制，可以在保持模型高性能的同时，显著降低计算成本。因此，再结合上面的评分对比，就可以看出，Qwen3用了更低的参数量就实现了，甚至部分超越了R1的能力。因此，Qwen3在实际部署应用中，尤其是对于部署成本上，约等于用了R1的三分之一的投入，就实现了其百分百的能力！

这么说，可能大家体感不强，我再举个例子。

DeepSeek刚火的一个月，相信很多朋友都本地部署过DS的小模型对吧，尤其是在笔记本上部个7B或8B的模型。我就我自己的在8G内存、M1版的MacBook Air上部了一个7B模型，实际体验就是，整个笔记本卡的几乎无法使用。一个简单问题，卡老半天，稍微动一下电脑就卡死，更别说问复杂问题了。

大家知道这是为什么吗？

这是因为DS的小模型使用的不是MoE架构，它大概率用的就是Dense稠密模型，而且还不支持混合推理能力。意思就是说，你的每个问题，不论是简单的还是复杂的，模型会调用全参数量进行计算。所以本就在资源极限的前提下运行，当然会直接爆显存和内存。

而MoE的优点，就是它会根据具体问题，动态分析和分配“子网络”，动态调用和激活相应的参数进行计算即可，无需每次全负荷计算。

而对于Dense模型来说，Qwen3也因为具备了混合推理能力，它能够根据输入的问题，灵活判断是调用推理计算，还是直接简单计算后输出。

就类似于你问DeepSeek一个问题，需要手动选择R1推理模型还是V3对话模型。而在Qwen3中，你不用手动选择，它会自动根据你的输入，判断并选择调用哪个逻辑输出更优。

或者，你也可以在问题中直接说“仔细思考后回答”、“不用深度思考，直接给我答案”，类似这样的话术，也会触发Qwen3在推理和对话模型之间的选用，而不用手动设置开关。

所以，正是因为Qwen3这次的混合推理能力，使得它的实际体验会更好。同理，如果还是在我的MacBook Air上极限部署Qwen3小模型，当我问一个简单的问题时，因为它能够自动判断仅需调用简单参数参与计算，即可精准快速回答我的问题，而无需调用推理模型，所以实际体验会优于，同样极限部署下的DS小模型的体验。

03 | 让Qwen和DeepSeek，分别聊聊它俩的能力对比情况

最后呢，我直接调用Qwen3-235B-A22B和DeepSeek R1满血版，让它俩分别对比下它们之间的能力差异，看看它俩的回答是怎样的。

问题：“请对比下Qwen3-235B-A22B和DeepSeek R1-671B的差异性和优缺点，言简意赅抓重点概述，表格形式输出”

Qwen3结论：

维度	Qwen3-235B-A22B	DeepSeek R1-671B
参数规模	总参数：2350亿（2.35T），激活参数：220亿（仅需约1%参数实现高性能）	总参数：6710亿（6.71T），激活参数：370亿（动态路由优化）
架构设计	MoE（混合专家）架构，显存占用仅为同性能模型的三分之一	MoE架构，单token计算效率较高，但整体算力需求显著
核心能力	数学、代码生成及逻辑推理能力强，接近Grok-3、Gemini-2.5-Pro	多语言支持广泛，长文本生成与复杂推理表现优异
部署成本	训练/推理成本较低，消费级显卡可运行小版本（如Qwen3-30B-A3B）	高端硬件依赖强（如H100集群），部署门槛高
应用场景	中文生态友好，适合企业级降本增效（如客服、电商、代码开发）	国际化研究场景（如科学建模、跨语言分析）
开源与适配性	开源且适配昇腾等国产算力，支持多模态扩展	闭源为主，依赖NVIDIA GPU等通用硬件
优劣势	✅ 高性价比、低资源消耗 ❌ 国际化覆盖待加强	✅ 超大规模参数优势 ❌ 硬件依赖高、成本昂贵

总结：

Qwen3-235B-A22B ：适合追求高性价比、中文场景及快速商业化的用户，兼顾大模型性能与小模型成本。

DeepSeek R1-671B ：面向对超大规模参数和复杂任务有极致需求的研究机构或技术团队，但需承担更高算力开销。

DeepSeek结论：

维度	Qwen3-235B-A22B	DeepSeek R1-671B
模型架构	MoE架构（总参数235B，激活22B），稀疏激活设计	超大规模稀疏激活MoE架构（总参数671B），专家分配策略优化
硬件需求	仅需4张H20 GPU（显存需求为DeepSeek R1的1/3），支持CPU/GPU混合推理	需双节点8卡A100或超大规模计算集群（显存超1300GB）
推理成本	6.2元/百万token（OpenRouter定价），支持量化部署至移动端	计算资源消耗无法估量，API调用成本显著高于Qwen3
核心优势	1. 混合推理模式（可切换快/慢思考）	1. 知识覆盖无限接近人类极限
	2. 代码/数学任务超越同类模型	2. 创造性输出突破认知边界（如科研假设生成）
	3. 企业级部署友好，支持多场景覆盖	3. 复杂多模态任务处理潜力更强
性能短板	1. 人类直觉类问题缺乏思路（依赖暴力求解）	1. 可控性风险高（输出不可预测性）
	2. 多要求指令遵循率低于Sonnet系列	2. 部署门槛极高（仅限超算中心）
		3. 多轮对话状态跟踪准确率待提升
典型应用场景	企业级代码生成、数学推理、混合思考Agent	前沿科研（如跨领域知识发现）
典型应用场景	端侧部署（如手机/平板运行Q4量化版本）	超复杂决策支持（如国家级战略预测）
开源生态	Apache 2.0协议全开源，支持Hugging Face/ModelScope等多平台	仅部分版本开源，671B版本依赖专用计算集群

总结：

Qwen3-235B-A22B凭借更优的性价比、混合推理创新和灵活的部署能力，成为企业级应用的首选；而DeepSeek R1-671B在极限知识覆盖和创造性突破方面仍有不可替代性，但需承担极高的部署成本和不可控风险。两者分别代表了当前开源大模型的实用化标杆与科研探索极限。

怎么样，以上Qwen和DS各自的分析对比和总结，大家觉得如何？是否客观合理，你是否还有什么要补充的？欢迎一起交流讨论

※ 原文链接 →「链接」

35岁+｜AI产品经理｜智能座舱产品经理｜奶爸｜自驾游爱好者｜科技数码爱好者｜给自己打工！

✏️体验分享AI前沿技术和产品｜记录分享个人生活和趣事｜情绪价值传播｜链接同行者！

展开阅读全文

更新时间：2025-06-05

标签：科技模型宝座参数成本能力架构极限显存企业级场景数量

1 2 3 4 5

通义千问首发混合推理模型Qwen3！推理大模型第一宝座该让座了？

吃午餐「巧遇罗志祥」！网看根本是李易本尊被钓出：跟我开玩笑吗

分享美女写真集——赵粤

张国立与罗秀春离婚34年：他再婚有烦恼，她至今单身牵挂儿子

37岁毛晓彤美出新高度！北京环球影城拉丁舞燃爆，甜辣造型太绝了

应采儿晒视频称儿子拿奖学金 Jasper否认称要低调

官宣！张韶涵、海来阿木、姜育恒等要来黄石开演唱会啦！

小S搬回娘家陪伴S妈！与具俊晔同一屋檐引争议，小姐不熙娣有后续

周汶锜为法籍老公庆生，男方两度出轨均获原谅，今外形大变不敢认

潘玮柏老婆回娘家！34 岁宣云逛吃老南京，素颜嫩得像大学生

和张一山同居，和鹿晗传绯闻，她连杨迪都不放过？

“五一”寻秘境 22℃镇安等你来

南昌欢乐星际亲子乐园——五一全新升级，开启亲子趣玩新体验！

内蒙古各盟市“五一”前后重点文化、文艺、演出活动一览

五一旅行清单已就位~山川湖海、烟火小城，总有一款戳中你！

甘肃省博首推沉浸式互动情景体验活动

容大科技与您相约中国零售业博览会丨5月8-10日，深圳见！

OpenAI领衔ChatGPT搜索能力升级！六大AI巨头竞速加码AI

小米开源首个推理大模型Xiaomi MiMo！在数学推理和代码

苏州又添一重大医学科技成果转化平台

亚马逊为商品标注“关税成本”？特朗普向贝索斯讨说法

阿里发布最强开源模型Qwen 3，参数量仅为DeepSeek-R1的1

部门“牵线” 校企“联姻”，又一批科技成果将服务巴彦

全球人形机器人本体企业数量已超300家，中国企业占据半

千问3发布了，深入解剖大模型：大模型不是参数量越大越好

封堵无用！NVIDIA、AMD等连夜适配全球最强开源模型阿里