采访英特尔高管:至强600与锐炫Pro B70强在哪儿?


随着英特尔至强600系列和锐炫Pro B系列正式发布,英特尔针对高性能工作站领域打出了一套强有力的组合拳。在整个行业都在为AI计算倾倒的同时,非AI领域的专业计算性能提升也同样迫在眉睫。面对AI与传统算力的需求,至强600系列和锐炫Pro B系列将如何出招?

在发布会后,笔者有幸参加了英特尔中国区技术部总经理高宇(Gary Gao),英特尔中国区显卡和AI高级产品总监徐金平(JP Xu),以及英特尔技术专家王巍巍(WeiWei Wang)的采访,更深入了解英特尔至强600和锐炫Pro B70背后的故事。

英特尔中国区技术部总经理高宇(Gary Gao)

HPC:与AI PC并行的产品哲学

英特尔至强600系列搭配锐炫Pro B70构建出了今年英特尔旗下最强劲的HPC解决方案。HPC和AI工作站以及AI PC区分的讨论被摆上了台面。狭义的HPC与AI性能兼顾是比较难的,因为需要在有限的芯片内同时支持FP64,还要支持FP16或者是更低精度。

从芯片设计的角度来看,这其实是一场芯片面积的零和博弈,在晶体管预算固定的情况下,HPC追求的FP64双精度。浮点单元与AI需要的INT8/BF16/FP16低精度矩阵单元在物理层面存在资源竞争。FP64单元面积大、频率低,但流体模拟、有限元分析、气象预测这样的科学计算是需要FP64作为支持。对应的AI计算只需要注入AMX这样的低精度矩阵单元,面积利用率很高,但对HPC无直接帮助。

英特尔的解法是在架构上将AI与HPC融合,而非二选一。FP64仍然是HPC的基本盘,用购绝对的领导力,同时至强在双精度浮点性能上的传统优势,使其在全球HPC集群中保持高市场份额。

负责AI计算的AMX指令集使用的是嵌入式策略,在架构设计之初变容易其中,这意味着至强600并非在HPC架构上打补丁增加AI能力,而是在微架构设计阶段就将AMX作为基础模块融入,与FP64单元共存,这避免了双架构拼接带来的效率损耗,也是英特尔考虑兼容性的一贯作风。

与AMX同步推出的是统一内存带宽MRDIMM带来的双轨红绿。MRDIMM(Multiplexed Rank DIMM)通过多路复用技术大幅提升内存带宽,可同时服务于HPC和AI计算,在HPC上,MRDIMM内存可以缓解CPU核心数增加带来的内存带宽瓶颈。在AI计算领域,MRDIMM则可以为AMX矩阵运算提供足够的数据吞吐,避免计算单元饥饿。

而在软件栈层面,同一套硬件也展现出了两种加速逻辑。HPC通过MKL(Math Kernel Library)实现优化数学运算、线性代数、FFT,通过OneCCL加速多CPU节点间通讯,构建集群。AI则可以通过OneAPI和OpenVINO实现统一编程接口,跨硬件抽象,以及模型优化与推理加速。

这意味着至强用户不需要在HPC和AI之间做硬件站队,同一套平台可通过软件栈切换负载类型。

值得注意的是,虽然架构统一,但具体SKU是存在针对性优化的。比如HPC取向的至强600系列具备高核心数量,追求并行线程吞吐量。AI取向的至强600系列可在频率、AMX利用率或内存通道配置上有其他优化。这种统一架构配合场景化SKU的策略,让英特尔用单一芯片设计覆盖两个市场,进而摊薄研发成本。

在现场,王巍巍和高宇共同指出了一个反直觉的现象,HPC和AI并非割裂,而是在融合。举个例子,HPC不是每天24小时都在跑的,当它不跑HPC任务负载的时候,他们可以用它来跑一些AI模型,同样也可以获得很好的效果。这对拥有超算中心或HPC集群的科研机构极具吸引力,无需额外采购AI专用硬件,利用至强的AMX能力在空闲时段跑AI推理,提升资产利用率。

英特尔技术专家王巍巍(WeiWei Wang)

另一个则是内存容量带来的巨大优势。例如AlphaFold 3算法其实要求更大体积的内存,内存越大,它才能够跑更大体积的生物分子的3D结构预测。这个其实反而是至强CPU的优势,因为至强600系列单核CPU可以支持4TB内存容量,这是目前任何GPU都做不到的。

因此类似AlphaFold3的AI驱动科学计算本身仍然需要海量内存来存储生物分子3D结构,除非内存可以在短时间内,以低廉的价格进一步扩展至TB级,否则至强CPU配合大内存的融合场景仍具备不可替代的优势。

锐炫Pro B70的进攻哲学

锐炫Pro B系列作为专业显卡,被英特尔寄予厚望。与此同时,英特尔此次在专业显卡市场的布局,呈现出一条非常清晰的以显存容量为核心坐标轴的产品切割逻辑。这不是简单的低中高三档划分,而是针对AI工作负载中显存即瓶颈的残酷现实,进行的一场商业与技术双重算计。

例如锐炫Pro B60用于基础AI加速,轻量级创作,锐炫Pro B65具备更大的显存,是性价比的守门员。旗舰级锐炫Pro B70一步到位,拥有旗舰显卡表现,以及多卡并联和专业创作的能力。

徐金平表示,B65并非一款全新设计的芯片,而是B70晶圆在良率爬坡过程中,部分Die无法全核稳定运行在B70频率下的另一种选择。英特尔的选择不是屏蔽显存降级为B60,而是保留32GB显存满足AI用户对显存的刚需,同时屏蔽部分Xe核心至20核,当然定价也更为优惠,可以介于B60与B70之间。

英特尔中国区显卡和AI高级产品总监徐金平(JP Xu)

这样做法好处是,可以很好的用显存容量满足模型权重和KV Cache造成的AI推理场景门槛。对于运行70B级别模型量化版、或需要长上下文窗口的Stable Diffusion用户,32GB显存"能不能跑的问题,20核与更高核心数之间的差异只是跑多快的问题。B65精准卡住了显存饥渴但算力需求温和、预算敏感的细分市场。

B70系列则无疑将卖点锚定在了32GB GDDR6显存上。在NVIDIA RTX A系列和Pro系列中,32GB显存显卡价格高昂。英特尔正在尝试用每GB显存的美元成本指标上建立绝对优势。在本地大模型部署热潮下,显存容量直接决定了可运行的模型规模,这使得大显存配合低单价成为撬动N卡用户迁移的有力杠杆。

锐炫Pro B70的多卡组合技能也可以帮助用户从个人专业工作站延伸至企业部门级边缘部署。对于个人创作者而言,利用B70就可以完成对PB级视频素材进行故事线抽取和结构化,将非结构化数据转化为可检索的数据库。这体现了显存大带来的处理更长序列、更大批量的优势。

对于多卡场景的企业部门级边缘部署而言,100B模型INT4/FP8量化后权重需要50GB到60GB,4张32GB B70可以带来128GB显存,剩余60GB到70GB用于KV Cache和并发缓冲。如果是4张24GB卡组96GB显存,在扣除权重后仅剩30-40GB给KV Cache,对于企业级并发请求会显得非常吃力。英特尔借此将4卡B70配置定位为企业边缘侧100B模型本地部署的甜点方案。

多卡也带来了硬件形态上变化。工作站其实开始变得不那么傻大黑粗。英特尔已经向OEM伙伴提出了极具挑战性的工业设计目标,包括单卡配置机箱小于8升,噪音低于35dB;双卡配置机箱小于14升,噪音低于40dB,四卡配置则要求机箱小于35升。这背后是AI工作站从机房、工位角落走向办公桌面的定位转变。小型化、静音化不仅关乎用户体验,更直接降低了企业部署的空间成本。

同时英特尔意识到,硬件性价比只是敲门砖,创作者能否无折腾使用才是关键。ComfyUI作为AIGC视频/图像生成的行业标准工具链,其官网原生支持意味着用户无需手动配置复杂的后端加速或寻找社区补丁。这种开箱即用的体验,配合英特尔团队直接提供的技术服务,构成了针对小型创作团队的完整赋能闭环,这对于个人工作室而言,是非常友好的。

对于NVIDIA CUDA对锐炫Pro B系列构成的护城河问题,英特尔也提出了框架、语言、工具三层渗透的策略。原因是整个生态都不希望被一家硬件厂商锁定,所以我们才会看到PyTorch崛起,目标就是摆脱硬件单一化标准限定。

对于开发者而言,基于PyTorch编写的模型代码,理论上可通过后端切换在不同硬件上运行。基于vLLM部署的推理服务,其连续批处理和Paged Attention机制已逐步支持Intel GPU,如果应用是基于PyTorch或者是基于vLLM的,其实可以不关心下层硬件,不关心是否调用的是CUDA。

在编程语言层面,Triton也已经作为OpenAI推出的Python-like GPU编程语言,正在迅速成为Kernel开发的事实标准。同一份Triton代码可通过不同的Backend编译为NVIDIA PTX或Intel GPU ISA,开发者无需学习英特尔专用的底层编程模型。最后随着Triton生态壮大,新算法/新算子的首发实现将越来越多地以Triton而非CUDA呈现。英特尔对Triton的支持,相当于在CUDA最擅长的Kernel编程层面植入了一个兼容性接口。这不是与CUDA正面交锋,而是让CUDA的独占性编程模型被更开放的编程语言取代。

最后是自身软件栈与兼容性建设。在封装层面,英特尔有oneAPI与OpenVINO。oneAPI提供跨CPU/GPU/FPGA的统一编程接口,OpenVINO则专注于模型优化与推理加速。两者共同作用是将Intel GPU的硬件特性封装为高阶、易用的API,减少开发者直接面对硬件差异的摩擦。

这也为英特尔对模型生态兼容加速提供了良好的基础。特别是在在生成式AI领域,注入MoE结构和Attention变体等新模型、新架构层出不穷。英特尔需要确保其软件栈能以极快速度适配这些新模型,避免硬件能跑但软件不支持的尴尬空窗期。

例如对ComfyUI的原生支持不仅是产品体验问题,更是生态建设的样板工程。当一个创作者最常用的工具链无需任何配置即可调用B70的全部算力时,CUDA生态的迁移成本被降至最低。

当然英特尔也深知Intel GPU仍然有大量的工作需要准备,因此现阶段的推广中,会通过大显存性价比吸引用户首次购买,用PyTorch/Triton的跨平台兼容性降低其尝试成本,用ComfyUI等原生支持留住用户,最终通过"I+I"(CPU+GPU)协同的独特价值形成长期粘性。

写在最后:往大显存进发

在采访的最后,英特尔也分享了未来的可能性,比如下一代GPU架构Crescent Island的技术路线选择,以及英特尔对算力扩展路径的战略判断。英特尔现场分享未来产品信息还处在保密期内,这里笔者也只能卖个关子,在这个月底,我们就有机会显存更大的颠覆性显卡产品,而Crescent Island极可能是英特尔下一代数据中心和工作站GPU的旗舰基准。

与此同时,OEM生态是英特尔将技术规格转化为市场销量的最后一公里。锐炫Pro系列会推行大陆AIC厂商先行,工作站创新,以及大厂加入的策略。目前蓝戟、铭瑄、撼与科技、ASRock已经加入了Intel AIC行列,在专业显卡供应紧张,价格高企的背景下,OEM常上也迫切需要更多的第二供应商提供支持。英特尔锐炫Pro系列通过大显存、静音小型化的差异卖点,也有机会在市场中找到新的机遇。

可以看到的是,英特尔以显存容量为突破口,积极寻找市场份额的新途径。不断壮大的显卡阵营,以及显卡设计的差异化竞争,都在帮助英特尔换取生态建设的时间窗口。特别是在整个行业承受着GPU、存储成本压力的大环境下,至强600系列与锐炫Pro系列构成的"I+I"组合,已经悄然展现出十足的竞争力。

展开阅读全文

更新时间:2026-04-27

标签:数码   英特尔   采访   显存   系列   模型   硬件   显卡   架构   内存   工作站   用户

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top