昨天也就是6月9日,AMD在官方博客上发表了《Agentic AI Needs Rack-Scale CPU Performance – AMD EPYC Delivers It Today》,以及对应的方法论说明《Performance Projections Methodology: Computing in the Agentic AI Era》。
今天我看到“芯潮说”微信公众号已经有了一篇不错的解读《Agentic AI:AMD 为什么开始强调 CPU 机架密度》。
而我还是想写一点自己的分享,通过翻译下面这篇《性能方法论:Agentic AI时代的计算》,添加注释。在AMD博文和资料的背后,我们能否初步了解到Venice Zen6服务器CPU的IPC提高?
另一方面,NVIDIA Vera只宣布了88核一款型号,除了GPU服务器还想全面进军agentic AI CPU服务器市场。88核给它带来的限制又是什么呢?
介绍
本⽂档定义了用于估算 NVIDIA、Intel 和 AMD 服务器 CPU 在智能体 AI 中性能数据的性能方法。
本⽂档展⽰了在 100 kW 机架功率限制下,采用以下处理器的平台机架级性能:
-NVIDIA Vera(88核)
-英特尔®⾄强® 6980P (128 核)
-AMD EPYC™ 9965 (192核)
-AMD EPYC™ “Venice”(256核)
假设与考量
所有性能预测均基于已发布的测试结果、AMD 内部测试和第三方测试的现有数据。为了公平⽐较,我们考虑了以下因素:
‧ 性能估算假设所有节点均为 2 插槽系统。
‧ 单个机架由双路(2P)节点组成,功率限制为 100kW。
‧ 机架级性能符合 100kW 功率限制。
本⽂档讨论了以下六种⼯作量预测:
‧ SPECrate®2017_int_base 预估值
‧ 服务器端 Java® Multi-JVM 最⼤ jOPS
‧ Web 服务(NGINX 与 WRK)
‧ Key-Value存储(Redis)
‧ 内存缓存(Memcached)
‧ 关系型数据库(TPROC‑C)*
*TPROC‑C ⼯作负载是基于 TPC‑Benchmark™ 标准衍⽣的开源⼯作负载,因此与已发布的 TPC‑C™ 结果不具可⽐性,因为这些结果不符合TPC‑C 基准标准。TPC、TPC Benchmark 和 TPC‑C 是事务处理性能委员会的商标。
针对节点级(双路)平台性能评估:
AMD性能参考值基于AMD已发布的NVIDIA Grace Superchip芯片(
https://www.amd.com/en/blogs/2024/4th-gen-amd-epyc--delivers-market-leading-perform.html)及其他对⽐系统的测试结果。本文包含以下平台的数据:
‧ NVIDIA Grace 2x72C Superchip
‧ 英特尔®⾄强® 6980P (128C)
‧ AMD EPYC 9965 (192C)
NVIDIA Vera 88C 节点级 (2P) 平台性能估算
NVIDIA Vera 六项⼯作负载的性能是通过在 NVIDIA Grace Superchip 平台性能的基础上乘以 1.63 倍系数而得出的,这是基于 Phoronix 博客 2026 年 5 ⽉ 26 ⽇发布的“精选”测试结果的总体几何平均值(
https://www.phoronix.com/review/NVIDIA-vera-benchmarks/11)。

图 1 ‒ Phoronix 介质测试结果的几何平均值
机架级功率和性能推导方法
下⾯所⽰的单个节点(功率),和每机架中节点数在 100 kW 功率限制内的功耗估算值,已针对NVIDIA Vera 进行了归一化:
NVIDIA Vera (88C) | Intel Xeon 6980P (128C) | AMD EPYC 9965 (192C) | AMD EPYC “Venice” (256C) | |
每CPU核心数 | 88 | 128 | 192 | 256 |
每CPU核心数 (归一化) | 1.0 | 1.45 | 2.18 | 2.90 |
2P节点功率 (归一化)* | 1.0 | 1.18 | 1.18 | 1.41 |
每机架节点数 (归一化) | 1.0 | 0.85 | 0.85 | 0.71 |
机架电源预算 | 100 kW | 100 kW | 100 kW | 100 kW |
*2P 服务器功耗基于处理器 TDP 和组件估算值
唐僧_huangliang注:NVIDIA Vera的TDP应该是450W;Xeon 6980P和EPYC 9965都是500W,这里可能还考虑到一点Vera搭配LPDDR内存的能耗节约;AMD Venice 256核型号的TDP预计是600W?
由于每个2P节点功率不同,因此每个100kW机架能容纳的节点数有了差别。对照下图,可以进一步获得信息:
- NVIDIA Vera在这里的机架密度是256插槽,32个1U机箱,每个机箱里4个2P节点。
- EPYC 9965的机架密度超过140插槽,如果每机箱2个2P节点的话,不少于36个1U机箱;当然在散热密度满足的情况下(如全冷板液冷)也可以是1U 3个2P节点,较少的机箱数就能满足。
- EPYC Venice同样按照超过140插槽/机架来设计。

根据上述双路(2P)节点的预估功率,在100 kW功率约束下计算每个平台所需的节点数量。然后使用以下公式计算机架级性能:
机架级性能 = 100 kW 功率下支持的节点数×单节点性能
NVIDIA Vera (88C) | Intel Xeon 6980P (128C) | AMD EPYC 9965 (192C) | AMD EPYC “Venice” (256C) | |
每节点核心数(归一化) | 1.0 | 1.45 i | 2.18 ii | 2.90 |
每机架核心数(归一化) | 1.0 | 1.24 | 1.86 | 2.08 |
每机架节点数 (归一化) | 1.0 | 0.85 | 0.85 | 0.71 |
单节点性能推导 | 估计为NVIDIA Grace 的~1.63倍iii | N/A | N/A | 估计为AMD EPYC 9965的~1.7倍 SPECrate®2017_int_base 和内部测试 |
机架级性能推导 | 节点数xNVIDIA Vera的节点级性能 | 节点数xIntel Xeon 6980P的节点级性能 | 节点数 x AMD EPYC 9965的节点级性能 | 节点数 x AMD EPYC “Venice” 256C的节点级性能 |
(i)基于已公布的AMD测试
(ii)基于AMD内部测试,2024年10⽉
(iii)根据 Phoronix数据,NVIDIA Vera 在混合真实世界⼯作负载中表现出约1.63 倍的性能提升。
(iv)性能推导结果虽然不能直接⽐较,但表明在⼯作负荷特征的影响下,世代性能提升幅度相似。
唐僧_huangliang注:尽管由于CPU TDP功耗方面存在优势,NVIDIA Vera在每100kW机架节点数上有些领先,但其插槽核心密度比192-256核的EPYC差距较大,所以每机架核心数还是EPYC 9965和Venice存在显著优势。
如果只是在GPU服务器或者超节点中使用,88核应该在合适的范围;但纯CPU的Agent智能体AI服务器就不太一样了,更多的核心通常可以跑更多的沙盒/容器。
另外,AMD在这里指出Venice 256核性能估计为EPYC 9965的大约1.7倍,参考测试负载为SPECrate®2017_int_base和内部测试。这里我推算出256核Zen6 EPYC的IPC核心效率提升可能是EPYC 9965的1.275倍左右?应该都是高密度核心,当然这里我还无法确定频率差别的影响。
性能预测
按照上述推导方法,我们得出以下每机架相对性能估算值:
NVIDIA Vera (88C) | Intel Xeon 6980P “GNR-AP” (128C) | AMD EPYC 9965 “Turin” (192C) | AMD EPYC “Venice” (256C) | |
SPECrate®2017_int_base | 1 (est.) | 1.47 | 1.60 | 2.40 (est.) |
Server-side Java® multi- JVM max | 1 | 2.34 | 2.93 | 3.76 |
Web Serving (NGINX) | 1 | 1.18 | 2.37 | 3.30 |
Key-Value Store (Redis) | 1 | 1.31 | 2.23 | 3.10 |
In-Memory Caching (Memcached) | 1 | 0.93 | 2.49 | 3.47 |
Relational Databases (TPROC-C) | 1 | 1.99 | 2.91 | 4.05 |
几何平均值 | 1 | 1.46 | 2.37 | 3.30 |
唐僧_huangliang注:上表数据我没有逐一去核实,这里确实有点容易打嘴仗。AMD也只是列出了一部分应用,并计算几何平均值来反映综合结果。我相信如果改用有些测试,对Vera或者Xeon相对有利也是有可能的?
但总体上来说,在Zen5和Zen6效率不错的情况下,每插槽核心数的优势,确实能转化为每机架的性能和能效价值。这里没有考虑价格因素,如果还要计算性价比的话,需要用户找供应商询问了。

线程(每核心)性能推导方法
除了机架级性能和能效之外,单核性能也是⼀项非常重要的指标。在数据库、分析、模拟以及多GPU服务器环境下的主机处理等⾼要求⼯作负载方⾯,AMD始终保持着单核性能的领先地位。
为了估算每个核⼼的性能,我们按照所述方法“归一化”NVIDIA Vera 88C的性能。本⽂档上⽂已对此进行了说明。对于 AMD EPYC “Venice” 64 核和 96 核的单核性能,我们首先估算了类似的双路平台性能,然后使用行业标准惯例,将其标准化为(转化为…的比值)NVIDIA Vera 88 核双路平台的单核性能。
NVIDIA Vera (88C) | AMD EPYC “Venice” (64C) | AMD EPYC “Venice” (96C) | |
每CPU核心数 | 88 | 64 | 96 |
节点级性能 SPECrate®2017_int_base* | 1.0 | 0.92 | 1.21 |
每核心性能 SPECrate®2017_int_base* | 1.0 | 1.27 | 1.11 |
* 按 2P 服务器估算
AMD EPYC“Venice”64核CPU预计⽐Vera 88核处理器单核性能⾼出27%。即使核⼼数量更多,96核“Venice”CPU在单核功耗相同的情况下,预计仍⽐Vera 88核处理器单核性能⾼出11%。
唐僧_huangliang注:上表中的计算逻辑并不复杂。通常核心数较少的CPU频率值(全核Turbo)往往更高一些;96核比64核密度高,在封装/整体功率受限的情况下,其平均每核心性能低一些也是正常的。
结论
在本分析中使用的 100 kW 机架约束下,机架级吞吐量由估计的双插槽 (2P) 节点性能与每个机架支持的节点数的乘积决定。将此方法应用于六个建模⼯作负载,得出归⼀化几何平均机架级性能分别为:NVIDIA Vera 为 1.00,Intel Xeon 6980P “GNR‑AP” 约为 1.46,AMD EPYC 9965 “Turin” 约为 2.37,AMD EPYC “Venice” 约为 3.30。这些结果表明,在本模型的假设条件下,更⾼的机架计算密度和更强的机架级性能可以显著提⾼通用智能体⼈⼯智能基础设施的可部署吞吐量。
此外,对于agentic AI部署而⾔,每个机架配备更多核⼼可能⾄关重要。在智能体⼈⼯智能部署中,基础设施通常需要支持围绕模型执行的并发编排、检索、数据服务和应用层处理等多种任务。在此背景下,更⾼的核⼼密度意味着能够在给定的功耗和空间范围内支持更多并发的智能体驱动⼯作流或相关服务,这可能会对基础设施利用率、每个机架的服务容量以及扩展的经济性产⽣影响。
由于这些估算依赖于已公布的结果、内部测量和基于预测的⽐例因子,因此它们旨在提供方向性⽐较,而不是直接跑机架的基准测试。
参考内容
https://www.amd.com/content/dam/amd/en/documents/solutions/ai/methodology-description.pdf
https://www.amd.com/en/blogs/2026/agentic-ai-needs-rack-scale-cpu-performance-amd-epyc.html
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。
尊重知识,转载时请保留全文,并注明来源出处链接。感谢您的阅读和支持!
更新时间:2026-06-12
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号