推理侧Groq LPU的增量机会

老黄还是挺看重Groq在推理侧的爆发的, GTC 大会上,老黄直接把基于 Groq 技术的第三代 LPU,放进了英伟达最核心的 Vera Rubin 超算平台,成了继 GPU、CPU、交换机之后的第七大核心构建模块,彻底把它从 竞品变成了自家产品。

老黄甚至直接给客户出了部署方案:高吞吐、大批量的预填充阶段,用 Rubin GPU;对延迟极度敏感的解码阶段,交给 Groq LPU。还明确建议,数据中心里可以直接配置 25% 的 Groq LPU 节点,实现性能和成本的最优解,等于直接给 Groq 的技术背书,用英伟达的全球渠道和客户资源,帮它放量,当然也补齐了NV的推理短板。

之前 Groq 自己玩,哪怕机架堆 128GB SRAM,也只是小众场景的需求,对整个产业链的带动有限;但老黄把它收编、纳入英伟达的主流平台之后,等于把「大 SRAM + 低延迟推理」的技术路线,从一个初创公司的差异化方案,变成了全球 AI 行业的主流标准。

后续全球云厂商、数据中心都会跟进这套 “GPU+LPU” 的异构部署方案,片上 SRAM、3D 堆叠 SRAM 的需求,会直接从之前的小众增量,变成几十上百倍的行业级爆发,这也是老黄这波操作,给整个产业链带来的最大变量。

先说下这个方案的原理

Groq 这个方案,是把 AI 芯片里原本只当 “配角小缓存” 的 SRAM,直接拉成了 “主角主存储”,单芯片 SRAM 用量翻了 10-100 倍,还逼着行业必须用 3D 堆叠技术才能落地。

以前 AI 芯片(比如英伟达 GPU)的玩法:计算核心在芯片里,数据存在芯片外面的 DRAM/HBM 里,算数据要来回 “长途搬运”,这就是 AI 推理慢、功耗高的 “内存墙” 瓶颈。

Groq 的 LPU 直接换了思路:把超大容量的 SRAM 直接做在芯片里(片上),甚至用 3D 堆叠把 SRAM 堆在计算核心旁边,数据不用跑远路,带宽直接拉满、延迟降到极致,专门打 AI 推理场景。

最大的变化:以前一颗 AI 芯片里,SRAM 只占不到 10% 的面积,容量是几十 MB 级别;现在 Groq 把单芯片 SRAM 拉到几百 MB 甚至 GB 级别,一个机架直接堆 128GB SRAM,SRAM 的用量、芯片面积占比直接拉高了几个数量级。

此 SRAM 非彼 SRAM,别找错标的SRAM 分两种,90% 的人都会搞混。就像CPU 里自带的 L2/L3 缓存(本质就是 SRAM),不是 Intel 单独找存储厂买的 SRAM 芯片,而是 Intel 直接在 CPU 的设计里,把计算电路和 SRAM 缓存电路画在一起,交给台积电用同一块逻辑晶圆、同一套先进制程,一起刻出来的。

100% 兼容通用的逻辑制程,不需要专门的存储制程。

整个链条的受益顺序是:上游卖 IP 的(最确定,卖铲子)> 中游晶圆代工的(市场空间最大)> 先进封装的(技术落地必须靠它),下面挨个说清楚。

要做超大容量、高密度、低功耗、高良率的 SRAM,不是随便画电路就行的。越先进的制程(5nm/3nm),SRAM 的设计难度越高,要解决漏电、良率、稳定性的问题,必须用成熟的、经过流片验证的 SRAM IP 核 / 编译器。AI 芯片厂商要抢时间落地,根本不可能自己花几年研发,直接买现成的 IP 是唯一选择,不管你芯片最后卖得好不好,先收一笔授权费,量产后还要按芯片出货量收提成,纯纯的卖铲子,确定性最高。

海外绝对龙头:新思科技(Synopsys)、铿腾电子(Cadence)这两家垄断了全球 70% 以上的 SRAM IP 市场,不管是 Groq,还是英伟达、AMD,只要做先进制程芯片,都得买它们的 SRAM IP。AI 芯片要做大 SRAM,首先就要找它们买更先进的 IP,而且大容量 SRAM 的授权费、提成更贵,直接带动收入爆发。

中游:先进制程晶圆代工厂

SRAM 不是单独的芯片,是刻在 AI 芯片的晶圆上的,Groq 这种架构,芯片里 50% 以上的面积都是 SRAM,等于每生产一颗 LPU 芯片,一半以上的代工费,都是为 SRAM 付的。

而且要做高密度、高性能的 SRAM,必须用 7nm/5nm/3nm 先进制程,制程越先进,SRAM 的单位容量越大、功耗越低。以前 AI 芯片的代工需求,大部分是给计算核心的,现在 SRAM 面积占比翻了好几倍,等于给代工厂带来了几倍的晶圆代工增量。

这块台积电是绝对老大没啥可说的了,本来rubin这套CPO架构他也是总集成师。

下游:先进封装 / 3D 堆叠厂商

单芯片做超大 SRAM 有个致命问题:芯片面积太大,成本贵到离谱、良率低到没法量产。比如做 10GB 的 SRAM,5nm 制程下芯片面积要超过 1000 平方毫米,比英伟达最新的 GPU 还大,根本没法商用。

唯一的解决办法,就是3D 堆叠 / 2.5D 封装:把计算核心和专门的 SRAM 裸片(芯粒)上下堆在一起,或者放在同一个中介层上。这样既能保证大容量、高带宽、低延迟,又能提高良率、降低成本,是大 SRAM 架构落地的刚需。Groq 现在的 128GB 片上 SRAM,未来要降成本、扩容量,必然要上 3D 堆叠,其他跟风的 AI 厂商也一定会走这条路,直接带动先进封装需求爆发。

台积电、日月光(ASE)台积电的 CoWoS、SoIC 技术,是全球最成熟的 2.5D/3D 堆叠技术,英伟达的 HBM GPU 全靠它,未来 AI 芯片的 3D 堆叠 SRAM,大部分也会找它做,代工 + 封装两头赚。日月光是全球封测龙头,先进封装技术成熟,也会分一杯羹。

真正受益的三个环节:SRAM IP、先进制程代工、3D 先进封装

最大的机会,不是 Groq 自己的订单,而是其他 AI 芯片厂商会不会跟风这个技术路线,只要有 10% 的厂商跟进,就是十倍级的需求增量。

我会在 公众号:IDC最新发布预测,未来五年Token三亿倍增长,0.0005 Peta Tokens到2030年的15.2万Peta Tokens。海涵财经以AI产业的深度投研为主,追踪国外投行最新研报,重点关注AI出海的核心题材(英伟达下一代Rubin和Feynman架构、CPO/NPO/XPO最新出海追踪、谷歌光交换OCS、PCB M10升级及先进封装COWOP、推理侧爆发LPU/TPU、存储及内存池化等),侧重于中线的深度逻辑发掘,如果没有批评,赞美将毫无意义,欢迎对产业逻辑有独立思考的朋友关注。

— END —

先赞后看,养成习惯

免责声明:图片、数据来源于网络,转载仅用做交流学习,如有版权问题请联系作者删除

展开阅读全文

更新时间:2026-03-24

标签:数码   增量   机会   芯片   英伟   先进   代工   技术   核心   面积   厂商   全球   需求

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top