山观 HIKE Insight | 大模型时代云端算力芯片的带宽瓶颈(芯片系列第二篇)

2025年下半年开始,AI Coding、AI Generate video、AI Agent都广泛进入工业生产环节,AI推理彻底爆发且成为行业共识,由此,AI时代进入规模化放量和产业链精细优化阶段。此前以英伟达为首的高性能计算芯片曾一卡难求,在推理阶段依然延续芯片的供不应求,具体可以参看山行芯片行研系列第一篇文章。(算力突围:大模型推理芯片核心指标与产业格局研判) 

但是如果拆开来看,“旧时代的思维方式:比 TOPS,比 TFLOPS,比工艺节点”已经不够表征AI推理的需求了,无论是云侧的芯片性能选型,还是终端的芯片性能评估,都绕不开两个关键要素:内存的容量和对应的带宽水平。前者表征的是能够跑得到多大的模型和上下文,后者则影响的是具体的推理效率。 

举个例子,在上篇中的主流芯片横屏对比中,2020年推出的A100 vs 2023年推出的H20,A100在算力角度是H20的接近3-4x,但由于后者带宽更为强大,因此在我们的模拟测试中,后者有更好的推理计算效率(以TPS来衡量) 

可见,在大模型推理运算的场景下,带宽墙是行业面临的挑战。随着推理场景不断深化,行业开始积极探索如3D堆叠的近存路线、架构革新的存算一体路线等全新方案,其中 3D 堆叠技术的成熟,有望彻底重构未来的产业格局。 

行业背景:

带宽墙卡死大模型,加速是模型进一步普及的必然出路

大模型时代的算力需求呈现指数级增长,但底层硬件的发展速度始终难以匹配。一方面,模型参数规模每 12 到 18 个月就会实现数量级的提升,多模态、长序列推理带来的算力消耗持续攀升,推理环节占据整体算力需求的八成以上,算力成本已经成为产业化落地的核心阻碍。另一方面,传统计算架构中,计算单元与存储单元相互独立稳定的架构下,大模型推理是非常重“访存”行为的计算动作,数据需要在两者之间反复搬运,现行主流的架构下,数据搬运所消耗的功耗与时间,远超计算本身,高端处理器超过六成的运行时间都处于 “等待数据” 的状态,存储带宽成为限制算力发挥的最大瓶颈。 

这种计算与存储之间的结构性矛盾,就是行业中常说的带宽墙。在大模型推理场景中,带宽墙带来的影响更为显著:模型参数无法一次性存储在高速存储单元中,需要反复从外部存储调用数据;长序列推理过程中,中间激活值的搬运消耗大量带宽与功耗;算力单元始终处于 “吃不饱” 的状态,算力利用率持续偏低。 

在这样的行业现状下,传统硬件已经无法通过简单的性能迭代解决问题,必须从架构层面实现革新,近存、存算一体正是在这样的背景下,成为大模型时代的必然技术出路: 

近存的逻辑是对带宽进行数量级级别的提升,把带宽相对计算单元的“拥挤状态”拉宽到“冗余”状态,直接的方式是在计算单元全部有效面积上进行线束通路的铺设,最直接的就是3D路线。

存算一体的核心逻辑,是将计算单元与存储单元深度融合,在存储阵列内部直接完成计算操作,消除大量不必要的数据搬运。

从底层逻辑来看,两个方向都是解决带宽墙很好的路径,但是工艺要求导致可行的应用领域不同。

PIM路线的“工艺极致”:

3D 堆叠成为决定性变量,有机会彻底重构产业格局

近年,3D 堆叠技术和产业链不断成熟,例如在矿机芯片领域规模化应用,这将彻底重构大模型算力硬件的产业格局,成为决定行业竞争格局的核心因素。 

从技术逻辑来看,2D 平面的存储密度已经逼近物理极限,单纯依靠缩小工艺尺寸已经无法满足大模型的存储需求,而 3D 堆叠技术通过垂直集成的方式,将多层存储阵列进行垂直叠加,从底层解决存储密度与带宽瓶颈,能够同时实现存储容量、存储带宽与能效比的数量级提升。 

具体来看,3D 堆叠将带来三大核心变革:其一,存储容量提升 10 到 100 倍,单颗芯片可以直接存储更大规模的模型参数,无需多芯片分片与并行,降低系统复杂度;其二,存储带宽提升 10 到 50 倍,通过垂直互联技术实现超高带宽的数据传输,完美匹配 Transformer 长序列推理的带宽需求;其三,功耗降低一个数量级,数据移动距离大幅缩短,算力密度持续提升,整体能效比实现代际跨越。 

从技术落地节奏来看,2024 到 2025 年,2.5D 堆叠方案成为行业主流,通过中介层实现多芯片集成,降低成本与良率风险;2025 到 2026 年,单片式 3D 堆叠技术将进入试产阶段,实现真正的垂直集成;2026 到 2027 年,3D 堆叠的方案有机会成为行业标配,实现存算叠层一体化的终极架构。 

从产业影响来看,3D 堆叠技术的成熟,将让单颗芯片实现万亿参数模型的直接推理,端侧设备也能本地运行 7B 到 8B 级别的大模型,数据中心层面的应对大尺寸百B规模的大模型,其算力密度与能效比实现代际跨越,算力成本下降九成以上。 

从产业链角度,相比于HBM路线,在3D DRAM堆叠路线国产供应链距离量产甚至更近。3D技术在更早的时间,被比较广泛的应用于例如矿机芯片上,而该类型产品的最大供给方来自中国,例如兆易创新、武汉新芯等公司在3D DRAM堆叠上都有比较强的积累,基本上国产可控。 

Transformer + CIM 原理梳理:

天然适配,架构级协同,但当前工艺尚不成熟

另一个有机会提高“计算效率”的方式是存内计算CIM,当前大模型的核心架构均以 Transformer 为基础,其运算逻辑与存算一体(CIM)的技术特性形成天然适配。从运算构成来看,Transformer 的核心运算由多头注意力机制(MHA)与前馈网络(FFN)组成,整体算力需求中,超过95%都是矩阵 - 向量乘法(MVM)运算。在长序列推理场景中,注意力机制的运算复杂度会随着序列长度呈现平方级增长,对存储带宽与算力密度的需求持续攀升,而这正是存算一体架构的核心优势场景。 

CIM的底层原理,是在存储阵列内部直接完成乘累加(MAC)运算,利用物理定律实现并行计算,一次读取操作即可完成一整次矩阵运算,将内存访问的复杂度从平方级降低至线性级。在这样的架构下,模型参数可以直接驻存在存储阵列中,无需在计算与存储单元之间反复搬运,数据移动距离缩短百倍以上,算力密度与能效比实现数量级提升。 

当前最成熟的技术路线是基于SRAM的CIM方案,但依然存在以下瓶颈: 

总结下来,SR-CIM小而快可以,大而强则不行。适合端侧小模型(MCU、耳机、传感器、轻量级 AI):低延迟、高可靠、小容量场景;不适合:云端大模型推理、长序列、长文本、多 token 场景、需要权重常驻、高密度存储的场景、追求极致算力密度、极致能效的数据中心。 

总结  

大模型推理需要很高频次和强度的访存数据,因此如果能够有效提高数据从内存到计算单元的搬运,会极大程度提高推理芯片的计算效率,给用户带来的最直观感受就是快和便宜。 

从先进制程工艺上解决是有物理上限的,更好的PIM路径是把存储和计算单元尽可能的放在一起,增加“带宽通路”,对应的相对成熟的路径是3D堆叠的方式,能够在带宽效率上有数量级的提升,同时整个国产化产业链相对成熟。 

未来推演,存内计算会有更极致的效率体验,但是受限于整个产业链工艺的成熟度偏早期,目前在大模型适配上仍有挑战,从模型推理任务的效率层面,3D堆叠的路径是当前最为高效和近期接近投产的选择。 

以上,是山行关于大模型推理芯片研究的第二篇——关于带宽瓶颈的讨论,下周我们会就“容量”问题发表第三篇行研,继续与大家分享。如果您恰巧是从业者或者对此行业感兴趣,都欢迎留言与我们交流,或者投递您的想法至:bp@hikecapital.com。

本文来自微信公众号“山行资本”,36氪经授权发布。