过去十年,AI 芯片的性能增长主要依赖着三件事:算力堆叠、制程迭代以及内存容量/带宽提升。
然而,在2025年当下,一个现实摆在包括我们在内的从业者面前——单一内存的量变,几乎无法支撑未来超大模型运行所需带宽与容量的需求,更何况我们还需要考虑性能/成本的平衡。
由此,AI 的计算瓶颈已经从算力端转为“内存墙”。新的趋势逐渐成为业内共识:未来的 AI 加速器,会全面进入“混合内存架构时代”。
为什么混合内存势在必行?
高性能AI芯片一直在追求更高的内存带宽和容量。在不考虑价格的前提下,目前HBM是公认最能够满足AI计算需要的——带宽很大,堆叠形式带来了相当可观容量规格。
不过,HBM的天花板也相当明显。以HBM3E为例,单stack容量常见规格是24-48GB,单芯片常集成4个stack,以实现96-192GB内存。即使未来HBM4进入到64GB/stack,综合内存性能的提升也有限。对于百亿~万亿参数模型、超长上下文推理、KV Cache堆积等场景来说,这样的内存密度提升远远不够。
更关键的是,HBM价格昂贵,成本是普通DDR的数倍,产能还有限,并且长期被三大国际厂商所垄断。这意味着即使技术层面可以堆更多HBM,也不一定用得起、买得到。
因此,目前产业界和学术界都在探索将内存分层,用增加一级片外缓存的思路来重新构建AI芯片的内存架构。尤其是AI模型进化到MOE架构之后,AI计算所需要的数据开始冷热分级更加明显:用快+贵的小容量内存(HBM)承载热数据,用大+便宜的大容量内存(DDR/NAND)承载冷数据成为一个更加合理的解决方案。
我们也可以看到,近几年学术界的论文中大量出现的关键词也印证了这一趋势:
Hybrid Memory
Heterogeneous Memory
Near-memory computing
Tiered storage for AI training/inference
类似的,在存储厂商,云厂商以及芯片公司的公开文件中,“混合内存系统”已经开始频繁出现,甚至被直接绘入2030年前的技术路线图。
产业对未来的基本判断是——未来的AI芯片需要 HBM为核心,加多级混合内存为壳,才能支撑千亿和万亿参数时代。
“混合内存”的三大路径
目前有三种路径是目前业界最受关注,也最接近落地的方向。
路径一:3D HBM + 普通HBM (Hybrid HBM)

实现方式是一部分内存以HBM和计算die堆叠的方式实现,既可以是HBM堆叠在计算die之上,也可以是计算die堆叠在HBM之上。
目前HBM-on-Logic相对容易实现一些,这种做法互联密度比2.5D封装要高上一个数量级,可以显著增加内存带宽,并且降低数据传输功耗和延迟,但是它有一个严重的制约问题就是散热,AI逻辑芯片的发热很大,而DRAM的温度不能超过95摄氏度,否则会造成数据丢失。此外,HBM不能够堆叠过高,容量受限。
这种3D HBM和传统HBM混合使用的分层架构可以显著提高容量和带宽,3D HBM容量小,带宽高,负责KV Cache和激活;传统HBM容量大,带宽相对低一些,负责存储权重。但是这种混合架构的劣势也很明显,即使用两种内存,总容量仍然有限,并且当前3D DRAM的实现在工程上也有诸多挑战和限制。
路径二:HBM + HBF(High Bandwidth Flash)

这是最近非常火的概念,尤其被认为是未来推理加速与参数服务器的关键组件。
HBF是基于3D NAND堆叠的“类HBM”存储,其如果采用类HBM接口,可以直接复用HBM生态,带宽匹配HBM带宽,容量可以轻松达到几TB到几十TB,单位容量成本远远低于HBM,包括SK Hynix, Western Digital, Kioxia等公司正在合作推动HBF标准化,业界也已经有了原型,预计2027年左右有机会进入早期商用阶段。
但是,HBF缺点也很明显,一是延迟较大,比DRAM高出一个数量级,其次是NAND写入寿命有限。HBF可以配合HBM来使用,前者做权重仓库(冷数据),后者做热数据,让 GPU 拥有“近似无限”的本地模型存储空间。
HBM+HBF路径的战略意义很大,例如可以彻底改变多模型部署的成本,大模型推理的上下文长度,MoE模型的专家管理方式等。
路径三:HBM+LPDDR/GDDR(异构DRAM)
这一路径可能在边缘计算和高能效系统中具有比较重要的意义。
相比HBM,LPDDR的成本要低很多,功耗也较低,并且容量要大很多,可以扩展到数百GB,搭配HBM使用或是一种更经济的形式。
有产业界的文章提出可以在HBM base die上的一些外围空余面积加上LPDDR控制器,让一块XPU同时驱动封装内的HBM和PCB上的LPDDR,形成HBM一层,LPDDR二层的结构。
市场中也有最新的异构计算系统服务器芯片已经采用了类似的混合内存方案,例如英伟达GB300/200已经是GraceCPU+LPDDR5和Blackwell GPU+HBM的形态。
不过,LPDDR对于封装和走线资源的要求很高,传统封装情况下单卡上能够放下的总内存容量仍然受限,未来也有可能是通过CXL或者chiplet技术将LPDDR拉远形成内存池的形式扩展。这些方案目前业界仍然在探索中。
除了以上路径,业界也在尝试使用CXL DDR内存池来扩展可用容量,例如有些厂商正在尝试用CXL.mem协议+机架级DDR5内存池来给GPU提供额外的TB级“近端内存”。
AI SSD也是一个正在被探索的方向,如NVIDIA在推动IOPS量级到100M的AI SSD,这显然就是为了把存储往“准内存”方向推。
总之,AI模型规模增长一直领先于内存技术进步。当模型从百亿千亿走向万亿级参数,上下文从几千token走向百万token,以及KV Cache比模型本身更占内存之后,任何单一的内存技术都将无法满足AI计算的需求。未来的AI内存架构大概率会走向一个“类似数据中心存储体系”的多层级结构,这将是未来十年AI芯片竞争的关键战场。