AI会用到HBM内存,核心是其能提供超高带宽、低延迟与高能效,解决AI大模型训练/推理时的“内存墙”问题,让GPU算力充分释放;它和普通内存(如DDR5、GDDR6)在架构、带宽、功耗、封装等方面差异显著。
1、破解“内存墙”瓶颈,AI大模型参数达千亿/万亿级,GPU核心需持续读取权重与数据运算,DDR5约100GB/s的带宽远跟不上GPU算力,导致算力空转、利用率暴跌,HBM的TB级带宽可满足海量数据实时吞吐需求。
2、适配并行计算特性,GPU数千核心并行运算,需高带宽内存同步供给数据,HBM的超宽总线能同时为多核心输送数据,保障AI训练/推理高效进行。
3、平衡功耗与性能,AI服务器高密度部署对功耗敏感,HBM单位带宽功耗比传统内存低30%-50%,可降低整体能耗,同时提升数据传输效率。
4、满足低延迟需求,HBM与GPU通过2.5D封装的硅中介层互连,传输距离从毫米级缩至微米级,延迟大幅降低,适配AI推理的毫秒级响应要求。
B站 电子技术视频课程,80多个视频(后续会持续更新到100个),每个视频平均10分钟 ,内容涵盖二极管、三极管、MOS管、频率响应、电路反馈、集成运放、功放电路、整流电路、开关电源等上百个电子技术知识点!
对比维度 | HBM内存 | 普通内存(以DDR5、GDDR6为例) |
核心架构 | 3D垂直堆叠DRAM芯片,用TSV硅通孔连接,搭配2.5D封装中介层,数据垂直传输 | 平面布局,芯片平铺在PCB上,数据水平传输 |
带宽表现 | HBM3E单堆栈带宽达1.2TB/s,HBM4有望突破2TB/s,位宽1024-2048位 | DDR5约100GB/s,GDDR6约768GB/s,位宽多为32-256位 |
功耗效率 | 单位带宽功耗低,比传统内存降低30%-50%,适合高密度部署 | 单位带宽功耗较高,数据传输距离长、损耗大 |
封装形态 | 与GPU同封装在2.5D模块中,通过硅中介层互连,节省94%PCB面积,延迟低 | 多为独立内存模组(如UDIMM),需通过PCB走线连接处理器,延迟较高 |
容量密度 | 单堆栈可堆叠8-32层DRAM,HBM3E单堆栈容量达24GB,多堆栈可实现TB级容量 | 单颗芯片容量有限,需多模组组合实现大容量,占用空间大 |
成本与应用 | 成本高,多用于AI服务器、超级计算机、高端GPU等高性能场景 | 成本低,广泛应用于PC、手机、普通服务器等消费级和通用计算场景 |
1、总线与位宽,HBM单堆栈位宽达1024-2048位,而DDR5位宽多为64位,GDDR6单颗32位,HBM一次传输数据量是普通内存的数十倍。
2、传输路径,HBM数据通过TSV垂直直达,无需绕路;普通内存数据沿PCB走线传输,路径长、易受干扰,延迟与损耗更大。
3、容量扩展,HBM可通过多堆栈组合提升容量,如NVIDIA H200 GPU搭配HBM3E,单卡容量达141GB,带宽超3.35TB/s,满足AI大规模计算需求。