HBM技术详解:高带宽存储器的原理与应用
HBM技术详解:高带宽存储器的原理与应用
1. 什么是HBM
HBM(High Bandwidth Memory)是一种用于某些GPU的3D堆叠DRAM存储器(动态随机存取存储器),以及服务器、高性能计算(HPC)、网络连接的内存接口。其基本原理是将多个DDR芯片堆叠在一起并与GPU封装,以实现大容量和高位宽的DDR组合阵列。
上图中,中间的die是GPU/CPU,左右两边的小die就是DDR颗粒的堆叠。目前,堆叠数量一般为2/4/8,立体堆叠最多可达4层。
再来看一个HBM DRAM的3D结构图:
- DRAM通过堆叠方式叠在一起,Die之间用TSV(硅通孔)连接
- DRAM下面是逻辑控制单元,负责控制DRAM
- GPU和DRAM通过uBump和Interposer(起互联功能的硅片)连接
- Interposer再通过Bump和Substrate(封装基板)连接到BALL
- 最后通过BGA BALL连接到PCB上
2. HBM技术
目前市场上主要存在1-2代HBM产品,第3代的规格刚刚被定义。
据透露,AMD及NVIDIA下一代显卡都会搭配4组HBM显存,等效位宽4096bit,总带宽可达1024GB/s,即TB/s级别带宽。
2.1 HBM Gen 1
最初的JESD235标准定义了第一代HBM(HBM1)存储芯片,具有1024位接口和最高1Gb/s数据速率。该芯片堆叠了2-8个DRAM设备,在基本逻辑芯片上每个设备具有两个128位通道。每个HBM堆栈最多支持8个128位通道,物理接口限制为1024位。每个通道实质上都是具有2n预取架构的128位DDR接口,可以独立工作。
SK Hynix是唯一实现商业化的公司,其生产的HBM第一代存储器KGSD堆叠了4个2 Gb存储器管芯,每个引脚的数据速率为1 Gb/s。AMD使用这些KGSD(每个堆栈具有1 GB的容量和128 GB/s的峰值带宽)来构建其斐济GPU封装系统和Radeon R9 Fury/R9 Nano视频卡。虽然在2016年4GB的VRAM还不算多,但即使如此,这也可能成为未来高端GPU的限制。
2.2 HBM Gen 2
JSF235A标准概述了第二代HBM技术,继承了128位DDR接口、2n预取架构等关键特性。HBM2将堆栈中的DRAM设备容量扩展到8 Gb,并将支持的数据速率提高到每针1.6 Gb/s甚至2 Gb/s。主要增强功能之一是伪通道模式,将通道分为两个64位I/O的子通道,优化内存访问并降低延迟。
与第一代相比,HBM2的改进包括通道重新映射模式、防过热保护等功能。三星电子和SK Hynix这两家控制着全球DRAM总产量50%以上的公司将生产HBM2。
3. HBM优点
- 更高速,更高带宽:HBM堆栈通过中介层与CPU或GPU紧凑快速连接,性能接近芯片集成的RAM。
- 更高位宽:HBM堆栈可以实现1024位的IO数量。
- 更低功耗:HBM的功耗效率是GDDR5的3倍以上。
- 更小外形:HBM比GDDR5节省94%的表面积。
4. 用途
HBM在AI、云计算和深度学习领域发挥着重要作用。随着模型复杂度的增加,传统的GDDR5已无法满足高带宽需求。HBM通过三维堆叠技术,不仅提高了存储密度,还解决了IO瓶颈问题,使AI处理能力大幅提升。
5. 主要问题
- HBM需要较高的工艺,导致成本大幅增加。
- 大量DRAM堆叠与GPU封装在一起会产生大量热量,散热是一个巨大挑战。
总结一句话:HBM就是将多个DRAM通过3D技术集成在一个封装内,以满足各种计算对高带宽的需求。