清华大学发布全球首款3D DRAM存算一体架构,突破AI大模型计算瓶颈
清华大学发布全球首款3D DRAM存算一体架构,突破AI大模型计算瓶颈
近日,清华大学集成电路学院在2024 ACM/IEEE第51届年度计算机体系结构国际研讨会(ISCA)上发布了国际首款面向视觉AI大模型的三维DRAM存算一体架构。这一突破性成果有望大幅提升AI大模型的计算效率,解决长期困扰业界的存储墙和IO墙问题。
存储墙与IO墙:传统架构的瓶颈
在当前的主流计算系统中,数据处理依赖于存储与计算分离的冯诺依曼架构。为了满足速度和容量的需求,现代计算系统通常采取高速缓存(SRAM)、主存(DRAM)、外部存储(NAND Flash)的三级存储结构。然而,这种架构在处理大规模数据时面临严重的性能瓶颈。
存储墙问题源于不同存储层级之间的速度差异。越靠近运算单元的存储器速度越快,但容量也越小。例如,SRAM响应时间在纳秒级,而NAND Flash则高达100微秒级。当数据在这三级存储间传输时,后级的响应时间及传输带宽会拖累整体性能。
IO墙问题则产生于外部存储中。由于数据量过于庞大,内存无法容纳所有数据,需要借助外部存储并通过网络IO访问。这种方式使得访问速度下降几个数量级,严重制约了系统性能。
近存计算与“滩前问题”
近年来,业界广泛采用高带宽内存(HBM)作为解决方案,通过先进封装方式将HBM芯片与计算芯片在silicon interposer上集成,实现计算单元与存储单元的近距离集成封装。这种“近存计算”方案虽然提高了处理性能,但仍面临“滩前问题”的制约。
“滩前问题”可以形象地比喻为:如果将计算芯片视为一个海岛,那么可以放置数据I/O通道的位置就是岛的沙滩位置。沙滩的长度(即可以放置I/O的总长度)受到信号串扰等因素的限制,导致2.5D近存集成方案下I/O数量无法进一步提升,从而难以提升带宽。
清华创新:三维存算融合架构
针对近存架构的带宽瓶颈和二维存内计算架构的工艺瓶颈问题,清华大学研究团队首次探索了三维立体存算一体架构方案。该方案通过将计算单元与DRAM存储单元在垂直方向堆叠,单元间以金属铜柱作为数据通道互联,有效解决了“滩前问题”。
在该架构中,DRAM阵列由基本DRAM Bank组成,每个DRAM Bank与对应的计算Bank通过hybrid bonding工艺在垂直方向堆叠,二者通过高密度铜柱交互数据。互连铜柱距离短、寄生容抗小,数据通路等效于互连线直连,每个DRAM Bank与对应的计算Bank构成了Bank级存算一体单元。
与二维存内计算相比,三维存算一体架构具有以下优势:
- 突破带宽限制:通过垂直堆叠,可以任意位置放置数据I/O,大幅提高数据通路密度。
- 工艺兼容性:DRAM阵列与计算逻辑可独立制造,逻辑电路不受DRAM工艺限制,不影响存储容量。
- 性能提升:实验结果显示,该架构在多种基准工作负载和数据集上评估,能效平均提高了5.69倍至28.13倍,面积效率提升了3.82倍至10.98倍。
相似性感知计算:进一步提升性能
为了进一步提升系统性能,设计团队提出了相似性感知三维存算一体架构。实验发现,激活数据在存储阵列内连续存储时,局部区域数据具有相似性,研究团队将此特性归结为存储数据的簇相似效应。
利用这一特性,每个计算Bank能够独立并行地挖掘对应DRAM Bank内数据的相似性,并利用相似数据完成计算加速。这一设计克服了三个关键技术难点:
- 如何寻找相似数据:通过高效算法避免遍历搜索带来的功耗和时间开销。
- 如何利用相似数据:设计了专门的硬件结构来加速相似数据的处理。
- 如何平衡性能与开销:通过精细的硬件设计和软件优化,确保性能提升的同时控制额外开销。
应用前景:为AI大模型提供强大支持
在人工智能和大数据处理领域,清华大学团队的创新芯片技术展现出巨大的应用潜力。当前,AI大模型对算力的需求日益增长,而传统电子芯片的性能提升速度却难以匹配这种需求。存算一体芯片和光电智能计算芯片的出现,为解决这一矛盾提供了新的方案。
存算一体芯片特别适合用于加速AI计算,其高能效优势在端侧应用中尤为突出。清华大学高滨教授指出,如果忆阻器能应用到大模型中,能效比预计将有数量级的提升。这对于未来在端侧部署AI应用具有重要意义。
光电智能计算芯片则在高速视觉任务中展现出惊人的性能。实验结果显示,该芯片在三分类ImageNet等任务中实现了4.6 Peta-OPS的系统级计算速度,是现有高性能光学计算芯片的400多倍,同时也是模拟电子计算芯片的4000多倍。在自动驾驶等超高速视觉计算任务中,该芯片能够有效应对低光环境下的挑战,提供更准确的感知和决策支持。
国际竞争:中国芯片技术的新突破
在全球芯片技术竞争日益激烈的背景下,清华大学戴琼海团队的突破具有重要的战略意义。当前,国际上多家机构和企业都在积极研发新型计算架构,以应对后摩尔时代的挑战。例如,美国AI芯片公司Lightmatter推出了通用光子AI加速器方案“Envise”,曦智科技也推出了光子计算处理器“PACE”。
然而,清华大学团队的成果在算力和能效方面达到了国际领先水平。这一突破不仅提升了中国在芯片技术领域的国际竞争力,也为全球芯片产业的发展提供了新的思路和方向。
未来展望:开启芯片产业新篇章
清华大学戴琼海团队的创新成果,为芯片产业的发展开辟了新的路径。存算一体芯片和光电智能计算芯片的出现,预示着未来芯片技术将朝着更高速、更低功耗、更智能化的方向发展。这些新技术不仅有望在AI、大数据、自动驾驶等领域发挥重要作用,还可能催生出全新的应用场景和商业模式。
随着研究的深入和技术的成熟,这些创新芯片有望逐步实现商业化应用,为全球科技产业带来深远影响。中国在这一领域的突破,不仅展示了其科技创新实力,也为全球芯片产业的未来发展注入了新的动力和希望。