ISSCC 2025:新型存算一体芯片突破,能效达400TFLOPS/W
ISSCC 2025:新型存算一体芯片突破,能效达400TFLOPS/W
在2025年国际固态电路会议(ISSCC)上,集成电路制造技术全国重点实验室张锋研究员团队展示了一款具有重要突破的存算一体宏芯片。这款芯片采用28nm CMOS工艺制造,支持BF16、FP8浮点精度运算以及INT8、INT4定点精度运算,为边缘计算和AIoT应用提供了新的技术选择。
存算一体技术的重要性和挑战
存算一体(Computing-in-Memory, CIM)技术是一种革命性的计算架构,通过将计算和存储功能集成在同一芯片中,解决了传统冯・诺依曼架构中的“内存墙”问题。随着人工智能、边缘计算和数据中心等领域的快速发展,存算一体技术因其高效能、低功耗的特点,成为未来计算架构的重要方向。
然而,传统的存算一体宏仅支持网络推理,无法进行网络训练所需要的转置运算。现有方案无法对训练中的前向与反向传播过程中的乘累加电路进行有效的复用,造成了功耗和面积上的浪费,且仅支持定点数制的模拟存算方案,在精度上也存在较大的缺陷。如何有效实现支持转置操作的高能效、高精度的存算一体宏,是当前存算一体领域亟须解决的问题。
创新设计与性能突破
针对以上问题,张锋研究员团队设计出可转置的近似精确双模浮点存算一体宏芯片。通过提出的循环权重映射SRAM方案,芯片可在前向与反向传播时复用乘加单元,在实现了转置功能的同时,相对之前的转置存算一体宏单元大大提升了能效与算力密度。
通过提出的有符号定点尾数编码方式与向量粒度预对齐方案,芯片实现了多种浮点、定点数制的兼容支持,相较于传统的粗粒度浮点预对齐方案有着更小的精度损失。
通过提出的近似精确双模的乘加电路设计,芯片可在精度要求低的推理环节时开启近似模式,从而获得12%的速度提升与45%的能耗降低,可在精度要求高的训练环节时开启精确模式确保没有精度损失。
性能指标与应用场景
该存算一体宏芯片在28nm CMOS工艺下流片,可支持BF16、FP8浮点精度运算以及INT8、INT4定点精度运算。BF16浮点矩阵-矩阵-向量计算均值能效达到48TFLOP/W,峰值能效达到100TFLOPS/W;FP8浮点矩阵-矩阵-向量计算均值能效达到192.3TFLOP/W,峰值能效达到400TFLOPS/W。这一研究结果为应用于边缘端训练的存算一体架构芯片提供了新思路。
图1. 28nm基于外积的数模混合浮点存算一体宏芯片:(a)芯片显微镜照片,(b)芯片特性总结表
存算一体芯片的适用场景从早期的小算力场景(如音频类、健康类及低功耗视觉终端侧应用)逐渐扩展到大算力场景(如无人车、泛机器人、智能驾驶等)。此外,存算一体芯片还有一些其他延伸应用,比如感存算一体、类脑计算等。
这项研究成果得到了科技部重点研发计划、国家自然科学基金、中国科学院战略先导专项等项目的支持。相关论文以"A 28nm 192.3TFLOPS/W Accurate/Approximate Dual-mode Transpose Digital 6T-SRAM Compute-in-Memory Macro for Floating-Point Edge Training and Inference"为题入选 ISSCC 2025。微电子所博士生袁易扬为第一作者,张锋研究员与北京理工大学李潇然助理教授为通讯作者。