AI加速器的演变与未来：平衡性能、功耗与可编程性

创作时间:

作者:

@小白创作中心

AI加速器的演变与未来：平衡性能、功耗与可编程性

引用

来源

https://www.sjxmicro.com/sys-nd/45.html

随着人工智能（AI）技术的快速发展，AI加速器作为提升计算性能和降低功耗的关键组件，其重要性日益凸显。从通用处理器到专用加速器，从数据中心到边缘设备，AI加速器正经历着深刻的演变。本文将探讨AI加速器的发展历程、面临的挑战以及未来的发展方向。

通用处理器的局限性：AI对功耗和性能的严苛需求

通用处理器并不能很好地满足AI的需求，因为它们并非为特定的工作负载优化。考虑到AI处理对系统功耗的巨大影响，专注于某一类工作负载的加速器能显著提升性能并减少功耗。Rambus的研究员Steven Woo指出，过去十年AI对计算和半导体行业的影响促使专用处理器架构的广泛采用，并推动了专为AI设计的组件的发展。

专用处理器的兴起：性能与功耗的优化之路

然而，专业化处理也有其代价。Arm的研究员Ian Bratt提到，尽管优化后的神经网络处理单元(NPU)能在特定类别的模型上实现高效能，但它们往往牺牲了灵活性。而由于AI的需求不断扩展，人们并不确定未来模型的发展方向，因此可编程性成为未来应对变化的关键。然而，完全可编程的系统（如CPU或GPU）虽然灵活，但通常在能效和面积上不如专用加速器高效。

灵活性与效率的权衡：AI加速器的挑战

随着技术的发展，工程团队正努力在保持灵活性和提升效率之间取得平衡。例如，通用计算平台正在通过增加专门的硬件加速器来提升AI性能，同时保留其通用可编程性。Arm多年来在其CPU架构中引入了对机器学习(ML)性能的改进，并为未来AI工作负载的发展提供了更具灵活性的解决方案。

训练与推理的差异：能耗与计算需求的不同

在AI训练中，反向传播是一个能耗极高的步骤。Ansys的Marc Swinnen解释了训练与推理的本质区别，训练过程中需要不断地计算误差并调整网络权重，而推理仅涉及前向数据传递，因此计算量和能耗显著减少。然而，随着AI算法复杂度的增加，处理需求也相应提升。例如，近几年领先的ImageNet算法所需的浮点运算量增加了100倍，这对使用通用CPU进行AI处理提出了更高要求。GPU和TPU虽然能更快速地完成这些计算，但仍需要不断优化能效。

应对AI复杂性增长：技术突破与架构演变

为了应对处理需求的持续增长，芯片设计师和技术专家正在探索新的方法。例如，生成式AI的需求推动了更高效的基准测试和模型优化，同时强调可编程性的重要性，因为未来的AI应用可能会涉及完全不同的操作需求。Rambus的Woo表示，AI正在向着更大规模、更复杂的模型发展，这为未来的计算架构设计提出了更高要求。AI 2.0时代的特征是多模态输入输出以及生成式AI的出现，这些技术帮助我们向通用人工智能(AGI)的目标更进一步。