资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

专用AI编译器正当时，通用化成未来发展趋势

创作时间:

2025-01-22 05:40:51

作者:

@小白创作中心

专用AI编译器正当时，通用化成未来发展趋势

AI编译器是针对AI和机器学习应用特别优化的编译器，能够将高级语言编写的程序或训练好的模型文件转换成在特定硬件上高效执行的程序。本文将通过介绍AI编译器的设计目标、定义及其发展历程，详细探讨其三个发展阶段：朴素AI编译器、专用AI编译器和通用AI编译器。

AI编译器与设计目标

什么是AI编译器

AI编译器具有以下四个主要特征：

以Python语言为前端：AI编译器拥有以Python为主的动态解释器语言前端。Python是AI领域广泛使用的高级编程语言，因其简洁的语法和强大的库支持而受到欢迎。动态解释器语言前端在处理Python代码时，会进行动态类型检查和解释执行，有助于在运行时捕获和处理类型错误。
拥有多层IR设计：AI编译器拥有多层IR（Intermediate Representation，中间表示）设计，包括图编译IR、算子编译IR、代码生成IR等。IR是编译过程中的一个抽象层次，将高级语言代码转换为中间形式，以便进行进一步的优化和转换。图编译将程序表示为计算图，算子编译将计算图中的操作转换为特定硬件的优化代码，代码生成则将优化后的IR转换为目标平台的代码。
面向神经网络深度优化：AI编译器针对神经网络和深度学习进行了特定优化，处理神经网络计算任务的效率更高。这些优化可能包括内存访问模式优化、并行计算调度以及针对特定AI框架的定制化支持。
针对DSA芯片架构：AI编译器需要针对DSA（Domain-Specific Architecture，特定领域架构）芯片进行支持。DSA芯片具有高度定制化的硬件组件，如专门的张量处理单元（TPU）、神经网络处理器（NPU）等，AI编译器需要能够生成充分利用这些硬件特性的代码。

综上所述，AI编译器是一个复杂的系统，结合了多种编译技术，针对AI和机器学习应用进行了深度优化，以实现在特定硬件上高效运行的目标。

AI编译器设计目标

AI编译器在AI领域的应用主要分为两个场景：推理场景和训练场景。这两个场景分别对应了AI模型生命周期中的不同阶段，并且对编译器的要求也有所不同。

推理场景：模型已经训练完成，需要对新数据进行预测。关键点包括性能优化、资源利用、模型压缩和硬件兼容性。
训练场景：使用大量标注数据训练神经网络模型。关键点包括代码生成、梯度计算、并行计算和内存管理。

朴素AI编译器

AI编译器的第一个阶段是朴素AI编译器阶段，主要存在于TensorFlow早期版本中，基于神经网络的编程模型，主要进行了graph图和ops算子两层抽象。

图层抽象

在TensorFlow中，图是由一系列节点（Nodes）和边（Edges）组成的有向图，通过声明式的编程方式，以静态图方式执行。

声明式编程：开发者描述“要做什么”，而不是“怎么做”。
静态图：在程序执行之前就已经定义好的图结构。

TensorFlow的编译器在执行前会对整个图进行分析和优化，包括硬件无关和硬件相关的优化。

硬件无关的优化：
表达式化简：去除冗余运算。
常量折叠：在图构建阶段计算所有常量表达式。
自动微分：自动计算图中任意节点的梯度。
硬件相关的优化：
算子融合：将多个连续运算融合为一个单独运算。
内存分配：优化内存使用，减少分配和释放开销。

算子抽象

在AI框架中，算子是执行具体计算的操作单元，如矩阵乘法、卷积、激活函数等。Kernel在深度学习中通常指的是在底层硬件上执行特定计算任务的函数或代码块。

在TensorFlow中，为了实现高性能的算子，开发者可能会直接编写CUDA代码来创建算子的实现，或者使用CuDNN库中的算子实现。

朴素编译器缺点

TensorFlow早期的静态图设计存在以下劣势：

灵活性受限：静态图的构建方式与Python的动态特性不完全兼容，限制了表达的灵活性和直观性。
硬件适应性不足：随着DSA芯片的出现，编译器和算子实现需要更好地适应这些硬件的特性。
优化粒度受限：预先确定的算子粒度和边界可能限制了编译器在运行时根据具体硬件特性进行更细粒度优化的能力。
性能优化空间有限：硬件厂商提供的算子库可能不是最优的，特别是在模型结构和数据形状确定的情况下。

专用AI编译器

在AI编译器的发展中，阶段二标志着专用AI编译器的诞生，这一阶段的编译器开始针对AI和深度学习工作负载进行优化。

表达形式演进

PyTorch框架以其动态图（即时执行模式）而受到欢迎，它允许开发者以Python原生的方式编写和修改神经网络模型。这种灵活性促使编译器开发者考虑如何将类似PyTorch的表达方式转换为优化的中间表示（IR）。

尽管动态图提供了灵活性，但在性能关键的应用中，静态图的优化潜力更大。因此，编译器需要能够将动态图转换为静态图，以便于进行进一步的优化。同时，PyTorch引入了AI专用编译器架构，能够更好地处理AI工作负载的特点，自动管理图和算子的边界。

性能上的差异

在阶段二的AI编译器中，性能优化是一个关键的焦点，特别是在如何充分利用硬件资源方面。目前工业界已经有了很多产品在这一方面进行了尝试，如TVM、Meta推出的TC、谷歌推出的XLA等。

在之前的编译器中，算子的边界是固定的，这意味着每个算子作为一个独立的单元执行，与其他算子的交互有限。而在当前阶段编译器开始打破这些边界，允许算子之间的更深层次的交互和优化。通过重新组合优化，编译器能够更有效地利用硬件资源，如CPU、GPU或专用AI加速器。编译器可能将大的计算子图拆解为更小的算子，也可以将多个小算子合并为一个更大的算子，减少数据传输和内存访问，提高执行效率。

Buffer Fusion是一种优化技术，通过合并多个连续的内存访问操作来减少内存的分配和释放，从而降低内存碎片和提高内存访问效率。水平融合涉及将执行数据并行操作的算子合并，以提高数据吞吐量。

优化策略需要根据目标硬件的特性来定制，不同的硬件平台可能需要不同的优化方法。由于硬件架构和神经网络模型的多样性，编译器需要具备自动调优的能力，以找到最佳的优化策略。

下图展示了专用AI编译器的框架图。最上层表示神经网络模型，最下层表示不同的硬件加速器，中间两层分别为算子层和计算图层。

总的来说，阶段二的AI编译器在表达和性能上都进行了显著的改进。在表达上，编译器能够处理类似PyTorch的灵活表达方式，并通过转换为计算图IR来进行优化。在性能上，通过打开计算图和算子的边界，并运用先进的编译优化技术，编译器能够更有效地利用硬件资源，提高神经网络模型的性能。这些改进使得AI编译器更加强大和灵活，能够满足日益增长的AI应用需求。

专用AI编译器缺点

阶段二的专用AI编译器目前的发展还存在以下问题：

计算图与算子实现分离：算法工程师主要关注计算图的构建，而算子的底层实现则由框架开发者和芯片厂商负责，这种分离增加了协作和集成的复杂性。
泛化功能局限：

在某些场景下，需要根据运行时信息动态调整计算图结构。
当输入数据的形状在运行时变化时，专用编译器难以适应这种动态性。
对于稀疏数据集，专用编译器可能没有优化计算路径。
在多设备或多节点上进行模型训练和推理时，专用编译器可能缺乏有效的并行化策略和优化。

缺乏自动化优化手段：专用AI编译器在算子实现方面依然缺乏自动化的优化手段，如调度、分块和代码生成。这导致开发者需要手动进行这些优化，增加了开发的门槛和复杂性。

通用AI编译器

在阶段二专用AI编译器之后，就是AI编译器发展阶段三的到来。阶段三代表着通用AI编译器的重要发展阶段。目前工业界的发展还处于AI编译器发展阶段的阶段二，也就是专用AI编译器的发展阶段。

但展望未来，阶段三的通用AI编译器将带来一系列创新特点，成为发展目标：

统一表达：通用AI编译器将实现计算图和算子的统一表达，能够在统一的框架下同时进行图级别和算子级别的优化。
自动化优化：通用AI编译器将在算子层实现自动调度、自动分块和自动代码生成，大幅降低开发难度，提高开发效率。
泛化优化能力：通用AI编译器将具备更广泛的优化能力，包括动静统一、动态形状处理、稀疏性优化、高阶微分以及自动并行化等高级特性。
模块化设计：通用AI编译器将编译器本身、运行时系统、异构计算支持以及从边缘设备到数据中心的部署需求划分为独立的、可重用和可组合的模块。这种设计不仅增强了系统的灵活性和可扩展性，使其能够适应多样化的硬件架构和计算环境，而且通过提供简单直观的API、详尽的文档和强大的工具支持，显著降低了开发难度，加快了开发速度，使得AI应用的部署和维护变得更加容易和高效。