资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

Groq：软件定义硬件的张量流式处理器架构

创作时间:

作者:

@小白创作中心

Groq：软件定义硬件的张量流式处理器架构

引用

腾讯

https://new.qq.com/rain/a/20240819A092VW00

Groq的张量流处理器（TSP）架构采用了创新的软件定义硬件方法，通过将芯片控制、数据流、网络调度等任务交给软件操作，实现了更高的效率和灵活性。本文详细介绍了TSP架构的背景、设计原则、微架构设计、网络拓扑-路由-流控设计等内容，帮助读者深入了解Groq的创新技术和设计理念。

软件定义硬件方法

Groq利用软硬件协同，重新审视了软硬件交互接口。通过static-dynamic接口确定编译期和运行时的任务分配，通过软硬件接口确定哪些体系结构状态对编译器可见。设计时遵循面向确定性设计原则，硬件必须使得编译器和运行时接口理解程序执行。

充分理解内存一致性模型，不允许内存引用的重新排序。
不需要有“反应性组件”，例如仲裁器、交叉开关、重放机制、缓存等。
软件必须能够访问到架构可见的机器状态，以便拦截数据（操作数）和将执行它们的指令。
编译器“知道”芯片上每个张量（tensor）的确切位置。
编译器协调操作数和指令，通过生产-消费者模型，使得流式寄存器文件（streaming register files）可跟踪和存储在处理器或芯片上流动的张量数据的状态。

流式编程优势在于固定大小SRAM带来了确定性延迟；显式地在空间和时间上分配张量，解锁了大规模内存并发性和计算灵活性。传统的CPU增加了执行时间和深度学习模型的吞吐量特性的动态分析需求。推测性和乱序执行提高并发的同时，增加了tail延迟。隐式数据流通过缓存层次结构DRAM->L3->L2->L1引入了复杂性和非确定性。

TSP微架构设计

传统的处理器为complexing multi-core设计，每个core都包含完整计算、整数、浮点单元及存储和网络接口。GroqChip采用single-core设计，将上述功能单元分解并重新组织成SIMD功能单元，包括MEM-片上内存SRAM、VEX-向量处理、MXM-矩阵操作、SXM-数据reshape等。将它们彼此相邻放置，通过相互之间传递数据和操作数进行交互，充分利用空间局部特性。虽然看起来与传统CPU不太一样，但执行方式一致，都是将较大的指令分解为微指令。

TSP superlane结构及数据流动如下。数据在不同SIMD单元上流动，不同时间交给不同的执行单元。

软件定义

Groqchip架构总览，包含SRAM内存，TruePoint矩阵、可编程向量单元、网络、数据开关及指令控制等。下图为芯片构建块SMID单元，为320大小的向量，每个SMID单元有位于芯片底部的指令调度控制。SIMD功能单元，包括MEM-片上内存SRAM、VEX-向量处理、MXM-矩阵操作、SXM-数据reshape等。

SMID单元布局上相互挨着，底部同步指令分发到所有SMID功能单元，实现计算同步执行。芯片上采用南北向传输指令，东西向传输数据。同时利用高带宽的SRF，Streaming Register File在不同的SMID单元间传递数据。

TSP硬件确定性，实际吞吐量取决于编译器调度。以下展示了ISA增强软件栈，将控制权转移给编译器。

编译器知道所有数据位置。无需多级缓存，同时消除DRAM的不确定性。
编译器知道时钟周期的指令调度。144位指令控制单元，每个指令控制单元控制着与其关联的SMID单元的调度，仅仅不到3%的区域用于指令解码和调度，硬件调度开销非常低。
编译器知道SMID单元间的数据移动。每个SMID单元与SRF交互，进行数据输入输出的传递。而且每个SRF间只有1-cycle hop，中间过程无仲裁节点、重排序等。

用于ML模型上的SMID单元核心指令集，及支持的数据类型。而且每个SMID单元都有必备的指令，如IFETFCH、NOP、SYNC、NOTIFY等。

核心矩阵乘法单元MXM，包含4个320 x 320的个MACC-乘累加plane，每个plane由20个16 x 16个supercell组成。每个plane存储了102,400个“权重参数”，并且有409,600个乘累加器（MAcCs）。MXM支持8位整数和16位浮点数的数值，通过同时使用两个320×320字节平面来实现16位浮点数结果。每个输出只经过一次舍入步骤，就产生320元素的和，以转换为int32或fp32结果。

向量执行单元VXM，包含ML模型的常见向量计算如Accum、Add、ReLU、整数浮点格式转换等。每个超通道实现了一个4x4的向量ALU网格，能够进行×16的SIMD计算。每个通道有16个向量ALU。

内存单元MEM（SRAM），MEM在芯片上有88个切片，每个切片能同时服务一对读写请求。MEM切片提供了一个分区全局共享地址空间的编程抽象，编译器支持高达176路的内存并发性。

开关执行单元SXM，用来处理数据操作、reshape、数据搬运传输等。

流寄存器文件SRF位于SMID单元间，用于在不同单元间进行数据传输交互。

系统封装、路由及网络

Groq提供的整体端到端实时AI和HPC解决方案，主要是四部分：Groq Chip、Groq Node、Groq Card、Groq Rack；并在GroqNode层集成GroqWare套件。

Dragonfly网络拓扑结构，

利用封装层次实现低直径网络，同时又利用了封装局部性（packaging locality）。
软件调度的直连网络（software-scheduled direct network），支持每个TSP上的16个直接相连的芯片到芯片链路进行通信。

GroqNode构成，

利用较小的网络直径将多达8个芯片打包到一个node中，8个芯片做full mesh全连接；
然后利用CPU做控制，每个CPU控制4块TSP芯片；
利用C2C做链路和数据流控。

GroqRack，由9个GroqNode组成。

每个TSP的引脚带宽被划分为7个“本地”链接和4个“全局”链接。7个本地链接用于同一节点中8个TSP的全连接，节点内每个TSP的所有全局链接可以组合成4 * 8 = 32的“虚拟”端口的高基数路由器，用作Dragonfly拓扑的构建块。
使用具有32端口虚拟路由器的节点作为构建块，TSP系统可以扩展到33个节点，总共33×8=264个TSP，通过提供所有节点之间的完全连接，实现最小路由的三跳拓扑。
GroqRack层级，包含9个节点，每个节点8个TSP，通过每个TSP的4个“全局”链接相互连接，总共有4 *8 * 9=288个全局带宽端口。
为了扩展到更大的系统，可以使用机架作为“本地组”。使用288 / 2 = 144个端口，将机架中的9个节点做双重连接。其余的144个端口用于连接系统中的其他机架。
最大配置集群可提供145个机架，或10,440= 145（机架）×72（每个机架的TSP）总共个TSP，使用最小路由（源机架中的两个，一个全局跳，目的地机架中的两个）实现最多5跳直径。
进而实现万卡集群规模。