问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

Tensor Core深度剖析：加速深度学习计算的关键技术

创作时间:

作者:

@小白创作中心

Tensor Core深度剖析：加速深度学习计算的关键技术

引用

1

来源

1.

https://www.cnblogs.com/wujinwanai/p/18600800

Tensor Core是NVIDIA GPU中用于加速深度学习计算的关键技术，主要通过执行矩阵乘法和卷积运算来提升神经网络的训练和推断效率。本文将深入探讨Tensor Core的工作原理，包括其计算原理、指令流水、线程执行以及整体计算过程。

计算原理

Tensor Core的核心功能是执行混合精度计算，即在计算过程中使用FP16（半精度）进行运算，而在存储时使用FP32（全精度）或FP16。这种设计既保证了计算精度，又显著提高了计算效率。

在英伟达GPU的Tensor Core中，计算过程与传统CUDA Core有显著差异。如图所示，Pascal架构（左）采用逐元素计算方式，每个时钟周期执行4次相乘操作。而Volta架构（右）的Tensor Core则能够一次性完成整个矩阵的乘法运算，每个SM（Streaming Multiprocessor）的AI吞吐量提升8倍，总体提升12倍。

指令流水

指令流水是提高处理器执行效率的关键技术。在Tensor Core中，计算过程被分解为多个步骤，每个步骤由专门的电路完成。如图所示，加号（+）表示矩阵加计算，乘号（x）表示矩阵乘计算。绿色长方块代表寄存器，其中横置的16位寄存器用于存储输入和中间数据，竖置的32位寄存器用于存储累积结果或中间高精度数据。

在实际计算中，Tensor Core通过并行处理多个元素的乘加操作来实现高效的矩阵乘法。例如，计算矩阵A的一行与矩阵B的一列的乘积时，需要四条Pipeline流水线协同工作。数据在流水线中的读写操作遵循特定规律，确保计算过程的高效性。

线程执行

在CUDA软件设计中，Tensor Core的计算任务通过线程块（Thread Block）和线程束（Warp）进行组织。由于Tensor Core一次只能处理4x4的小矩阵，因此需要将大矩阵切分为多个小块，并分配给不同的线程块和线程束进行并行计算。

Block-level矩阵乘

在整体编程时，需要沿着矩阵的各个维度（如N维和K维）将矩阵切分为小块进行计算，最后对结果进行累积。具体实现如下：

for (int mb = 0; mb < M; mb += Mtile)
  for (int nb = 0; nb < N; nb += Ntile)
    for(int kb = 0; kb < K; kb += Ktile)
    {
      //compute Mtile-by-Ntile-by-Ktile matrix product
      for (int k = 0; k < Ktile; ++k)
        for(int i= 0; i< Mtile; ++i)
          for (int j= 0; j< Ntile; ++j)
          {
            int row = mb + i;
            int col = nb + j;
            C[row][col] += A[row][kb + k] * B[kb + k][col];
          }
    }

Warp-level矩阵乘

在CUDA编程模型中，线程块内的计算任务由Warp（通常包含32个线程）协同完成。每个Warp负责计算结果矩阵C的一部分，通过共享内存（Shared Memory）实现数据交换和协作，减少内存访问延迟。

Thread-level矩阵乘

Tensor Core的并行执行基于矩阵乘法的基本操作。CUDA提供了WMMA（Warp-level Matrix Multiply-Accumulate）API，允许开发者直接利用Tensor Core的硬件加速能力。通过WMMA API，可以执行矩阵乘法累积操作，并管理数据的加载、存储和同步。

在GEMM（General Matrix Multiply）计算中，数据复用是一个重要概念。大矩阵被分割成小块存储在全局内存中，计算时加载到共享内存或寄存器中，以减少内存访问延迟并提高计算效率。

累积矩阵结果

计算完成后的临时结果通过WMMA的store matrix sync API存储到共享内存中。在共享内存中完成累积操作后，结果再写回到全局内存，最终拼接成完整的矩阵乘法结果。

整体计算过程

矩阵在进行GEMM计算前会被分块存储在全局内存中。
计算前，将需要参与计算的矩阵分块加载到共享内存中。
线程将共享内存中的数据加载到寄存器中，在Tensor Core中执行矩阵乘法运算。
计算完成后，结果写回到共享内存中，通过WMMA API确保数据的正确同步和累积。
最终，累积结果写回到全局内存中，不同线程块计算得到的结果块被拼接起来，形成最终的完整矩阵乘法结果。

Tensor Core通过这种层次化的计算和数据管理方式，实现了高效的矩阵乘法计算，为深度学习应用提供了强大的计算支持。

热门推荐

2025年高考总分是多少？附各科目满分（全国31省）

2025年高考总分是多少？附各科目满分（全国31省）

生姜止呕、大蒜杀菌……这10种调味料也是“药”！可以多吃一点！

生姜止呕、大蒜杀菌……这10种调味料也是“药”！可以多吃一点！

为长辈选购饰品：黄金与玉石的全面比较与选择指南

为长辈选购饰品：黄金与玉石的全面比较与选择指南

辽阳县构建多层次养老服务体系推动养老事业高质量发展

辽阳县构建多层次养老服务体系推动养老事业高质量发展

燃油车十年内会被淘汰？市场需求与技术挑战下的未来走向

燃油车十年内会被淘汰？市场需求与技术挑战下的未来走向

个人破产后的债务怎么办？一文详解破产债务处理流程

个人破产后的债务怎么办？一文详解破产债务处理流程

与其他国际大都市相比，英国伦敦住宅房价处于什么水平？

与其他国际大都市相比，英国伦敦住宅房价处于什么水平？

无花果的土壤要求与种植技巧（让无花果在你家成为“无忧果”的秘诀）

无花果的土壤要求与种植技巧（让无花果在你家成为“无忧果”的秘诀）

运动前吃什么？这些食物助你活力满满

运动前吃什么？这些食物助你活力满满

人际关系的本质是什么？博弈智慧、资源互换与赢得喜爱的平衡艺术

人际关系的本质是什么？博弈智慧、资源互换与赢得喜爱的平衡艺术

2024年中国R&D经费超3.6万亿元，投入强度达2.68%

2024年中国R&D经费超3.6万亿元，投入强度达2.68%

注意！你爱逛的小红书竟有这些诈骗套路

注意！你爱逛的小红书竟有这些诈骗套路

和血明目片副作用

和血明目片副作用

右脚感到麻木是何原因并有哪些治疗方法

右脚感到麻木是何原因并有哪些治疗方法

云南旅游报团如何避免强制消费

云南旅游报团如何避免强制消费

Excel加载项出错怎么办？一文详解解决方法

Excel加载项出错怎么办？一文详解解决方法

路边停车指南：如何判断停车是否合法？

路边停车指南：如何判断停车是否合法？

疱疹性咽峡炎常用药物

疱疹性咽峡炎常用药物

跑步是对我们健康的一种方式

跑步是对我们健康的一种方式

24个经济体当前指数情况总览

24个经济体当前指数情况总览

DCEP是央行数字货币吗？和比特币有什么关系？

DCEP是央行数字货币吗？和比特币有什么关系？

DCEP是央行数字货币吗？和比特币有什么关系？

DCEP是央行数字货币吗？和比特币有什么关系？

个税二次退税全攻略：条件、场景及注意事项详解

个税二次退税全攻略：条件、场景及注意事项详解

银行理财产品投资风险评估：从传统到智能化的转型

银行理财产品投资风险评估：从传统到智能化的转型

美国生活计量单位换算指南：温度、长度、面积、体积、重量及衣物尺码全解析

美国生活计量单位换算指南：温度、长度、面积、体积、重量及衣物尺码全解析

《绝地求生》服务器繁忙？试试这些妙招，让你畅玩无阻！

《绝地求生》服务器繁忙？试试这些妙招，让你畅玩无阻！

矾根种植攻略：从选种到采收的全面指南

矾根种植攻略：从选种到采收的全面指南

矾根耐寒吗？详解矾根的管理养护方法

矾根耐寒吗？详解矾根的管理养护方法

1979年属羊男2024年如何化解情劫

1979年属羊男2024年如何化解情劫

戒指尺寸测量指南：专业测量方法与国际标准对照

戒指尺寸测量指南：专业测量方法与国际标准对照

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号