问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AI服务器PCIe拓扑结构研究:三种典型模式的性能对比与应用场景分析

创作时间:
作者:
@小白创作中心

AI服务器PCIe拓扑结构研究:三种典型模式的性能对比与应用场景分析

引用
CSDN
1.
https://m.blog.csdn.net/szxinmai/article/details/143234745

随着大数据、云计算和人工智能等领域的快速发展,AI服务器的需求日益增长。在AI服务器中,CPU+GPU的组合是最常见的计算单元,而PCIe拓扑结构对服务器的性能有着重要影响。本文将深入探讨三种典型的PCIe拓扑结构(Balance Mode、Common Mode和Cascade Mode)在AI服务器中的应用场景,并通过对比分析它们在点对点带宽与延迟、双精度浮点运算性能和深度学习推理性能方面的表现,为AI服务器的实际应用提供优选配置指导。

1. 引言

为满足大数据、云计算和人工智能等领域的数据收集与处理需求,采用各种异构形式的AI服务器得到了广泛应用。CPU+GPU是AI服务器中普遍使用的计算单元组合[1]。其中,P2P(Peer-to-Peer)通信用于多GPU系统中,借助缓存设备,可以有效利用PCIe资源进行GPU之间的数据交互[2]。

针对GPU加速应用,业内已有面向多种软件工具、硬件配置和算法优化的研究。2016年,Shi等人[3]通过性能基准测试,比较了GPU加速深度学习的软件工具(Caffe、CNTK、TensorFlow和Torch等);2018年,Xu等人[4]通过对软件和硬件配置的组合研究,得到不同开源深度学习框架的应用特性和功能,进一步量化了硬件属性对深度学习工作负载的影响;2019年,Farshchi等人[5]使用FireSim将开源深度神经网络加速器NVDLA(NVIDIA Deep Learning Accelerator)集成到Amazon Cloud FPGA上的RISC-V SoC中,通过运行YOLOv3目标检测算法来评估NVDLA的性能。但是,基于CPU+GPU架构,针对AI服务器在各应用场景中的分析却鲜有研究。

本文主要对AI服务器中3种典型的PCIe拓扑Balance Mode、Common Mode和Cascade Mode的应用场景进行研究,旨在通过对3种拓扑的点对点带宽与延迟、双精度浮点运算性能和深度学习推理性能分析,得到3种拓扑在各应用场景中的优势和劣势,为AI服务器的实际应用提供优选配置指导。

2. 典型拓扑结构

2.1 3种基础拓扑结构

(1)Balance Mode。
Balance Mode拓扑为Dual root,根据PCIe资源将GPU平均分配到各个CPU,同一个PCIe Switch下的GPU可以实现P2P通信,不同CPU下挂接的GPU需要跨超级通道互联UPI(Ultra Path Interconnect)才能通信。以8个GPU卡为例,Balance Mode拓扑结构如图1所示。

(2)Common Mode。
Common Mode拓扑中GPU的PCIe资源均来自同一个CPU,同一个PCIe Switch下的GPU可以实现P2P通信,不同PCIe Switch下挂接的GPU需要跨CPU PCIe Root Port才能实现P2P通信,但通信带宽低于同一个PCIe Switch下的P2P通信。以8个GPU卡为例,Common Mode拓扑结构如图2所示。

(3)Cascade Mode。
Cascade Mode拓扑中GPU的PCIe资源均来自同一个CPU PCIe Root Port,PCIe Switch之间为级联拓扑,同一级PCIe Switch下的GPU可以实现P2P通信,第1级PCIe Switch下的GPU和第2级PCIe Switch下的GPU之间可以实现P2P通信,不需要通过CPU PCIe Root Port。以8个GPU卡为例,Cascade Mode拓扑结构如图3所示。

3. 全国产PCIE 4.0/5.0 SWITCH NVMe 混合直连背板

  • 硬盘热插拔功能;
  • 灯态支持硬盘上电,读写,报错;
  • SPGIO硬盘报错功能;
  • 硬盘分时启动;
  • 风扇温度控制;
  • I2C(BMC);

本文原文来自CSDN

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号