问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AI服务器的核心之GPU加速卡

创作时间:
作者:
@小白创作中心

AI服务器的核心之GPU加速卡

引用
1
来源
1.
https://sunshinepcb.com/news/Industry/124.html

随着AI技术的快速发展,AI服务器作为支撑大规模计算的重要硬件平台,其核心组件和设计要求备受关注。本文将深入解析AI服务器的关键组成部分,特别是GPU加速卡的作用和要求,帮助读者更好地理解AI服务器的技术细节。

AI服务器 VS 通用服务器

通用服务器

通常配备2个CPU,具备更加综合的计算能力、存储能力和网络能力,以满足各种数据的处理和计算需求,往往用于传统的计算任务和网络应用。


图源:华为官网

AI服务器

通常采用异构形式,除了2个CPU之外还需配备4-8张加速卡,例如CPU+GPU、CPU+TPU、CPU+其他的加速卡等,AI服务器具备大量的并行计算能力,因此需要采用更高性能的处理器、大量的内存和存储资源以及适用于AI计算的加速卡。

在应用场景方面,AI服务器主要针对大数据、科学计算、人工智能等计算密度较高、数据处理庞大的场景。


图源:华为官网

GPU加速卡是AI服务器的关键

GPU加速卡(OAM),主要由GPU芯片、内存芯片、电源模块、散热器等部件组成,通过PCB来连接和传输信号。

GPU加速卡可以分为两种类型:SXM版本和PCIE版本。SXM版本是指使用NVIDIA公司开发的SXM接口连接GPU芯片和主板的加速卡;PCIE版本是指使用标准的PCIE接口连接GPU芯片和主板的加速卡。


SXM版本 VS PCIE版本

SXM版本相比PCIE版本具有更高的带宽和更低的延迟,但也需要更高级别的PCB和散热系统。

GPU加速卡是目前PCB行业中高端且昂贵的产品之一,对制造工艺要求非常高,一般会用到5-7阶HDI,层数在22-26层。

GPU加速卡对PCB的要求主要有以下几点:

  • BGA芯片高密度布局
    GPU和内存BGA芯片有很多引脚很多,需要多层和多阶HDI工艺来实现互联。

  • 高速信号传输
    由于GPU加速卡上有很多组高速信号,为了保证信号的低损耗传输需要选择具有较低的介电常数(Dk)、介电损耗(Df)、表面粗糙度(Rz)等参数的高速板材进行加工。

  • 可靠性
    由于GPU加速卡需要长期稳定运行,因此在选用板材的时候需要板材具有较高的导热系数(K)和较低的热膨胀系数(CTE)保证PCB的热稳定性。
    同时需要板材具有较高的玻璃化转变温度(Tg)、较低的水分吸收率(MOT)、较强的机械强度和耐化学腐蚀性。

7阶HDI 26层 GPU加速卡(局部图)
明阳电路生产

GPU模组板是GPU可扩展的关键

GPU模组板(UBB),即Unit Base Board,用于搭载多个GPU整合为矩阵平台,为GPU之间和GPU与CPU之间,提供高速的数据交换能力。


GPU模组板(UBB) 与 GPU加速卡(OAM)

The NVIDIA DGX A100 GPU Board

GPU加速卡,是一种基于开放标准(Open Accelerator Module)设计的GPU模块,可以插入到GPU模组板上。

GPU模组板(UBB) 对PCB的要求主要有以下几点:

  • 层数
    由于GPU模组板需要通过交换芯片连接多个GPU加速卡,并且需要多个电压的电源分配网络(PDN),因此层数一般在16层以上。

  • 孔结构
    由于GPU模组板的面积比较大,因此可以直接使用通孔来实现不同层之间的互联,针对高速信号的过孔可以使用背钻工艺来减少stub带来的信号反射。

  • 高速信号传输
    GPU模组板上的交换芯片和GPU模组之间有大量的高速信号线,为了保证信号的低损耗传输板材需要选择PPO等高性能树脂材料。

  • 热稳定性
    GPU模组板有大量的电源分配网络(PDN),同时还要受到多个GPU模组和CPU母版的热传导,需要选择有较高的导热系数(K) 和较低的热膨胀系数(CTE)的板材。

AI服务器的CPU母板

CPU母板组件包括CPU、CPU主板、内存条、PCIe交换机、网卡、扩展卡和存储板。以DGX A100 CPU母板为例:


DGX A100 CPU母板

图源:fibermall

  • CPU主板
    负责安装CPU芯片、PCIE Switch芯片、TPM模块以及各种功能卡,CPU主板支持AMD Rome 64核 CPU和PCIE 4.0总线,PCB层数一般为12-16层,采用通孔设计,使用低损耗板材。

  • CPU内存条
    32个内存条,最大支持2TB RAM。

  • 网卡
    Mellanox ConnectX系列有10种型号(8个单端口200Gb/s IB和2个双端口200Gb/s以太网)。

  • Riser卡
    用于扩展PCIe接口。

  • 硬盘板
    装有两个 1.92TB M.2 NVMe 硬盘。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号