问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

常见GPU算力对比:5090与5090D的技术参数详解

创作时间:
作者:
@小白创作中心

常见GPU算力对比:5090与5090D的技术参数详解

引用
CSDN
1.
https://blog.csdn.net/qq_45351564/article/details/145422580

本文详细介绍了两款GPU(5090和5090D)的硬件参数和算力情况,内容包括核心架构、CUDA核心数量、Tensor核心数量、显存规格、算力等详细技术参数。

硬件参数

5090
5090D
核心
GB202-300
GB202-250
架构
Blackwell
Blackwell
SM
170
170
CUDA Cores / SM
128
128
CUDA Cores / GPU
21760
21760
Tensor Cores / SM
4 (5th Gen)
4 (5th Gen)
Tensor Cores / GPU
680 (5th Gen)
680 (5th Gen)
GPU 加速频率
2407 MHz
2407 MHz
显存
32 GB (GDDR7)
32 GB (GDDR7)
显存位宽
512 bit
512 bit
显存速率
28 Gbps
28 Gbps
显存带宽
1792 GBps
1792 GBps
一缓
128 KB (per SM)
128 KB (per SM)
二缓
96 MB
96 MB
TGP
575 W
575 W
制程
TSMC 4N (5nm)
TSMC 4N (5nm)

值得注意的是,完整的GB202核心包含12组GPC,每组GPC包含8组TPC(与4090的AD102相比,AD102是6组),每个TPC包含两个SM单元,因此完整的GB202核心共有192个SM单元,但GB202-300和GB202-250仅启用其中的170个。每个SM单元中有128个CUDA计算单元,这些CUDA单元都可以计算FP32或INT32(相比之下,4090的AD102中64个CUDA可以计算FP32或INT32,另外64个只能计算INT32)。

每个SM单元中有4个Tensor Core,因此GB202-300和GB202-250总共含有680个Tensor Core。支持的数据类型包括FP8、FP16、BF16、TF32、INT8、INT4、FP6、FP4,不支持FP64。与AD102相比,新增支持FP6和FP4,并采用第二代FP8 Transformer引擎。

算力

CUDA Core 算力

5090
5090D
FP32
104.8
104.8
FP16
104.8
104.8
FP64
1.64
1.64
BF16
104.8
104.8
INT32
104.8
104.8

Tensor Core 算力

5090
5090D
FP4
1676 / 3352
NA / 2375
FP8
838 / 1676
NA / NA
FP16
419 / 838
NA / NA
BF16
209.5 / 419
NA / NA
TF32
104.8 / 209.5
NA / NA
INT8
838 / 1676
NA / NA
INT4
1676 / 3352
NA / NA

*注:5090D的Tensor Core算力有待考证

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号