问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

5090与5090D GPU深度解析:硬件参数与算力对比

创作时间:
作者:
@小白创作中心

5090与5090D GPU深度解析:硬件参数与算力对比

引用
CSDN
1.
https://blog.csdn.net/qq_45351564/article/details/145422580

本文详细介绍了5090和5090D两款GPU的硬件参数和算力表现。从核心架构到显存规格,再到不同数据类型的算力对比,为读者提供了全面的技术解析。

硬件参数

5090
5090D
核心
GB202-300
GB202-250
架构
Blackwell
Blackwell
SM
170
170
CUDA Cores / SM
128
128
CUDA Cores / GPU
21760
21760
Tensor Cores / SM
4 (5th Gen)
4 (5th Gen)
Tensor Cores / GPU
680 (5th Gen)
680 (5th Gen)
GPU 加速频率
2407 MHz
2407 MHz
显存
32 GB (GDDR7)
32 GB (GDDR7)
显存位宽
512 bit
512 bit
显存速率
28 Gbps
28 Gbps
显存带宽
1792 GBps
1792 GBps
一缓
128 KB (per SM)
128 KB (per SM)
二缓
96 MB
96 MB
TGP
575 W
575 W
制程
TSMC 4N (5nm)
TSMC 4N (5nm)

值得注意的是,完整的GB202核心包含12组GPC,每组GPC包含8组TPC(与4090的AD102相比,AD102是6组),每个TPC包含两个SM单元,因此完整的GB202核心共有192个SM单元。但GB202-300和GB202-250仅启用了其中的170个。每个SM单元中有128个CUDA计算单元,这些CUDA单元都可以计算FP32或INT32(相比之下,4090的AD102中只有64个CUDA可以计算FP32或INT32,另外64个只能计算INT32)。

每个SM单元中有4个Tensor Core,因此GB202-300和GB202-250总共含有680个Tensor Core。支持的数据类型包括FP8、FP16、BF16、TF32、INT8、INT4、FP6、FP4,但不支持FP64。与AD102相比,新增支持FP6和FP4,并采用第二代FP8 Transformer引擎。

算力

1. CUDA Core 算力

5090
5090D
FP32
104.8
104.8
FP16
104.8
104.8
FP64
1.64
1.64
BF16
104.8
104.8
INT32
104.8
104.8

2. Tensor Core 算力

5090
5090D
FP4
1676 / 3352
NA / 2375
FP8
838 / 1676
NA / NA
FP16
419 / 838
NA / NA
BF16
209.5 / 419
NA / NA
TF32
104.8 / 209.5
NA / NA
INT8
838 / 1676
NA / NA
INT4
1676 / 3352
NA / NA

注:5090D的Tensor Core算力有待考证

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号