常见GPU算力对比：5090与5090D的技术参数详解

创作时间:

作者:

@小白创作中心

常见GPU算力对比：5090与5090D的技术参数详解

引用

CSDN

https://blog.csdn.net/qq_45351564/article/details/145422580

本文详细介绍了两款GPU（5090和5090D）的硬件参数和算力情况，内容包括核心架构、CUDA核心数量、Tensor核心数量、显存规格、算力等详细技术参数。

硬件参数

	5090	5090D
核心	GB202-300	GB202-250
架构	Blackwell	Blackwell
SM	170	170
CUDA Cores / SM	128	128
CUDA Cores / GPU	21760	21760
Tensor Cores / SM	4 (5th Gen)	4 (5th Gen)
Tensor Cores / GPU	680 (5th Gen)	680 (5th Gen)
GPU 加速频率	2407 MHz	2407 MHz
显存	32 GB (GDDR7)	32 GB (GDDR7)
显存位宽	512 bit	512 bit
显存速率	28 Gbps	28 Gbps
显存带宽	1792 GBps	1792 GBps
一缓	128 KB (per SM)	128 KB (per SM)
二缓	96 MB	96 MB
TGP	575 W	575 W
制程	TSMC 4N (5nm)	TSMC 4N (5nm)

值得注意的是，完整的GB202核心包含12组GPC，每组GPC包含8组TPC（与4090的AD102相比，AD102是6组），每个TPC包含两个SM单元，因此完整的GB202核心共有192个SM单元，但GB202-300和GB202-250仅启用其中的170个。每个SM单元中有128个CUDA计算单元，这些CUDA单元都可以计算FP32或INT32（相比之下，4090的AD102中64个CUDA可以计算FP32或INT32，另外64个只能计算INT32）。

每个SM单元中有4个Tensor Core，因此GB202-300和GB202-250总共含有680个Tensor Core。支持的数据类型包括FP8、FP16、BF16、TF32、INT8、INT4、FP6、FP4，不支持FP64。与AD102相比，新增支持FP6和FP4，并采用第二代FP8 Transformer引擎。

算力

CUDA Core 算力

	5090	5090D
FP32	104.8	104.8
FP16	104.8	104.8
FP64	1.64	1.64
BF16	104.8	104.8
INT32	104.8	104.8

Tensor Core 算力

	5090	5090D
FP4	1676 / 3352	NA / 2375
FP8	838 / 1676	NA / NA
FP16	419 / 838	NA / NA
BF16	209.5 / 419	NA / NA
TF32	104.8 / 209.5	NA / NA
INT8	838 / 1676	NA / NA
INT4	1676 / 3352	NA / NA