常见GPU算力对比：5090与5090D的技术解析

创作时间:

作者:

@小白创作中心

常见GPU算力对比：5090与5090D的技术解析

引用

CSDN

https://blog.csdn.net/qq_45351564/article/details/145422580

本文详细介绍了5090和5090D两款GPU的硬件参数和算力表现，包括核心架构、CUDA核心数量、显存规格等关键指标，并对比了两款GPU在不同数据类型下的计算能力。

硬件参数

参数	5090	5090D
核心	GB202-300	GB202-250
架构	Blackwell	Blackwell
SM	170	170
CUDA Cores / SM	128	128
CUDA Cores / GPU	21760	21760
Tensor Cores / SM	4 (5th Gen)	4 (5th Gen)
Tensor Cores / GPU	680 (5th Gen)	680 (5th Gen)
GPU 加速频率	2407 MHz	2407 MHz
显存	32 GB (GDDR7)	32 GB (GDDR7)
显存位宽	512 bit	512 bit
显存速率	28 Gbps	28 Gbps
显存带宽	1792 GBps	1792 GBps
一缓	128 KB (per SM)	128 KB (per SM)
二缓	96 MB	96 MB
TGP	575 W	575 W
制程	TSMC 4N (5nm)	TSMC 4N (5nm)

注：完整 GB202 核心有 12 组 GPC，每组 GPC 包含 8 组 TPC（4090 的 AD102 中是 6 组），单个 TPC 中含有两个 SM 单元，因此完整 GB202 核心共有 192 个 SM 单元，但 GB202-300 和 GB202-250 只开启其中的 170 个。每个 SM 单元中有 128 个 CUDA 计算单元，这 128 个 CUDA 都可以计算 FP32 或 INT32（4090 的 AD102 中 64 个 CUDA 可以计算 FP32 或 INT32，另外 64 个只能计算 INT32）。

注：每个 SM 单元中有 4 个 Tensor Core，因此 GB202-300 和 GB202-250 总共含有 680 个 Tensor Core。支持的数据类型有 FP8、FP16、BF16、TF32、INT8、INT4、FP6、FP4，不支持 FP64。和 AD102 相比，新增支持 FP6 和 FP4，且采用第二代 FP8 Transformer 引擎。

算力

1. CUDA Core 算力

数据类型	5090	5090D
FP32	104.8 TFLOPS	104.8 TFLOPS
FP16	104.8 TFLOPS	104.8 TFLOPS
FP64	1.64 TFLOPS	1.64 TFLOPS
BF16	104.8 TFLOPS	104.8 TFLOPS
INT32	104.8 TIOPS	104.8 TIOPS

2. Tensor Core 算力

数据类型	5090	5090D
FP4	1676 / 3352 TFLOPS	NA / 2375 TFLOPS
FP8	838 / 1676 TFLOPS	NA / NA
FP16	419 / 838 TFLOPS	NA / NA
BF16	209.5 / 419 TFLOPS	NA / NA
TF32	104.8 / 209.5 TFLOPS	NA / NA
INT8	838 / 1676 TFLOPS	NA / NA
INT4	1676 / 3352 TFLOPS	NA / NA