常见GPU算力对比：RTX 4090与4090D的硬件参数与性能解析

创作时间:

作者:

@小白创作中心

常见GPU算力对比：RTX 4090与4090D的硬件参数与性能解析

引用

CSDN

https://blog.csdn.net/qq_45351564/article/details/145413438

硬件参数

特性	4090	4090D
核心	AD102-300	AD102-250
架构	Ada Lovelace	Ada Lovelace
SM	128	114
CUDA Cores / SM	128	128
CUDA Cores / GPU	16384	14592
Tensor Cores / SM	4 (4th Gen)	4 (4th Gen)
Tensor Cores / GPU	512 (4th Gen)	456 (4th Gen)
GPU 加速频率	2520 MHz	2520 MHz
显存	24 GB (GDDR6X)	24 GB (GDDR6X)
显存位宽	384 bit	384 bit
显存速率	21 Gbps	21 Gbps
显存带宽	1008 GBps	1008 GBps
一缓	128 KB (per SM)	128 KB (per SM)
二缓	72 MB	72 MB
TGP	450 W	425 W
制程	TSMC 4N (5nm)	TSMC 4N (5nm)

值得注意的是，完整的AD102核心包含12组GPC，每组GPC包含6组TPC，每个TPC中含有两个SM单元，因此完整的AD102核心共有144个SM单元。然而，AD102-300仅启用其中的128个SM单元，而AD102-250则只启用114个。每个SM单元中有128个CUDA计算单元，其中64个CUDA可以计算FP32或INT32，另外64个只能计算INT32。

每个SM单元中有4个Tensor Core，因此AD102-300总共含有512个Tensor Core，AD102-250总共含有456个Tensor Core。支持的数据类型包括FP8、FP16、BF16、TF32、INT8、INT4，但不支持FP64。对于FP16数据，每个Tensor Core每周期可以完成64次FMA（乘加）操作，相当于128个FP16 FLOPs；对于INT8数据，每个Tensor Core每周期能完成128次运算；对于INT4数据，每周期则能完成256次运算。启用稀疏计算（2:4模式）加速后，在神经网络权重中，强制每4个连续元素中至少2个为零，Tensor Core硬件自动跳过零值计算，有效吞吐量翻倍。

算力

CUDA Core 算力

特性	4090	4090D
FP32	82.6	73.5
FP16	82.6	73.5
FP64	1.29	1.149
BF16	82.6	73.5
INT32	41.3	36.8

Tensor Core 算力

特性	4090	4090D
FP8	660.6 / 1321.2	588.4 / 1176.8
FP16	330.3 / 660.6	294.2 / 588.4
BF16	165.2 / 330.4	147.1 / 294.2
TF32	82.6 / 165.2	73.5 / 147.1
INT8	660.6 / 1321.2	588.4 / 1176.8
INT4	1321.2 / 2642.4	1176.8 / 2353.6