常见GPU算力对比：RTX 4090与4090D的硬件参数与性能解析

创作时间:

作者:

@小白创作中心

常见GPU算力对比：RTX 4090与4090D的硬件参数与性能解析

引用

CSDN

https://blog.csdn.net/qq_45351564/article/details/145413438

NVIDIA GeForce RTX 4090和4090D是目前市场上性能最强的两款显卡，它们基于相同的Ada Lovelace架构，但在核心数量和算力上有所差异。本文将详细介绍这两款显卡的硬件参数和算力表现，帮助读者更好地了解它们的性能特点。

硬件参数

参数	4090	4090D
核心	AD102-300	AD102-250
架构	Ada Lovelace	Ada Lovelace
SM	128	114
CUDA Cores / SM	128	128
CUDA Cores / GPU	16384	14592
Tensor Cores / SM	4 (4th Gen)	4 (4th Gen)
Tensor Cores / GPU	512 (4th Gen)	456 (4th Gen)
GPU 加速频率	2520 MHz	2520 MHz
显存	24 GB (GDDR6X)	24 GB (GDDR6X)
显存位宽	384 bit	384 bit
显存速率	21 Gbps	21 Gbps
显存带宽	1008 GBps	1008 GBps
一缓	128 KB (per SM)	128 KB (per SM)
二缓	72 MB	72 MB
TGP	450 W	425 W
制程	TSMC 4N (5nm)	TSMC 4N (5nm)

值得注意的是，完整的AD102核心包含12组GPC（图形处理集群），每组GPC包含6组TPC（纹理处理集群），每个TPC中包含两个SM（流式多处理器）单元，因此完整的AD102核心共有144个SM单元。但是，AD102-300只启用了其中的128个SM单元，而AD102-250只启用了114个SM单元。每个SM单元中有128个CUDA计算单元，其中64个CUDA可以计算FP32或INT32，另外64个只能计算INT32。

每个SM单元中有4个Tensor Core，因此AD102-300总共含有512个Tensor Core，AD102-250总共含有456个Tensor Core。支持的数据类型包括FP8、FP16、BF16、TF32、INT8、INT4，但不支持FP64。对于FP16数据，每个Tensor Core每周期可以完成64次FMA（乘加）操作，相当于128个FP16 FLOPs；对于INT8数据，每个Tensor Core每周期能完成128次运算；对于INT4数据，每周期则能完成256次运算。启用稀疏计算（2:4模式）加速后，在神经网络权重中，强制每4个连续元素中至少2个为零，Tensor Core硬件自动跳过零值计算，有效吞吐量翻倍。

算力

CUDA Core 算力

数据类型	4090	4090D
FP32	82.6 TFLOPS	73.5 TFLOPS
FP16	82.6 TFLOPS	73.5 TFLOPS
FP64	1.29 TFLOPS	1.149 TFLOPS
BF16	82.6 TFLOPS	73.5 TFLOPS
INT32	41.3 TIOPS	36.8 TIOPS

Tensor Core 算力

数据类型	稠密	稀疏
FP8	660.6 TFLOPS	1321.2 TFLOPS
FP16	330.3 TFLOPS	660.6 TFLOPS
BF16	165.2 TFLOPS	330.4 TFLOPS
TF32	82.6 TFLOPS	165.2 TFLOPS
INT8	660.6 TIOPS	1321.2 TIOPS
INT4	1321.2 TIOPS	2642.4 TIOPS