问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

常见GPU算力对比:RTX 4090与4090D的硬件参数与性能解析

创作时间:
作者:
@小白创作中心

常见GPU算力对比:RTX 4090与4090D的硬件参数与性能解析

引用
CSDN
1.
https://blog.csdn.net/qq_45351564/article/details/145413438

硬件参数

特性
4090
4090D
核心
AD102-300
AD102-250
架构
Ada Lovelace
Ada Lovelace
SM
128
114
CUDA Cores / SM
128
128
CUDA Cores / GPU
16384
14592
Tensor Cores / SM
4 (4th Gen)
4 (4th Gen)
Tensor Cores / GPU
512 (4th Gen)
456 (4th Gen)
GPU 加速频率
2520 MHz
2520 MHz
显存
24 GB (GDDR6X)
24 GB (GDDR6X)
显存位宽
384 bit
384 bit
显存速率
21 Gbps
21 Gbps
显存带宽
1008 GBps
1008 GBps
一缓
128 KB (per SM)
128 KB (per SM)
二缓
72 MB
72 MB
TGP
450 W
425 W
制程
TSMC 4N (5nm)
TSMC 4N (5nm)


值得注意的是,完整的AD102核心包含12组GPC,每组GPC包含6组TPC,每个TPC中含有两个SM单元,因此完整的AD102核心共有144个SM单元。然而,AD102-300仅启用其中的128个SM单元,而AD102-250则只启用114个。每个SM单元中有128个CUDA计算单元,其中64个CUDA可以计算FP32或INT32,另外64个只能计算INT32。

每个SM单元中有4个Tensor Core,因此AD102-300总共含有512个Tensor Core,AD102-250总共含有456个Tensor Core。支持的数据类型包括FP8、FP16、BF16、TF32、INT8、INT4,但不支持FP64。对于FP16数据,每个Tensor Core每周期可以完成64次FMA(乘加)操作,相当于128个FP16 FLOPs;对于INT8数据,每个Tensor Core每周期能完成128次运算;对于INT4数据,每周期则能完成256次运算。启用稀疏计算(2:4模式)加速后,在神经网络权重中,强制每4个连续元素中至少2个为零,Tensor Core硬件自动跳过零值计算,有效吞吐量翻倍。

算力

CUDA Core 算力

特性
4090
4090D
FP32
82.6
73.5
FP16
82.6
73.5
FP64
1.29
1.149
BF16
82.6
73.5
INT32
41.3
36.8

Tensor Core 算力

特性
4090
4090D
FP8
660.6 / 1321.2
588.4 / 1176.8
FP16
330.3 / 660.6
294.2 / 588.4
BF16
165.2 / 330.4
147.1 / 294.2
TF32
82.6 / 165.2
73.5 / 147.1
INT8
660.6 / 1321.2
588.4 / 1176.8
INT4
1321.2 / 2642.4
1176.8 / 2353.6
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号