问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

常见GPU算力对比:RTX 4090与4090D的硬件参数与性能解析

创作时间:
作者:
@小白创作中心

常见GPU算力对比:RTX 4090与4090D的硬件参数与性能解析

引用
CSDN
1.
https://blog.csdn.net/qq_45351564/article/details/145413438

NVIDIA GeForce RTX 4090和4090D是目前市场上性能最强的两款显卡,它们基于相同的Ada Lovelace架构,但在核心数量和算力上有所差异。本文将详细介绍这两款显卡的硬件参数和算力表现,帮助读者更好地了解它们的性能特点。

硬件参数

参数
4090
4090D
核心
AD102-300
AD102-250
架构
Ada Lovelace
Ada Lovelace
SM
128
114
CUDA Cores / SM
128
128
CUDA Cores / GPU
16384
14592
Tensor Cores / SM
4 (4th Gen)
4 (4th Gen)
Tensor Cores / GPU
512 (4th Gen)
456 (4th Gen)
GPU 加速频率
2520 MHz
2520 MHz
显存
24 GB (GDDR6X)
24 GB (GDDR6X)
显存位宽
384 bit
384 bit
显存速率
21 Gbps
21 Gbps
显存带宽
1008 GBps
1008 GBps
一缓
128 KB (per SM)
128 KB (per SM)
二缓
72 MB
72 MB
TGP
450 W
425 W
制程
TSMC 4N (5nm)
TSMC 4N (5nm)


值得注意的是,完整的AD102核心包含12组GPC(图形处理集群),每组GPC包含6组TPC(纹理处理集群),每个TPC中包含两个SM(流式多处理器)单元,因此完整的AD102核心共有144个SM单元。但是,AD102-300只启用了其中的128个SM单元,而AD102-250只启用了114个SM单元。每个SM单元中有128个CUDA计算单元,其中64个CUDA可以计算FP32或INT32,另外64个只能计算INT32。

每个SM单元中有4个Tensor Core,因此AD102-300总共含有512个Tensor Core,AD102-250总共含有456个Tensor Core。支持的数据类型包括FP8、FP16、BF16、TF32、INT8、INT4,但不支持FP64。对于FP16数据,每个Tensor Core每周期可以完成64次FMA(乘加)操作,相当于128个FP16 FLOPs;对于INT8数据,每个Tensor Core每周期能完成128次运算;对于INT4数据,每周期则能完成256次运算。启用稀疏计算(2:4模式)加速后,在神经网络权重中,强制每4个连续元素中至少2个为零,Tensor Core硬件自动跳过零值计算,有效吞吐量翻倍。

算力

CUDA Core 算力

数据类型
4090
4090D
FP32
82.6 TFLOPS
73.5 TFLOPS
FP16
82.6 TFLOPS
73.5 TFLOPS
FP64
1.29 TFLOPS
1.149 TFLOPS
BF16
82.6 TFLOPS
73.5 TFLOPS
INT32
41.3 TIOPS
36.8 TIOPS

Tensor Core 算力

数据类型
稠密
稀疏
FP8
660.6 TFLOPS
1321.2 TFLOPS
FP16
330.3 TFLOPS
660.6 TFLOPS
BF16
165.2 TFLOPS
330.4 TFLOPS
TF32
82.6 TFLOPS
165.2 TFLOPS
INT8
660.6 TIOPS
1321.2 TIOPS
INT4
1321.2 TIOPS
2642.4 TIOPS
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号