问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

常见GPU算力对比:5090与5090D的技术解析

创作时间:
作者:
@小白创作中心

常见GPU算力对比:5090与5090D的技术解析

引用
CSDN
1.
https://blog.csdn.net/qq_45351564/article/details/145422580

本文详细介绍了5090和5090D两款GPU的硬件参数和算力表现,包括核心架构、CUDA核心数量、显存规格等关键指标,并对比了两款GPU在不同数据类型下的计算能力。

硬件参数

参数
5090
5090D
核心
GB202-300
GB202-250
架构
Blackwell
Blackwell
SM
170
170
CUDA Cores / SM
128
128
CUDA Cores / GPU
21760
21760
Tensor Cores / SM
4 (5th Gen)
4 (5th Gen)
Tensor Cores / GPU
680 (5th Gen)
680 (5th Gen)
GPU 加速频率
2407 MHz
2407 MHz
显存
32 GB (GDDR7)
32 GB (GDDR7)
显存位宽
512 bit
512 bit
显存速率
28 Gbps
28 Gbps
显存带宽
1792 GBps
1792 GBps
一缓
128 KB (per SM)
128 KB (per SM)
二缓
96 MB
96 MB
TGP
575 W
575 W
制程
TSMC 4N (5nm)
TSMC 4N (5nm)

注:完整 GB202 核心有 12 组 GPC,每组 GPC 包含 8 组 TPC(4090 的 AD102 中是 6 组),单个 TPC 中含有两个 SM 单元,因此完整 GB202 核心共有 192 个 SM 单元,但 GB202-300 和 GB202-250 只开启其中的 170 个。每个 SM 单元中有 128 个 CUDA 计算单元,这 128 个 CUDA 都可以计算 FP32 或 INT32(4090 的 AD102 中 64 个 CUDA 可以计算 FP32 或 INT32,另外 64 个只能计算 INT32)。

注:每个 SM 单元中有 4 个 Tensor Core,因此 GB202-300 和 GB202-250 总共含有 680 个 Tensor Core。支持的数据类型有 FP8、FP16、BF16、TF32、INT8、INT4、FP6、FP4,不支持 FP64。和 AD102 相比,新增支持 FP6 和 FP4,且采用第二代 FP8 Transformer 引擎。

算力

1. CUDA Core 算力

数据类型
5090
5090D
FP32
104.8 TFLOPS
104.8 TFLOPS
FP16
104.8 TFLOPS
104.8 TFLOPS
FP64
1.64 TFLOPS
1.64 TFLOPS
BF16
104.8 TFLOPS
104.8 TFLOPS
INT32
104.8 TIOPS
104.8 TIOPS

2. Tensor Core 算力

数据类型
5090
5090D
FP4
1676 / 3352 TFLOPS
NA / 2375 TFLOPS
FP8
838 / 1676 TFLOPS
NA / NA
FP16
419 / 838 TFLOPS
NA / NA
BF16
209.5 / 419 TFLOPS
NA / NA
TF32
104.8 / 209.5 TFLOPS
NA / NA
INT8
838 / 1676 TFLOPS
NA / NA
INT4
1676 / 3352 TFLOPS
NA / NA

注:5090D 的 Tensor Core 算力有待考证

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号