常见GPU算力对比:RTX 4090与4090D的硬件参数与性能解析
创作时间:
作者:
@小白创作中心
常见GPU算力对比:RTX 4090与4090D的硬件参数与性能解析
引用
CSDN
1.
https://blog.csdn.net/qq_45351564/article/details/145413438
NVIDIA GeForce RTX 4090和4090D是目前市场上性能最强的两款显卡,它们基于相同的Ada Lovelace架构,但在核心数量和算力上有所差异。本文将详细介绍这两款显卡的硬件参数和算力表现,帮助读者更好地了解它们的性能特点。
硬件参数
参数 | 4090 | 4090D |
---|---|---|
核心 | AD102-300 | AD102-250 |
架构 | Ada Lovelace | Ada Lovelace |
SM | 128 | 114 |
CUDA Cores / SM | 128 | 128 |
CUDA Cores / GPU | 16384 | 14592 |
Tensor Cores / SM | 4 (4th Gen) | 4 (4th Gen) |
Tensor Cores / GPU | 512 (4th Gen) | 456 (4th Gen) |
GPU 加速频率 | 2520 MHz | 2520 MHz |
显存 | 24 GB (GDDR6X) | 24 GB (GDDR6X) |
显存位宽 | 384 bit | 384 bit |
显存速率 | 21 Gbps | 21 Gbps |
显存带宽 | 1008 GBps | 1008 GBps |
一缓 | 128 KB (per SM) | 128 KB (per SM) |
二缓 | 72 MB | 72 MB |
TGP | 450 W | 425 W |
制程 | TSMC 4N (5nm) | TSMC 4N (5nm) |
值得注意的是,完整的AD102核心包含12组GPC(图形处理集群),每组GPC包含6组TPC(纹理处理集群),每个TPC中包含两个SM(流式多处理器)单元,因此完整的AD102核心共有144个SM单元。但是,AD102-300只启用了其中的128个SM单元,而AD102-250只启用了114个SM单元。每个SM单元中有128个CUDA计算单元,其中64个CUDA可以计算FP32或INT32,另外64个只能计算INT32。
每个SM单元中有4个Tensor Core,因此AD102-300总共含有512个Tensor Core,AD102-250总共含有456个Tensor Core。支持的数据类型包括FP8、FP16、BF16、TF32、INT8、INT4,但不支持FP64。对于FP16数据,每个Tensor Core每周期可以完成64次FMA(乘加)操作,相当于128个FP16 FLOPs;对于INT8数据,每个Tensor Core每周期能完成128次运算;对于INT4数据,每周期则能完成256次运算。启用稀疏计算(2:4模式)加速后,在神经网络权重中,强制每4个连续元素中至少2个为零,Tensor Core硬件自动跳过零值计算,有效吞吐量翻倍。
算力
CUDA Core 算力
数据类型 | 4090 | 4090D |
---|---|---|
FP32 | 82.6 TFLOPS | 73.5 TFLOPS |
FP16 | 82.6 TFLOPS | 73.5 TFLOPS |
FP64 | 1.29 TFLOPS | 1.149 TFLOPS |
BF16 | 82.6 TFLOPS | 73.5 TFLOPS |
INT32 | 41.3 TIOPS | 36.8 TIOPS |
Tensor Core 算力
数据类型 | 稠密 | 稀疏 |
---|---|---|
FP8 | 660.6 TFLOPS | 1321.2 TFLOPS |
FP16 | 330.3 TFLOPS | 660.6 TFLOPS |
BF16 | 165.2 TFLOPS | 330.4 TFLOPS |
TF32 | 82.6 TFLOPS | 165.2 TFLOPS |
INT8 | 660.6 TIOPS | 1321.2 TIOPS |
INT4 | 1321.2 TIOPS | 2642.4 TIOPS |
热门推荐
【储蓄方法】如何储蓄最有效?精选10大无痛快速储蓄攻略
电源里的漏电流指标如何理解?
如何判断植发医院是否正规
车架号查询车辆事故记录的5种实用方法
五行学说:中国古代宇宙观的智慧
深入解析REST的读音、概念与应用场景
【R语言MCMC数据分析】:克服参数估计挑战,提升模型验证效能
电诈主从犯,量刑相差多少合理?
洗衣粉的主要成分
基于STM32的多功能信号发生器设计与实现
如何了解ETF基金的费用构成?这种费用构成对投资有何影响?
《哪吒之魔童闹海》:老大叫金吒,老二叫木吒,老三为啥叫哪吒
如何应对紧急资金需求以优化财务管理?这种应对方法对财务规划有何帮助?
电气工程制图完全指南:原理图、布置图、接线图和二次电路图的绘制要点
岐黄名医:夏无且
中国首个国际注册中药复方临床研究,证实参白颗粒显著降低结直肠腺瘤术后复发率
离婚后经济条件改善,如何争取子女抚养权?
日本大米价格飙涨,市场现象与影响分析
日本人气隐形眼镜清洗液推荐!类型与使用方法超详细解析!
年轻人迷上沉浸式戏剧:挥金、入戏
文科生最吃香的十大专业介绍(2024年高考参考)
安史之乱为何打了八年?大唐盛世背后 河北的『反叛基因』从何而来
填写身份证号的安全指南
怎么买显示器更划算
膝关节骨性关节炎的13种运动疗法,你一定要知道
火锅嫩牛肉腌制方法大全(腌牛肉,怎么腌制才嫩?)
足球城市日记:毕尔巴鄂,其足球队带有浓厚的巴斯克元素
金门战役我军战败原因深度剖析
最新有哪些国际上关于转基因生物标识的进展?
冬游长三角,美食、温泉、生态之旅样样精彩