常见GPU算力对比:RTX 4090与4090D的硬件参数与性能解析
创作时间:
作者:
@小白创作中心
常见GPU算力对比:RTX 4090与4090D的硬件参数与性能解析
引用
CSDN
1.
https://blog.csdn.net/qq_45351564/article/details/145413438
NVIDIA GeForce RTX 4090和4090D是目前市场上性能最强的两款显卡,它们基于相同的Ada Lovelace架构,但在核心数量和算力上有所差异。本文将详细介绍这两款显卡的硬件参数和算力表现,帮助读者更好地了解它们的性能特点。
硬件参数
参数 | 4090 | 4090D |
|---|---|---|
核心 | AD102-300 | AD102-250 |
架构 | Ada Lovelace | Ada Lovelace |
SM | 128 | 114 |
CUDA Cores / SM | 128 | 128 |
CUDA Cores / GPU | 16384 | 14592 |
Tensor Cores / SM | 4 (4th Gen) | 4 (4th Gen) |
Tensor Cores / GPU | 512 (4th Gen) | 456 (4th Gen) |
GPU 加速频率 | 2520 MHz | 2520 MHz |
显存 | 24 GB (GDDR6X) | 24 GB (GDDR6X) |
显存位宽 | 384 bit | 384 bit |
显存速率 | 21 Gbps | 21 Gbps |
显存带宽 | 1008 GBps | 1008 GBps |
一缓 | 128 KB (per SM) | 128 KB (per SM) |
二缓 | 72 MB | 72 MB |
TGP | 450 W | 425 W |
制程 | TSMC 4N (5nm) | TSMC 4N (5nm) |
值得注意的是,完整的AD102核心包含12组GPC(图形处理集群),每组GPC包含6组TPC(纹理处理集群),每个TPC中包含两个SM(流式多处理器)单元,因此完整的AD102核心共有144个SM单元。但是,AD102-300只启用了其中的128个SM单元,而AD102-250只启用了114个SM单元。每个SM单元中有128个CUDA计算单元,其中64个CUDA可以计算FP32或INT32,另外64个只能计算INT32。
每个SM单元中有4个Tensor Core,因此AD102-300总共含有512个Tensor Core,AD102-250总共含有456个Tensor Core。支持的数据类型包括FP8、FP16、BF16、TF32、INT8、INT4,但不支持FP64。对于FP16数据,每个Tensor Core每周期可以完成64次FMA(乘加)操作,相当于128个FP16 FLOPs;对于INT8数据,每个Tensor Core每周期能完成128次运算;对于INT4数据,每周期则能完成256次运算。启用稀疏计算(2:4模式)加速后,在神经网络权重中,强制每4个连续元素中至少2个为零,Tensor Core硬件自动跳过零值计算,有效吞吐量翻倍。
算力
CUDA Core 算力
数据类型 | 4090 | 4090D |
|---|---|---|
FP32 | 82.6 TFLOPS | 73.5 TFLOPS |
FP16 | 82.6 TFLOPS | 73.5 TFLOPS |
FP64 | 1.29 TFLOPS | 1.149 TFLOPS |
BF16 | 82.6 TFLOPS | 73.5 TFLOPS |
INT32 | 41.3 TIOPS | 36.8 TIOPS |
Tensor Core 算力
数据类型 | 稠密 | 稀疏 |
|---|---|---|
FP8 | 660.6 TFLOPS | 1321.2 TFLOPS |
FP16 | 330.3 TFLOPS | 660.6 TFLOPS |
BF16 | 165.2 TFLOPS | 330.4 TFLOPS |
TF32 | 82.6 TFLOPS | 165.2 TFLOPS |
INT8 | 660.6 TIOPS | 1321.2 TIOPS |
INT4 | 1321.2 TIOPS | 2642.4 TIOPS |
热门推荐
做好保暖工作还是手脚冰凉?不妨试试这几招→
粘土掺锯末养花安全吗?有无毒性问题?
有机肥堆肥影响的七大因素
营养师在营养干预中的作用
唯一能定居南极的昆虫:南极摇蚊的生存智慧
猫的毛发颜色、疾病与行为的7点奥秘
终结诉讼是什么?一文详解法律程序与实践要点
研究进展 | L-精氨酸与人类健康的探讨分析
案件立案会收到立案通知书吗
R语言如何调用C文件路径
巨人症是什么激素分泌过多的原因
安义:血吸虫病的历史与防治
血吸虫病防治知识十问十答
主动脉夹层瘤怎么办
案例分享:如何基于用户场景,优化产品原型设计?
解析赴美上市企业财务审计报告的重要性
比较IPO和ICO的优点与缺点
苏锡常城际铁路苏州、常州线路大调整,无锡无奈,常熟溧阳赢麻了
提升包装品质与效率:纸箱抗压试验仪在包装行业中的广泛应用
9座机场,将给浙江带来什么样的发展机遇?
宇宙命运三选一:膨胀、崩塌还是永恒?科学家最新观测揭示
驾驶证考试:规则、流程与注意事项
企业如何适应市场与竞争对手变化的关键方法
氮肥怎么使用效果最好?使用氮肥的6大注意事项
项目续签管理规范有哪些
项目续签管理规范有哪些
计提包括哪些
煎中药前,药材到底能不能清洗?医生提醒→
老山檀手串的功效与作用
有理数与无理数的定义与区别解析