问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AMD RDNA 4架构深度解析:性能全面提升,AI支持增强

创作时间:
作者:
@小白创作中心

AMD RDNA 4架构深度解析:性能全面提升,AI支持增强

引用
网易
1.
https://www.163.com/dy/article/JPI8G6O60511CPMT.html

AMD终于公布了其下一代RDNA 4 GPU架构的完整架构细节,该架构是专为Radeon RX 9000系列构建的。与上一代RDNA 3相比,RDNA 4带来了多项重大改进,包括光栅化性能提升近2倍、光线追踪性能提升近2.5倍等。本文将深入解析RDNA 4架构的核心技术细节。

AMD对RDNA 4带来了以下新变化:

  • 针对高端游戏工作负载进行了高度优化
  • 提高光栅化和计算效率
  • 光线追踪性能的重大改进
  • 全面的高性能ML支持
  • 增强所有工作负载的带宽效率
  • 为游戏玩家和创作者提供多媒体改进

RDNA 4的新核心IP

RDNA 4 GPU架构的核心构建块是计算引擎。

新的计算单元配备双SIMD32矢量单元和增强矩阵运算,其中包括:

  • 2x-16b和4x-8b/4b密集矩阵速率
  • 4:2结构化稀疏性,实现+2倍速率
  • 新的8b浮点数据类型
  • 带转置的矩阵负载

RDNA 4还带来了新的着色改进,RDNA 4着色可以动态分配寄存器。它们可以在需要时从池中请求寄存器。它们可以在完成这项工作后将寄存器释放回池中,并且软件会在分配等待时间时管理条件。这可以更好地处理内存延迟,同时共享核心的整体效率可以显著提高。

在标量单元方面,您可以获得新的Float32操作,同时调度更新包括拆分和命名屏障、加速溢出/填充操作和改进的指令预取。

第三代光线追踪单元

RDNA 4带来了第三代光线追踪单元,提供双倍的光线交叉率、改进的BVH压缩、加速的光线遍历和着色以及定向边界框。这些新的光线追踪核心提供了芯片上最大的性能提升之一。每个光线加速器也得到了改进:

  • 2x盒子和三角形交叉单元
  • 硬件实例转换
  • 改进RT栈管理
  • BVH8和改进的节点压缩
  • 定向边界框

这些新的光线追踪升级还大大降低了BVH的内存要求。平均而言,得益于8宽设计,RDNA 4可将内存要求降低至RDNA 3的60%以下。但这并不是全部。AMD还实施了一种新的解决方案,通过对每个框进行旋转编码来更紧密地绑定所包含的几何图形,从而降低遍历成本,同时将框与几何图形对齐可以帮助消除大部分空间,并且射线方向在进入框时会进行转换以匹配编码的旋转。这可以减少遍历步骤,通过消除遍历热点来降低峰值成本,并将遍历性能提高10%。

这些变化的结果是,与RDNA 3相比,RDNA 4 CU在相同的时钟速率和带宽下提供了2倍的光线遍历性能。

媒体引擎和显示功能

媒体引擎采用双宽度设计,配备更新的编码/解码引擎,AVC、H.264、H.265质量提升高达25%,AV1吞吐量翻倍,并针对低延迟流媒体进行了优化。最后,还有更新的Radiance显示引擎,它现在支持DisplayPort 2.1a、HDMI 2.1b输出和更新的缩放和锐化引擎。

对于AI,AMD正在利用其第三代矩阵加速引擎,该引擎具有改进的张量密集率、新的8b浮点数据类型、结构化稀疏性支持和基于ML的升级或超分辨率。与RDNA 3相比,RDNA 4 CU在FP16的标准场景中将图像生成性能提高了2倍(SDXL 1.5)。

RDNA 4框图(顶部Navi 48芯片)

接下来,我们转到代表完整Navi 48 GPU SKU的RDNA 4框图。RDNA 4 GPU采用台积电4nm工艺节点制造,具有多达539亿个晶体管,SKU尺寸为356.5mm²。该芯片还完全符合PCIe Gen5标准。

Navi 48 GPU(Radeon RX 9070 XT)由四个着色器引擎组成,每个引擎都包含多个“双计算单元”,而不是WGP。每个双计算单元都有两个计算单元,每个着色器引擎总共有8个DCU或16个CU。芯片本身总共有32个DCU或64个CU,总共有4096个流处理器或着色器单元。

每个DCU都有两个光线加速器引擎,每个着色器引擎总共有16个RA,总共有64个RA,而每个DCU还包含4个矩阵加速引擎,每个着色器引擎总共有32个MA,总共有128个MA。每个着色器引擎还包含四个RB+块、一个光栅化器引擎和一个Prim Unit块。芯片外围有四个第三代无限缓存部分和四个4x16位内存控制器。

L2缓存位于GPU的正中间,其中还包括两个Geometry处理器、两个ACE单元以及HWS和DMA各一个。该芯片使用Infinity Fabric连接。

升级的媒体和显示功能

媒体引擎通过以下方式提供增强的游戏流媒体和录制功能:

  • H.264低延迟编码质量提升25%
  • HEVC编码质量提升11%
  • B帧提高了AV1编码效率
  • 720p编码性能提升高达30%
  • 针对FFMPEG、OBS和Handbrake进行了优化
  • VCN低功耗视频播放(AV1和VP9性能提升50%)

显示体验也得到了改善,增强的FreeSync电源优化模式可在大多数双显示器配置中提供更低的空闲功率,硬件翻转队列支持可将视频帧调度卸载到GPU并节省CPU功率以进行视频播放,而Radeon图像锐化2可提供高质量的图像和场景,并通过单个切换在所有API上工作。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号