Notebookcheck Logo

AMD RDNA 4 架构深度剖析:64 CPU 单片机设计,全面提升计算、媒体编解码、光线追踪和人工智能能力

AMD RDNA 4 专为高端游戏、光线追踪和 ML 工作负载而打造。(图片来源:AMD)
AMD RDNA 4 专为高端游戏、光线追踪和 ML 工作负载而打造。(图片来源:AMD)
AMD 谈到了将于今天正式发布的 RDNA 4 的几个关键方面。RDNA 4搭载在新的Radeon RX 9070 XT和RX 9070图形处理器中,支持新的光线追踪和路径追踪功能、基于ML的FSR 4升频以及新的视频编解码功能,可实现下一代游戏和内容创作体验。
Launch AMD Radeon GPU Gaming Desktop

AMD 提供了 偷窥在 2025 年的 CES 上,AMD 提供了 RDNA 4 的预览版,并确认了 Radeon RX 9070 XT 和 RX 9070 的到来,但在实际的主题演讲中,AMD 甚至没有对新架构发表任何评论。

不过,该公司表示,有关 RDNA 4 和新 Radeon GPU 的更多信息将很快公布,现在我们就来看看。

今天,AMD 揭开了 RDNA 4 和全新 Radeon RX 9070 系列 GPU 的神秘面纱。RX 9070 系列将于 3 月 6 日在零售店正式发售,性能评测将于前一天发布。

AMD RDNA 4:回归单片机设计

根据 AMD 的说法,RDNA 4 旨在满足更繁重的游戏工作负载,重点是提高光栅性能和效率。

此外,RDNA 4 还对光线追踪管道进行了常规改进,并重新关注人工智能功能和媒体编码/解码。

计算单元性能从 RDNA 2 提升到 RDNA 4(图片来源:AMD)
计算单元性能从 RDNA 2 提升到 RDNA 4(图片来源:AMD)

RDNA 3 从 Ryzen 处理器中汲取灵感,为 GPU 引入了芯片组设计。在这里,我们看到了内存缓存芯片(MCD)与图形计算芯片(GCD)的分离。

然而,在 RDNA 4 中,AMD 又回到了传统的单片设计。组件基本相同,但没有 MCD-GCD 互连,因为内存和计算现在由 Infinity Cache 直接连接。

RDNA 4 GPU(本例中为 Radeon RX 9070 XT)有四个着色器引擎,每个引擎有八个工作组处理器(WGP)。每个 WGP 由 8 个计算单元(CU)组成,共计 64 个 CU。

AMD 表示,新的计算单元现在比以往任何时候都更强大,能够改进光线追踪,将峰值吞吐量提高一倍,支持最新的矩阵加速功能和更广泛的数字格式支持。

RDNA 4 CU 的新功能,也是我们在 Nvidia Ampere 架构的张量内核中看到的功能,就是支持结构稀疏性,从而加快矩阵运算速度,尤其是在许多权重为零的情况下。

我们还可以看到内存子系统的改进。二级缓存从 RDNA 3 的 6 MB 增加到 RDNA 4 的 8 MB,无限缓存升级到第三代,但从 RDNA 3 的 96 MB 降到 64 MB。

AMD 在新一代产品中继续使用 GDDR6 显存。RX 9070 XT 和 RX 9070 都提供了 384 位 16 GB GDDR6 显存接口,时钟频率为 20 Gbps,有效带宽为 640 GB/s。这比 RDNA 3 提供的 960 GB/s 带宽要低得多,但 AMD 表示,RDNA 4 的显存规格是经过精心选择的,以支持当前和未来的游戏。

RDNA 4 架构。(图片来源:AMD)
RDNA 4 架构。(图片来源:AMD)
RDNA 3 架构对比。(图片来源:AMD)
RDNA 3 架构对比。(图片来源:AMD)

改进媒体引擎和硬件翻转计量支持

视频编码是 RDNA 3 的主要缺陷之一,AMD 承诺将在这方面做出重大改进。该公司承诺在 H.264 和 AV1 编码方面做出重大改进,并在相同数据量的情况下减少阻塞伪影。

在视频解码方面也有改进,在解码 AV1 和 VP9 等格式时,功耗降低,性能提高。

现在,Radiance 显示引擎在双显示器 FreeSync 配置中的功耗大大降低。此外,Windows 显示驱动程序模型 (WDDM) 3.0 还新增了对视频播放硬件翻转队列的支持。

这将帧调度卸载到 GPU,从而释放 CPU 资源。Nvidia Blackwell GPU 中的多帧生成 (MFG) 技术也依赖于硬件翻转计量。

RDNA 4:媒体引擎改进。(图片来源:AMD)
RDNA 4:媒体引擎改进。(图片来源:AMD)
Radiance 显示引擎现在支持硬件翻转测光。(图片来源:AMD)
Radiance 显示引擎现在支持硬件翻转测光。(图片来源:AMD)

了解 RDNA 4 计算单元

首先,RDNA 4 CU 的结构与我们在 RDNA 3 中看到的并无太大不同。

WMMA(波形矩阵乘法累加)操作得到了增强,以满足新硬件的要求。刻度单元得到升级,可以处理 Float32 操作。调度器可以将大型计算工作负载拆分为拆分和命名的障碍进行处理。

AMD 表示,RDNA 4 是为满足开发人员在当今游戏中使用的新渲染技术而构建的。虽然升频技术一直很流行,但有效的路径追踪需要将 ML 加速作为渲染过程本身的一部分,而不是事后才考虑。

RDNA 4:计算引擎。(图片来源:AMD)
RDNA 4:计算引擎。(图片来源:AMD)
ML 现已成为渲染流程核心的一部分。(图片来源:AMD)
ML 现已成为渲染流程核心的一部分。(图片来源:AMD)

RDNA 4 中的射线加速器

RDNA 4 在 RX 9070 XT 中提供 64 个第 3 代光线加速器。RDNA 4 中的射线加速器结构与 RDNA 3 中的类似,但包括一个额外的交汇引擎,可提供 2 倍数量的射线盒和射线三角形单元。

此外,还有一个专用的硬件光线变换器,可减少使用着色器指令完成工作的需要,从而最大限度地减少光线遍历开销。每个双 CU 中的 128 KB 内存可帮助保存光线堆栈,实现高效的推送和排序操作。

RDNA 4 引入了定向边界框 (OBB) 概念,将 BVH 边界框与几何图形对齐,从而最大限度地减少了光线在框内空白处的假阳性交互。AMD 表示,这种方法可以将光线遍历性能提高 10%。

这次的新功能还包括支持宽松的无序内存请求,从而有效减少了因错过较早进入高级缓存而产生的波形的等待时间。这不仅提高了光线追踪性能,还改善了其他工作负载。

在 RDNA 4 中,着色器可以动态分配寄存器,从而在飞行中容纳更多的波形,并改善内存延迟。

RDNA 4射线加速器的结构。(图片来源:AMD)
RDNA 4射线加速器的结构。(图片来源:AMD)
RDNA 4 引入了 OBB(图片来源:AMD)
RDNA 4 引入了 OBB(图片来源:AMD)
RDNA 4 允许对波形请求流进行更宽松的排序。(图片来源:AMD)
RDNA 4 允许对波形请求流进行更宽松的排序。(图片来源:AMD)
RDNA 4 光线加速器的光线遍历性能是 RDNA 3 的 2 倍(图片来源:AMD)
RDNA 4 光线加速器的光线遍历性能是 RDNA 3 的 2 倍(图片来源:AMD)
RDNA 4 动态着色器寄存器分配。(图片来源:AMD)
RDNA 4 动态着色器寄存器分配。(图片来源:AMD)
 

使用 RDNA 进行路径跟踪 4

AMD 显卡在光线追踪方面的表现一般,因此即使是顶级的 RDNA 3 显卡也无法实现路径追踪。RDNA 4 支持神经弧度缓存和新的神经超采样和去噪模型,旨在改变这种状况。

AMD 还没有为支持路径追踪的游戏提供确切的性能数据,但我们在评测这些显卡时应该会有所了解。

RDNA 4 增强了对游戏中路径追踪的支持。(图片来源:AMD)
RDNA 4 增强了对游戏中路径追踪的支持。(图片来源:AMD)
步骤 1:路径追踪从每个像素 1 个样本开始。(图片来源:AMD)
步骤 1:路径追踪从每个像素 1 个样本开始。(图片来源:AMD)
第二步:通过网格采样和神经辐射缓存来逼近场景光线。(图片来源:AMD)
第二步:通过网格采样和神经辐射缓存来逼近场景光线。(图片来源:AMD)
步骤 3:恢复直接光照和全局光照。(图片来源:AMD)
步骤 3:恢复直接光照和全局光照。(图片来源:AMD)
步骤 4:神经超采样和去噪。(图片来源:AMD)
步骤 4:神经超采样和去噪。(图片来源:AMD)
 

基于 Radeon 和 Instinct 的人工智能功能

AMD 表示,RDNA 4 具有用于 ML 加速的专用数学流水线,侧重于使用更窄的数据类型实现高性能。RDNA 4 的新功能是支持 FP8 和 BF8,以实现高性能、高精度推理。

在演示 SDXL 1.5 图像生成时,AMD 展示了基于 RDNA 4 的 Radeon RX 9070 XT 与基于 RDNA 3 的 RX 7900 XT 相比,每个 CU 的 FP16 性能提高了一倍。

FSR 4 是在 AMD GPU 上训练的端到端流水线,它充分利用了 RDNA 4 的全新人工智能功能。FSR 4 使用 FP8,以优化带宽、性能和功耗的使用。

AMD 显示,FSR 4 与帧插值和 Radeon Anti-Lag 结合使用时,每秒帧数可提高 3.7 倍,同时还能保持较高的图像质量。

RDNA 4 为 ML 提供专用数学管道(图片来源:AMD)
RDNA 4 为 ML 提供专用数学管道(图片来源:AMD)
每个 CU 的 FP16 性能是 RDNA 3 的 2 倍(图片来源:AMD)
每个 CU 的 FP16 性能是 RDNA 3 的 2 倍(图片来源:AMD)
FSR 4 利用了 RDNA 4 的 FP8 功能。(图片来源:AMD)
FSR 4 利用了 RDNA 4 的 FP8 功能。(图片来源:AMD)
使用 FSR 4 和帧插值,4K 下的帧数大幅提升。(图片来源:AMD)
使用 FSR 4 和帧插值,4K 下的帧数大幅提升。(图片来源:AMD)

资料来源

AMD 新闻简报

Please share our article, every link counts!
Mail Logo
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2025 02 > AMD RDNA 4 架构深度剖析:64 CPU 单片机设计,全面提升计算、媒体编解码、光线追踪和人工智能能力
Vaidyanathan Subramaniam, 2025-02-28 (Update: 2025-02-28)