AMD 提供了 偷窥在 2025 年的 CES 上,AMD 提供了 RDNA 4 的预览版,并确认了 Radeon RX 9070 XT 和 RX 9070 的到来,但在实际的主题演讲中,AMD 甚至没有对新架构发表任何评论。
不过,该公司表示,有关 RDNA 4 和新 Radeon GPU 的更多信息将很快公布,现在我们就来看看。
今天,AMD 揭开了 RDNA 4 和全新 Radeon RX 9070 系列 GPU 的神秘面纱。RX 9070 系列将于 3 月 6 日在零售店正式发售,性能评测将于前一天发布。
AMD RDNA 4:回归单片机设计
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名
RDNA 3 从 Ryzen 处理器中汲取灵感,为 GPU 引入了芯片组设计。在这里,我们看到了内存缓存芯片(MCD)与图形计算芯片(GCD)的分离。
然而,在 RDNA 4 中,AMD 又回到了传统的单片设计。组件基本相同,但没有 MCD-GCD 互连,因为内存和计算现在由 Infinity Cache 直接连接。
RDNA 4 GPU(本例中为 Radeon RX 9070 XT)有四个着色器引擎,每个引擎有八个工作组处理器(WGP)。每个 WGP 由 8 个计算单元(CU)组成,共计 64 个 CU。
AMD 表示,新的计算单元现在比以往任何时候都更强大,能够改进光线追踪,将峰值吞吐量提高一倍,支持最新的矩阵加速功能和更广泛的数字格式支持。
RDNA 4 CU 的新功能,也是我们在 Nvidia Ampere 架构的张量内核中看到的功能,就是支持结构稀疏性,从而加快矩阵运算速度,尤其是在许多权重为零的情况下。
我们还可以看到内存子系统的改进。二级缓存从 RDNA 3 的 6 MB 增加到 RDNA 4 的 8 MB,无限缓存升级到第三代,但从 RDNA 3 的 96 MB 降到 64 MB。
AMD 在新一代产品中继续使用 GDDR6 显存。RX 9070 XT 和 RX 9070 都提供了 384 位 16 GB GDDR6 显存接口,时钟频率为 20 Gbps,有效带宽为 640 GB/s。这比 RDNA 3 提供的 960 GB/s 带宽要低得多,但 AMD 表示,RDNA 4 的显存规格是经过精心选择的,以支持当前和未来的游戏。
改进媒体引擎和硬件翻转计量支持
视频编码是 RDNA 3 的主要缺陷之一,AMD 承诺将在这方面做出重大改进。该公司承诺在 H.264 和 AV1 编码方面做出重大改进,并在相同数据量的情况下减少阻塞伪影。
在视频解码方面也有改进,在解码 AV1 和 VP9 等格式时,功耗降低,性能提高。
现在,Radiance 显示引擎在双显示器 FreeSync 配置中的功耗大大降低。此外,Windows 显示驱动程序模型 (WDDM) 3.0 还新增了对视频播放硬件翻转队列的支持。
这将帧调度卸载到 GPU,从而释放 CPU 资源。Nvidia Blackwell GPU 中的多帧生成 (MFG) 技术也依赖于硬件翻转计量。
了解 RDNA 4 计算单元
RDNA 4 中的射线加速器
RDNA 4 在 RX 9070 XT 中提供 64 个第 3 代光线加速器。RDNA 4 中的射线加速器结构与 RDNA 3 中的类似,但包括一个额外的交汇引擎,可提供 2 倍数量的射线盒和射线三角形单元。
此外,还有一个专用的硬件光线变换器,可减少使用着色器指令完成工作的需要,从而最大限度地减少光线遍历开销。每个双 CU 中的 128 KB 内存可帮助保存光线堆栈,实现高效的推送和排序操作。
RDNA 4 引入了定向边界框 (OBB) 概念,将 BVH 边界框与几何图形对齐,从而最大限度地减少了光线在框内空白处的假阳性交互。AMD 表示,这种方法可以将光线遍历性能提高 10%。
这次的新功能还包括支持宽松的无序内存请求,从而有效减少了因错过较早进入高级缓存而产生的波形的等待时间。这不仅提高了光线追踪性能,还改善了其他工作负载。
在 RDNA 4 中,着色器可以动态分配寄存器,从而在飞行中容纳更多的波形,并改善内存延迟。
使用 RDNA 进行路径跟踪 4
基于 Radeon 和 Instinct 的人工智能功能
AMD 表示,RDNA 4 具有用于 ML 加速的专用数学流水线,侧重于使用更窄的数据类型实现高性能。RDNA 4 的新功能是支持 FP8 和 BF8,以实现高性能、高精度推理。
在演示 SDXL 1.5 图像生成时,AMD 展示了基于 RDNA 4 的 Radeon RX 9070 XT 与基于 RDNA 3 的 RX 7900 XT 相比,每个 CU 的 FP16 性能提高了一倍。
FSR 4 是在 AMD GPU 上训练的端到端流水线,它充分利用了 RDNA 4 的全新人工智能功能。FSR 4 使用 FP8,以优化带宽、性能和功耗的使用。
AMD 显示,FSR 4 与帧插值和 Radeon Anti-Lag 结合使用时,每秒帧数可提高 3.7 倍,同时还能保持较高的图像质量。
资料来源
AMD 新闻简报