Notebookcheck Logo

Nvidia GeForce RTX 5090 背离 RTX 3090 Ti 和 RTX 4090 旗舰版传统,放弃专业工作负载的 VRAM ECC

您不再能在 RTX 5090 Blackwell GPU 上切换 ECC 状态
您不再能在 RTX 5090 Blackwell GPU 上切换 ECC 状态
令人奇怪的是,Nvidia 在 RTX 5090 中取消了通过驱动程序切换 VRAM ECC 状态的选项。RTX 3090 Ti 和 RTX 4090 等显卡允许通过驱动程序打开 ECC 状态,以提高专业工作负载的内存可靠性,尽管这些显卡使用的是 "软 ECC",而不是专用的片上 ECC 内存芯片。
Desktop GPU Review Snippet

自 Ampere 时代以来,Nvidia 已将其旗舰产品 泰坦显卡,90 系列产品主要面向专业游戏玩家。

该系列 GeForce RTX 5090的 GB202 GPU 在硬件方面比 RTX 4090的 AD102 和 RTX 3090 TiGA102 GPU 相比,RTX 5090 的 GB202 GPU

虽然 RTX 3090 Ti 和 RTX 4090 都提供了在驱动程序中切换 VRAM ECC 状态的选项,但令人奇怪的是,RTX 5090 却没有这个选项。

究竟什么是 ECC 内存?

ECC 是纠错码的缩写,是一种能使内存自我纠错的技术。如果在数据传输过程中出现位翻转,或在内存单元卸载和补充电荷时数据中出现错误,就会产生内存错误。

自我纠错是由专门的第九内存芯片完成的,该芯片检查 RAM 模块上其他八个芯片之间的奇偶校验(称为片上 ECC),或者在内存控制器一级完成(DRAM ECC)。

消费类 DDR5 系统内存支持 ECC,但并非完全支持。默认情况下,DDR5 内存可检测多位错误,但只能通过内置数据检查纠正单位错误。

由于 DDR5 将 64 位内存拆分为两个 32 位子通道的基本方式,DDR5-ECC 内存采用 72 位 (32+4) EC4 或 80 位 (32+8) EC8 模块。

大多数消费类应用很少需要 ECC 内存。如果您对这个术语不确定,那么您可能并不需要 ECC 内存。

不过,ECC 内存在关键任务和机器学习应用中至关重要,因为在这些应用中,数据完整性必须在整个链条中得到维护。

早在 1999 年,Google 就意识到了这一点 ,当时由于内存损坏,吝啬使用 ECC 内存极大地影响了搜索引擎的性能。

GDDR6X 上的 EDR 可降低 VRAM 超频时崩溃的可能性。(图片来源:Nvidia)
GDDR6X 上的 EDR 可降低 VRAM 超频时崩溃的可能性。(图片来源:Nvidia)

所有采用 GDDR5 和 GDDR6/6X VRAM 的 GPU 都有一种检测内存错误的方法,称为错误检测代码 (EDC)。

Nvidia GPU 将此功能称为错误检测和重放 (EDR),这是一种在执行循环冗余检查 (CRC) 后请求内存控制器重新传输位的方法。

EDR 有助于在 VRAM 超频时最大限度地减少像素伪影,但可能会稍微影响性能。

RTX 4090 和 RTX 5090 上的 ECC VRAM

虽然没有被广泛讨论,但在 NvidiaGeForce RTX 3090 TiRTX 4090桌面 GPU 的一个显著特点是能够通过驱动程序在 ECC 和非 ECC 内存状态之间切换。

然而,新的 RTX 5090 却没有这项功能。

RTX 4090 的 ECC 状态切换
RTX 4090 的 ECC 状态切换
RTX 5090 没有切换 ECC 状态的选项
RTX 5090 没有切换 ECC 状态的选项

启用 ECC 对性能的影响

RTX 3090 Ti 和 RTX 4090 实现了一种称为 "软 ECC "的功能。这种方法不涉及用于保持奇偶校验的独立芯片;相反,启用该功能会分配一部分 VRAM,使其发挥类似于片上 ECC 模块的功能。

因此,可用的 VRAM 总容量和内存速度都会降低。就 RTX 4090 而言,可用 VRAM 从 24 GB 减少到 22.5 GB,其中 1.5 GB 用于 ECC 功能。

1.为 ECC 分配了 5 GB VRAM
1.为 ECC 分配了 5 GB VRAM
这也反映在任务管理器中
这也反映在任务管理器中

切换 ECC 状态对性能的影响如下所示。在 RTX 4090 上激活 ECC 后,3DMark Speed Way 分数降低了 6.4%,而Cyberpunk 2077 2.21 Phantom Liberty的平均帧数降低了约 5%。

性能受影响的程度因工作负载而异。

RTX 4090 的 3DMark 速度之道
RTX 4090 的 3DMark 速度之道
启用 ECC 时分数下降
启用 ECC 时分数下降
赛博朋克 2077》2.21 4K RT Ultra(无 DLSS/FG)在 RTX 4090 上的表现
赛博朋克 2077》2.21 4K RT Ultra(无 DLSS/FG)在 RTX 4090 上的表现
开启 ECC 时性能略有下降
开启 ECC 时性能略有下降

RTX 5090 的 GDDR7 VRAM 正式符合片上 ECC 规范

随着 GDDR7 的推出,JEDEC 将片上 ECC 作为 VRAM 规范的一部分,并考虑到更高的内存密度会增加出错的可能性。GDDR7 采用了带有透明协议的片上 ECC,该协议可将遇到的错误类型通知内存控制器。

据 JEDEC 称,GDDR7 能够 100% 纠正 1 位错误,100% 检测到 2 位错误,但对于罕见的 3 位错误,检测率略有下降,仅为 99.3%。

此外,官方规范还包括命令地址奇偶校验与命令阻塞(CAPARBLK),以进一步提高命令地址总线的可靠性。

GDDR7 VRAM 上的片上 ECC 概述。(转载自 JEDEC 文件 JESD239A)
GDDR7 VRAM 上的片上 ECC 概述。(转载自 JEDEC 文件 JESD239A)

不过,尚不清楚 Blackwell 的内存控制器是否默认使用这种片上 ECC 功能。

RTX 5090 的 512 位 GDDR7 内存在快速 28 Gbps 时钟下的额定带宽为 1.792 TB/s,这有可能导致传输错误。此外,Nvidia 将 RTX 5090 推向人工智能工作流,在训练大型数据集时可以受益于 ECC。

尽管如此,Nvidia 的架构白皮书只提到了对 "用于可靠性、可用性和可维护性(RAS)的增强循环冗余校验(CRC)"的支持,这与 ECC 并不相同。

虽然可以肯定的是,Nvidia 将为传闻中的 Blackwell 工作站 GPU 启用 GDDR7 的片上 ECC 功能。不过,ECC 状态切换功能是否会通过未来的驱动程序或 VBIOS 更新应用到消费级 RTX 5090 上还有待观察。

资料来源

拥有

Please share our article, every link counts!
Mail Logo
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2025 02 > Nvidia GeForce RTX 5090 背离 RTX 3090 Ti 和 RTX 4090 旗舰版传统,放弃专业工作负载的 VRAM ECC
Vaidyanathan Subramaniam, 2025-02-13 (Update: 2025-02-14)