发现无需昂贵 GPU 即可运行 DeepSeek 671B 人工智能模型的方法
DeepSeek-R1于2025年1月20日发布,是一个671B参数的专家混合物(MoE)模型,每个令牌有37B活动参数。它专为高级推理而设计,支持 128K 令牌输入,最多可生成 32K 令牌。得益于其 MoE 架构,它在提供顶级性能的同时,使用的资源比传统的密集模型更少。
独立测试独立测试表明,R1 语言模型的性能可与 OpenAI 的 O1 相媲美,使其成为高风险人工智能应用中具有竞争力的替代方案。让我们了解一下本地运行所需的条件.
硬件
本次构建的核心是双 AMD Epyc CPU 和 768GB DDR5 内存,无需昂贵的 GPU。
- 机箱:Enthoo Pro 2 服务器
- 主板技嘉 MZ73-LM0或 MZ73-LM1(有两个 CPU 插槽和 24 个内存插槽)
- CPU: 2x AMD Epyc 9004/9005 (9115 或 9015 可作为更经济实惠的选择)
- 冷却系统Arctic Freezer 4U-SP5
- 内存:24x 32GB DDR5 RDIMM(共计 768GB)
- 存储: 1TB+ NVMe1TB+ NVMe 固态硬盘(用于快速加载 700GB 的模型权重)
- 电源:海盗船 HX1000i(1000 瓦,足够双 CPU 使用)
软件和设置
组装完成后,Linux 和llama.cpphttps://linuxmint-installation-guide.readthedocs.io/en/latest/以运行模型。一个关键的 BIOS 调整是将 NUMA 组设置为 0,这样可以将内存效率提高一倍,从而获得更好的性能。可从下载完整的 700GB DeepSeek-R1 权重。 下载。
性能
这种设置每秒生成 6-8 个令牌--对于完全本地化的高端人工智能模型来说并不差。它完全跳过了 GPU,但这是有意为之。在 GPU 上运行 Q8 量化(高质量)需要 700GB 以上的 VRAM,成本超过 10 万美元。尽管原始功率很大,但整个系统的功耗不到 400 瓦,效率出奇地高。
对于那些希望完全控制前沿人工智能(无云、无限制)的人来说,这将改变游戏规则。它证明了高端人工智能可以在本地以完全开源的方式运行,同时优先考虑数据隐私,最大限度地减少漏洞,并消除对外部系统的依赖。
资料来源
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名