Meta 推出最大、最智能、免版税的 Llama 3.1 405B 人工智能

Meta 发布了最智能、最大的 Llama 3.1 405B AI LLM，可免版税使用。(图片来源：人工智能图像，DallE-3）

Meta 推出了最大、最智能、最阉割的 Llama 3.1 405B 人工智能，可免版税使用。这个 750 GB、4050 亿参数的大型语言模型（LLM）是有史以来发布的最大的模型之一，其性能与旗舰竞争对手 Anthropic Claude 3.5 Sonnet 和 OpenAI GPT-4o 不相上下。

David Chien (translated by Ninh Duy), Published 07/26/2024 🇺🇸 🇫🇷 ...

AI Open Source Software Nvidia

Meta 发布了免版税使用的 Llama 3.1 405B 人工智能。这个 750 GB、4050 亿参数的大型语言模型（LLM）是有史以来发布的最大的模型之一，使其能够在扩展的 128K 标记输入窗口中与Anthropic Claude 3.5 Sonnet 等人工智能旗舰产品竞争。和 OpenAI GPT-4o.与付费的闭源竞争对手不同，读者可以在自己的电脑上定制和运行免费的 LLM，这些电脑都配备了极其强大的 Nvidia 图形卡（GPU）。

创建和能源

Meta 利用多达 16,384 个 700W TDP H100 GPU在其 Meta Grand Teton AI 服务器平台上利用多达 16,384 个 700W TDP H100 GPU，以 3.8 x 10^25 FLOPs 的速度在 16.55 万亿个代币（1000 个代币约等于 750 个字）上创建一个 4050 亿参数的模型。在预训练期间，与 GPU 相关的故障导致了 57.3% 的停机时间，其中 30.1% 是由于 GPU 故障造成的。

对文档进行人工智能预训练的时间超过 54 天，用于训练 Llama 3.1 405B 的 GPU 总时长达 3,930 万小时。根据快速估算，训练期间的耗电量超过 11 千兆瓦时，释放的二氧化碳当量为 11,390 吨。

安全与性能

通过使用 Llama Guard 3 对输入和输出文本进行过滤，在网络安全、儿童安全、化学和生物攻击、及时注射等领域进行了广泛的训练，从而获得了比同类人工智能模型更好的安全性能。不过，由于可用于训练的外语文档较少，这意味着 Llama 3.1 更有可能用葡萄牙语或法语回答危险问题，而不是英语。

在大学和研究生水平的人工智能测试中，Llama 3.1 405B 的得分率为 51.1% 至 96.6%，与 Claude 3.5 Sonnet 和 GPT-4o 不相上下。在由人类评分的实际测试中，GPT-4o 比 Llama 提供更好答案的频率高出 52.9%。该模型对 2023 年 12 月这一知识截止日期之外的事情一无所知，但它可以使用Brave Search 在线收集最新信息，使用 Wolfram AlphaGo 解决数学问题。使用Wolfram Alpha 解决数学问题和Python 解释器解决编码问题。.

要求

有兴趣在本地运行 Llama 3.1 405B 的研究人员需要功能非常强大的计算机，并拥有 750 GB 的可用存储空间。运行完整模型需要 8 个英伟达 A100 GPU或类似设备，在 1 TB 内存的系统中提供两个 MP16 节点和 810 GB GPU VRAM 用于推理。Meta 发布的较小版本所需资源更少，但性能更差：Llama 3.1 8B 和 70B。Llama 3.1 8B 只需要 16 GB 的 GPU VRAM，因此可以在配备良好的 Nvidia 4090系统（如亚马逊上的这台笔记本电脑）上运行，大致达到 GPT-3.5 Turbo 的水平。只想使用顶级人工智能的读者可以安装一个应用程序，如 Anthropic'sAndroid或 iOS 应用程序.

与同类人工智能模型相比，Llama 3.1 405B 的反应明显更安全（VR 率低）。(图片来源：Meta Llama 3.1 论文）

使用 Llama Guard 过滤输入和输出文本后，Llama 3.1 405B 在 13 个类别中的危险反应显著减少。(图片来源：Meta Llama 3.1 论文）

在常见的人工智能基准测试中，Llama 3.1 405B 的表现与顶级竞争对手 Anthropic Claude 3.5 Sonnet 和 OpenAI GPT-4o 相似。(图片来源：Meta Llama 3.1 论文）

Llama 3.1 405B 在大学水平的标准化测试中表现出色。(图片来源：Meta Llama 3.1 论文）

资料来源

Meta AI 博文,Meta Llama,Meta Llama 3.1 paper,Meta Llama FAQ,Meta Llama 许可证,Meta Llama 下载文档,Meta Llama 下载页面,Meta Llama Github,Hugging Face Llama 博客

▶ ▼ 新闻稿

大型语言模型

介绍 Llama 3.1：我们迄今为止能力最强的模型

2024 年 7 月 23 日

15 分钟阅读

收获：

Meta 致力于开放人工智能。请阅读马克-扎克伯格（Mark Zuckerberg）的信，信中详细阐述了为什么开源对开发者、Meta 和世界都有好处。

我们的最新模型将上下文长度扩展到 128K，增加了对八种语言的支持，并包括 Llama 3.1 405B--首个前沿级开源人工智能模型，为所有人带来开放式智能。

Llama 3.1 405B 具有无与伦比的灵活性、控制性和最先进的功能，可与最优秀的闭源模型相媲美，堪称同类产品中的佼佼者。我们的新模型将使社区能够开启新的工作流程，如合成数据生成和模型提炼。

我们将通过提供更多与模型协同工作的组件（包括参考系统），继续将 Llama 打造成一个系统。我们希望为开发人员提供工具，让他们能够创建自己的定制代理和新型代理行为。我们将通过新的安全和保障工具（包括 Llama Guard 3 和 Prompt Guard）来加强这一点，以帮助开发者负责任地进行开发。我们还将就 Llama Stack API 征求意见，我们希望这个标准接口能让第三方项目更轻松地利用 Llama 模型。

生态系统已经准备就绪，有超过 25 家合作伙伴，包括 AWS、NVIDIA、Databricks、Groq、Dell、Azure、Google Cloud 和 Snowflake，将在第一天提供服务。

在美国的 WhatsApp 和 meta.ai 上提出具有挑战性的数学或编码问题，试用 Llama 3.1 405B。

推荐阅读

以负责任的态度扩展拉玛生态系统

拉玛生态系统：过去、现在和未来

迄今为止，开源大型语言模型在功能和性能方面大多落后于封闭式模型。现在，我们迎来了一个由开源引领的新时代。我们将公开发布 Meta Llama 3.1 405B，我们相信它是世界上规模最大、功能最强的开放式基础模型。迄今为止，所有 Llama 版本的总下载量已超过 3 亿次，我们才刚刚起步。

介绍 Llama 3.1

Llama 3.1 405B 是首个可公开获取的模型，在常识、可转向性、数学、工具使用和多语言翻译等方面具有最先进的能力，可与顶级人工智能模型相媲美。随着 405B 模型的发布，我们已准备好为创新注入超级动力--带来前所未有的发展和探索机会。我们相信，最新一代的 Llama 将点燃新的应用和建模范式，包括生成合成数据以改进和训练更小的模型，以及模型提炼--这是开源软件从未达到过的能力。

作为最新版本的一部分，我们推出了 8B 和 70B 模型的升级版本。这些模型支持多种语言，上下文长度大大增加，达到 128K，使用最先进的工具，整体推理能力更强。这使我们的最新模型能够支持高级用例，如长文本摘要、多语言对话代理和编码助手。我们还修改了许可证，允许开发人员使用 Llama 模型（包括 405B 模型）的输出结果来改进其他模型。秉承我们对开源的承诺，从今天起，我们将在 llama.meta.com 和 Hugging Face 上向社区提供这些模型的下载，并可在我们广泛的合作伙伴平台生态系统上立即进行开发。

模型评估

在此次发布中，我们评估了 150 多个基准数据集的性能，这些数据集涵盖了多种语言。此外，我们还进行了广泛的人工评估，将 Llama 3.1 与现实世界中的竞争模型进行了比较。实验评估结果表明，在 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 等一系列任务中，我们的旗舰模型都能与领先的基础模型相媲美。此外，我们的小型模型与参数数量相似的封闭式和开放式模型相比也具有竞争力。

模型架构

作为我们迄今为止最大的模型，在超过 15 万亿个代币上训练 Llama 3.1 405B 是一项重大挑战。为了在合理的时间内实现如此规模的训练运行并取得这样的结果，我们对整个训练堆栈进行了大幅优化，并将模型训练推送到超过 16000 个 H100 GPU 上，使 405B 成为第一个在如此规模下训练的 Llama 模型。

为了解决这个问题，我们在设计时选择了保持模型开发过程的可扩展性和直接性。

为了最大限度地提高训练稳定性，我们选择了标准的仅解码器变压器模型架构，并稍作调整，而不是采用专家混合模型。

我们采用了迭代后训练程序，每一轮都使用监督微调和直接偏好优化。这使我们能够为每一轮训练创建最高质量的合成数据，并提高每种能力的性能。

与以前版本的 Llama 相比，我们改进了前后训练所用数据的数量和质量。这些改进包括为预训练数据开发了更细致的预处理和整理管道，为后训练数据开发了更严格的质量保证和过滤方法。

正如语言模型的缩放规律所预期的那样，我们的新旗舰模型优于使用相同程序训练的较小模型。我们还利用 405B 参数模型提高了小型模型的后期训练质量。

为了支持 405B 规模模型的大规模生产推理，我们将模型从 16 位（BF16）量化为 8 位（FP8）数值，有效降低了所需的计算要求，使模型可以在单个服务器节点内运行。

指令和聊天微调

通过 Llama 3.1 405B，我们努力提高模型在响应用户指令时的帮助性、质量和详细的指令跟踪能力，同时确保高度的安全性。我们面临的最大挑战是支持更多的功能、128K 上下文窗口和更大的模型尺寸。

在后期训练中，我们通过在预训练模型的基础上进行多轮对齐来生成最终的聊天模型。每一轮都包括监督微调 (SFT)、拒绝采样 (RS) 和直接偏好优化 (DPO)。我们使用合成数据生成技术来生成绝大多数 SFT 示例，并进行多次迭代，以在所有功能中生成质量越来越高的合成数据。此外，我们还投资于多种数据处理技术，以过滤最高质量的合成数据。这使我们能够在各种能力之间扩展微调数据的数量。

我们会仔细平衡数据，以在所有功能中生成高质量的模型。例如，即使扩展到 128K 上下文，我们也能在短上下文基准上保持模型的质量。同样，即使我们增加了安全缓解措施，我们的模型也能继续提供最有帮助的答案。

Llama 系统

Llama 模型一直是作为整体系统的一部分来工作的，它可以协调多个组件，包括调用外部工具。我们的愿景是超越基础模型，让开发人员能够访问更广泛的系统，使他们能够灵活地设计和创建符合其愿景的定制产品。这一想法始于去年，当时我们首次引入了核心 LLM 之外的组件。

我们一直在努力以负责任的方式开发模型层以外的人工智能，并帮助其他人也这样做，作为这一努力的一部分，我们将发布一个完整的参考系统，其中包括几个示例应用，并包含新的组件，如多语种安全模型 Llama Guard 3 和提示注入过滤器 Prompt Guard。这些示例应用程序都是开源的，社区可以在此基础上进行开发。

在这一 Llama 系统愿景中，组件的实施仍然是零散的。因此，我们开始与业界、初创公司和更广泛的社区合作，帮助更好地定义这些组件的接口。为了支持这项工作，我们在 GitHub 上发布了我们称之为 "Llama Stack "的意见征集。Llama Stack 是一套标准化的意见接口，用于构建典型工具链组件（微调、合成数据生成）和代理应用程序。我们希望这些接口能在整个生态系统中得到采用，这将有助于提高互操作性。

我们欢迎反馈意见和改进建议的方法。我们很高兴能发展围绕 Llama 的生态系统，降低开发人员和平台提供商的门槛。

开放推动创新

与封闭的模型不同，Llama 模型权重可供下载。开发人员可以完全根据自己的需求和应用定制模型，在新的数据集上进行训练，并进行额外的微调。这使得更广泛的开发者社区和全世界都能更充分地发挥生成式人工智能的威力。开发人员可以根据自己的应用进行完全定制，并在任何环境中运行，包括预置环境、云环境，甚至是笔记本电脑上的本地环境，而无需与 Meta 共享数据。

虽然很多人可能会认为封闭模型更具成本效益，但根据人工智能分析公司（Artificial Analysis）的测试，Llama 模型的单位令牌成本在业内最低。正如马克-扎克伯格（Mark Zuckerberg）所指出的那样，开源将确保全世界更多的人能够享受到人工智能带来的好处和机会，确保权力不会集中在少数人手中，确保这项技术能够在全社会范围内得到更均衡、更安全的部署。这就是为什么我们要继续采取措施，让开放式人工智能成为行业标准。

我们已经看到社区利用过去的 Llama 模型创造出了令人惊叹的成果，其中包括利用 Llama 构建并部署在 WhatsApp 和 Messenger 中的人工智能学习伙伴、为医疗领域量身定制的旨在帮助指导临床决策的 LLM，以及巴西的一家医疗保健非营利初创公司，该公司让医疗保健系统能够以数据安全的方式更轻松地组织和交流患者的住院信息。我们迫不及待地想看到他们利用我们的最新模型，借助开源的力量打造出怎样的产品。

使用 Llama 3.1 405B 构建系统

对于普通开发人员来说，使用 405B 这种规模的模型具有挑战性。虽然它是一个非常强大的模型，但我们认识到它需要大量的计算资源和专业技术。我们与社区进行了交流，意识到生成式人工智能的开发不仅仅局限于提示模型。我们希望让每个人都能充分利用 405B，包括

实时和批量推理

监督微调

针对特定应用评估模型

持续预训练

检索-增强生成 (RAG)

函数调用

合成数据生成

这正是 Llama 生态系统可以提供帮助的地方。第一天，开发人员就可以利用 405B 模型的所有高级功能，并立即开始构建。开发人员还可以探索先进的工作流程，如易于使用的合成数据生成，遵循模型提炼的全套指导，并通过 AWS、NVIDIA 和 Databricks 等合作伙伴的解决方案实现无缝 RAG。此外，Groq 还为云部署优化了低延迟推理，Dell 也为内部部署系统实现了类似的优化。

我们与 vLLM、TensorRT 和 PyTorch 等关键社区项目合作，从第一天起就提供支持，确保社区为生产部署做好准备。

我们希望，我们发布的 405B 也能刺激更广泛社区的创新，使推理和微调这种规模的模型变得更容易，并推动下一波模型提炼研究。

立即试用 Llama 3.1 模型集

我们迫不及待地想看到社区如何利用这项工作。利用多语言性和更长的上下文长度来构建有益的新体验的潜力无穷。有了 Llama Stack 和新的安全工具，我们期待继续以负责任的态度与开源社区共同建设。在发布模型之前，我们会通过多项措施来识别、评估和降低潜在风险，包括通过红队和安全微调进行部署前风险发现演练。例如，我们与外部和内部专家一起进行广泛的 "红队 "活动，对模型进行压力测试，并找出可能使用模型的意外方式。(如需了解我们如何负责任地扩展 Llama 3.1 模型系列，请参阅本博文）。

虽然这是我们目前最大的模型，但我们相信未来仍有很多新领域需要探索，包括更多设备友好型尺寸、更多模式以及在代理平台层的更多投资。

这项工作得到了人工智能社区合作伙伴的大力支持。我们在此表示感谢（按字母顺序排列）：埃森哲、亚马逊网络服务、AMD、Anyscale、CloudFlare、Databricks、戴尔、德勤、Fireworks.ai、谷歌云、Groq、Hugging Face、IBM WatsonX、Infosys、英特尔、Kaggle、Microsoft Azure、英伟达、OctoAI、甲骨文云、普华永道、Replicate、Sarvam AI、Scale.AI、SNCF、Snowflake、Together AI，以及加州大学伯克利分校天空计算实验室开发的 vLLM 项目。