Notebookcheck Logo

xAI在????上发布Grok-2和Grok-2 mini测试版人工智能LLM,本月晚些时候将推出企业API

xAI 在 X 上发布了 Grok-2 和 Grok-2 mini 测试版人工智能 LLM,本月晚些时候将推出企业 API。(图片来源:xAI)
xAI 在 X 上发布了 Grok-2 和 Grok-2 mini 测试版人工智能 LLM,本月晚些时候将推出企业 API。(图片来源:xAI)
xAI在X平台上发布了Grok-2和Grok-2 mini测试版人工智能LLM,企业API将于本月晚些时候发布。在 LMSYS 排行榜上,Grok-2 是四种最强大的大型语言模型之一,在一系列标准化人工智能基准测试中,Grok-2 是前六名之一。
AI Software Social Media Open Source Launch

xAI 在 X 平台上发布了 Grok-2 和 Grok-2 mini 测试版人工智能大型语言模型 (LLM),本月晚些时候将推出企业 API。Grok-2 的图像生成能力也得到了扩展,集成了 Black Forest Labs 的 FLUX.1 AI。第二个版本在 2023 年 11 月首次发布近 9 个月后推出,并作为测试版立即提供给 Premium 和 Premium+ X 用户。Grok-2 LLM 的 API 访问权限将于本月晚些时候提供。

xAI 是一家专注于开发人工智能的初创公司,由 X(前 Twitter)的所有者埃隆-马斯克(Elon Musk)发起。该公司于 2023 年发布了首款 LLM,并将其集成到 X 服务中,以提供人工智能功能。Grok-1 的设计不像 OpenAI 的 GPT-4o 等竞争 LLM 那样醒目、审查严格或沉闷。这些偏见影响了当今所有用于聊天机器人服务的人工智能 LLM 的反应,导致种族偏见甚至荒谬的答案。值得注意的是,Grok-1 已作为免费 296 GB 下载发布。Grok-1是为数不多的以开源软件形式发布的高性能人工乐虎国际手机版下载软件之一。

在过去的一年中,LLM 的性能有了长足的进步。最新发布的 OpenAI GPT-4oAnthropic Claude 3.5 Sonnet和 Anthropic Claude 3.5 Sonnet 等最新版本,不仅知识面更广,性能也更高。喜欢使用人工智能的读者可以戴上 人工智能眼镜(亚马逊上的这种),同时规划一天的工作 人工智能仿人机器人接管家务的那一天。

根据xAI的内部测试,Grok-2和Grok-2 mini beta在全球所有LLM中都名列前茅。不过,在LMSYS聊天机器人排行榜上,Grok-2是四款功能最强大的LLM之一,在一系列标准化人工智能基准测试中也名列前六位。

具体来说,OpenAI GPT-4o 的八月版本在排行榜上超过了 Grok-2 的早期版本,而 Anthropic Claude 3.5 Sonnet 的未知版本则落后于 Grok-2。在八项标准化人工智能基准测试中,较早的五月版 GPT-4o 八次中有四次击败了 Grok-2,而 Claude 3.5 Sonnet 八次中有六次击败了 Grok-2。

现在,Grok-2 和 Grok-2 mini 测试版已集成到 X 中,供高级和高级+账户使用。(图片来源:xAI)
现在,Grok-2 和 Grok-2 mini 测试版已集成到 X 中,供高级和高级+账户使用。(图片来源:xAI)
Grok 可以回答有关各种主题和照片的问题。(图片来源:xAI)
Grok 可以回答有关各种主题和照片的问题。(图片来源:xAI)
根据 LMSys 排行榜,Grok-2 是全球表现最佳的人工智能 LLM 之一。(图片来源:xAI)
根据 LMSys 排行榜,Grok-2 是全球表现最佳的人工智能 LLM 之一。(图片来源:xAI)
在八项标准人工智能基准测试中,Grok-2 和 Grok-2 mini 是世界上最好的六种人工智能 LLM 之一。(图片来源:xAI)
在八项标准人工智能基准测试中,Grok-2 和 Grok-2 mini 是世界上最好的六种人工智能 LLM 之一。(图片来源:xAI)
来自 Black Forest Labs 的生成图像人工智能 Flux.1 已集成到 Grok-2 中,可根据文本提示创建图像。(图片来源:黑森林实验室)
来自 Black Forest Labs 的生成图像人工智能 Flux.1 已集成到 Grok-2 中,可根据文本提示创建图像。(图片来源:黑森林实验室)

2024 年 8 月 13 日
Grok-2 Beta 版

Grok-2 是我们的前沿语言模型,具有最先进的推理能力。该版本包括 Grok 家族的两个成员:Grok-2 和 Grok-2 mini。

我们很高兴能发布 Grok-2 的早期预览版,这是我们在前一模型 Grok-1.5 的基础上向前迈出的重要一步,具有聊天、编码和推理等前沿功能。与此同时,我们还推出了 Grok-2 mini,它是 Grok-2 的一个小而强大的兄弟版本。Grok-2 的早期版本已在 LMSYS 排行榜上进行了测试,名称为 "sus-column-r"。

Grok-2 和 Grok-2 mini 目前正在 X 平台上进行测试,本月晚些时候我们还将通过企业 API 提供这两种模型。
Grok-2 语言模型和聊天功能

我们在 LMSYS 聊天机器人竞技场上推出了名为 "sus-column-r "的 Grok-2 早期版本,这是一种流行的竞争性语言模型基准。在 LMSYS 排行榜上,它的 Elo 总分超过了 Claude 和 GPT-4。

在内部,我们采用了类似的流程来评估我们的模型。我们的人工智能导师在各种任务中与我们的模型互动,这些任务反映了现实世界中与 Grok 的互动。在每次互动过程中,人工智能导师都会看到 Grok 生成的两种回答。他们会根据我们的指导原则中列出的具体标准选择更优的回答。我们重点评估了模型在两个关键领域的能力:遵循指令和提供准确的事实信息。Grok-2 在利用检索内容进行推理以及工具使用能力方面都有显著提高,如正确识别缺失信息、通过事件序列进行推理以及剔除无关帖子。
基准

我们通过一系列学术基准对 Grok-2 模型进行了评估,这些基准包括推理、阅读理解、数学、科学和编码。与我们之前的 Grok-1.5 模型相比,Grok-2 和 Grok-2 mini 均有显著改进。它们在研究生水平的科学知识(GPQA)、常识(MMLU、MMLU-Pro)和数学竞赛问题(MATH)等方面的表现都可与其他前沿模型相媲美。此外,Grok-2 在基于视觉的任务中表现出色,在视觉数学推理 (MathVista) 和基于文档的问题解答 (DocVQA) 中提供了最先进的性能。

基准 Grok-1.5 Grok-2 mini‡ Grok-2‡ GPT-4 Turbo* Claude 3 Opus† Gemini Pro 1.5 Llama 3 405B GPT-4o* Claude 3.5 Sonnet†
GPQA
35.9% 51.0% 56.0% 48.0% 50.4% 46.2% 51.1% 53.6% 59.6%
MMLU
81.3% 86.2% 87.5% 86.5% 85.7% 85.9% 88.6% 88.7% 88.3%
MMLU-Pro
51.0% 72.0% 75.5% 63.7% 68.5% 69.0% 73.3% 72.6% 76.1%
MATH§
50.6% 73.0% 76.1% 72.6% 60.1% 67.7% 73.8% 76.6% 71.1%
HumanEval¶
74.1% 85.7% 88.4% 87.1% 84.9% 71.9% 89.0% 90.2% 92.0%
MMMU
53.6% 63.2% 66.1% 63.1% 59.4% 62.2% 64.5% 69.1% 68.3%
MathVista
52.8% 68.1% 69.0% 58.1% 50.5% 63.9% - 63.8% 67.7%
DocVQA
85.6% 93.2% 93.6% 87.2% 89.3% 93.1% 92.2% 92.8% 95.2%

* GPT-4-Turbo 和 GPT-4o 分数来自 2024 年 5 月发布的版本。
† Claude 3 Opus 和 Claude 3.5 Sonnet 分数来自 2024 年 6 月发布的版本。
‡ Grok-2 MMLU、MMLU-Pro、MMMU 和 MathVista 使用 0-shot CoT 进行评估。
§ 对于 MATH,我们提供了 maj@1 结果。

通过 X 平台上的实时信息体验 Grok

在过去的几个月中,我们一直在不断改进 X 平台上的 Grok。

Black Forest Labs 徽标。

X Premium 和 Premium+ 用户将有机会使用两种新型号:Grok-2 和 Grok-2 mini。Grok-2 是我们最先进的人工智能助手,具有先进的文本和视觉理解能力,整合了来自 X 平台的实时信息,可通过 X 应用程序中的 Grok 标签访问。Grok-2 mini 是我们的小巧但功能强大的机型,在速度和回答质量之间取得了平衡。与上一代产品相比,Grok-2 更直观、更易操控、用途更广泛,无论您是寻求答案、协作写作还是解决编码任务,它都能满足您的各种需求。如果您是 Premium 或 Premium+ 用户,请确保更新到最新版本的 X;应用程序,以便测试 Grok-2。
使用企业 API 与 Grok 一起构建

本月晚些时候,我们还将通过新的企业 API 平台向开发者发布 Grok-2 和 Grok-2 mini。我们即将推出的 API 基于全新的定制技术栈构建,允许多区域推理部署,实现全球低延迟访问。我们提供增强的安全功能,如强制性多因素身份验证(如使用 Yubikey、Apple TouchID 或 TOTP)、丰富的流量统计和高级计费分析(包括详细的数据导出)。我们还提供管理 API,使您可以将团队、用户和计费管理集成到现有的内部工具和服务中。加入我们的时事通讯,即可在本月晚些时候发布时收到通知。
接下来会有什么?

Grok-2 和 Grok-2 mini 正在 X 上推出。我们对它们在一系列人工智能驱动功能中的应用感到非常兴奋,例如增强搜索功能、深入了解 X 帖子以及改进回复功能,所有这些都由 Grok 支持。很快,我们将发布多模态理解的预览版,作为 X 和 API 上 Grok 体验的核心部分。

自 2023 年 11 月发布 Grok-1 以来,xAI 在人才密度最高的小团队的推动下,一直以非凡的速度前进。我们推出了 Grok-2,使我们站在了人工智能发展的最前沿。我们的重点是利用新的计算集群推进核心推理能力。未来几个月,我们还将分享更多的发展成果。我们正在寻找有志之士加入我们专注于为人类未来打造最具影响力创新的小型团队。点击这里申请我们的职位。

Please share our article, every link counts!
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2024 08 > xAI在????上发布Grok-2和Grok-2 mini测试版人工智能LLM,本月晚些时候将推出企业API
David Chien, 2024-08-16 (Update: 2024-08-16)