Notebookcheck Logo

xAI 推出 Grok 3 人工智能,其性能和测试版推理模型均在排行榜上名列前茅

xAI 推出 Grok 3 系列前沿人工智能。(图片来源:xAI)
xAI 推出 Grok 3 系列前沿人工智能。(图片来源:xAI)
最新的 xAI 大型语言模型在基准排行榜上名列前茅,这是因为它们能够在互联网上搜索信息、推理复杂问题,并在 100 万个词组的上下文窗口中处理输入。Grok 3 模型在大多数基准测试中都击败了 OpenAI GPT-4o 和 DeepSeek-V3。
AI Software Launch

埃隆-马斯克(Elon Musk)的 xAI 公司推出了 Grok 3 系列领先的人工智能大型语言模型,这些模型在标准化人工智能基准测试中普遍优于其他人工智能。

Grok 3模型是在公司的Colossus超级计算机集群上训练的,该集群使用了10万个英伟达Hopper Tensor Core GPU。一对标准和迷你非推理模型(Grok 3 测试版和 Grok 3 迷你测试版)以及一对推理模型(Grok 3 测试版(Think)和 Grok 3 迷你测试版(Think))已经发布。

非推理模型的性能普遍优于之前的排行榜冠军人工智能,如 OpenAI GPT-4o 和 DeepSeek-V3。其中一个原因是,它们有一个一百万代币的上下文窗口,允许人工智能使用大量文本。这提高了模型从各种来源合成正确答案的能力。尽管如此,Grok 3 测试版模型回答事实搜索问题的准确率仍低于 50%(SimpleQA 基准),因此人类明天仍有工作要做。

推理模型会逐步思考复杂的提示,让用户看到人工智能的思考过程。这样,这些人工智能就能像专家一样解决问题,解决问题的各个小部分,并将结果结合起来得出正确答案。选择 DeepSearch 代理或搜索选项,Grok 3 就会在互联网上进行广泛而深入的搜索,并使用代码解释器,然后生成报告,总结搜索结果。与其他人工智能相比,Grok 3(Think)模型通常在解决数学问题、回答研究生水平的选择题以及完成编码任务方面表现最佳。

xAI 预计在接下来的几个月里,将在 20 万 GPU 超级计算机集群上继续调整 Grok 3,以提高其性能。Grok 3现已在X和Grok.com上向所有用户开放。免费用户可能会遇到使用限制,而付费用户则可以使用高级功能。

Grok 3 AI 的 Chatbot Arena ELO 分数使其成为世界上表现最出色的人工智能。(图片来源:xAI)
Grok 3 AI 的 Chatbot Arena ELO 分数使其成为世界上表现最出色的人工智能。(图片来源:xAI)
在标准化人工智能基准测试中,Grok 3 测试版和 Grok 3 mini 测试版普遍优于 OpenAI 的 GPT-4o 和 DeepSeek-V3。(图片来源:xAI)
在标准化人工智能基准测试中,Grok 3 测试版和 Grok 3 mini 测试版普遍优于 OpenAI 的 GPT-4o 和 DeepSeek-V3。(图片来源:xAI)
Grok 3 测试版(Think)和 Grok 3 mini 测试版(Think)的表现普遍优于所有其他经过测试的人工智能推理模型。(图片来源:xAI)
Grok 3 测试版(Think)和 Grok 3 mini 测试版(Think)的表现普遍优于所有其他经过测试的人工智能推理模型。(图片来源:xAI)
Please share our article, every link counts!
Mail Logo
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2025 02 > xAI 推出 Grok 3 人工智能,其性能和测试版推理模型均在排行榜上名列前茅
David Chien, 2025-02-21 (Update: 2025-02-21)