xAI 推出 Grok 3 人工智能，其性能和测试版推理模型均在排行榜上名列前茅

xAI 推出 Grok 3 系列前沿人工智能。(图片来源：xAI）

最新的 xAI 大型语言模型在基准排行榜上名列前茅，这是因为它们能够在互联网上搜索信息、推理复杂问题，并在 100 万个词组的上下文窗口中处理输入。Grok 3 模型在大多数基准测试中都击败了 OpenAI GPT-4o 和 DeepSeek-V3。

David Chien (translated by Ninh Duy), Published 02/21/2025 🇺🇸 🇩🇪 ...

AI Software Launch

埃隆-马斯克（Elon Musk）的 xAI 公司推出了 Grok 3 系列领先的人工智能大型语言模型，这些模型在标准化人工智能基准测试中普遍优于其他人工智能。

Grok 3模型是在公司的Colossus超级计算机集群上训练的，该集群使用了10万个英伟达Hopper Tensor Core GPU。一对标准和迷你非推理模型（Grok 3 测试版和 Grok 3 迷你测试版）以及一对推理模型（Grok 3 测试版（Think）和 Grok 3 迷你测试版（Think））已经发布。

非推理模型的性能普遍优于之前的排行榜冠军人工智能，如 OpenAI GPT-4o 和 DeepSeek-V3。其中一个原因是，它们有一个一百万代币的上下文窗口，允许人工智能使用大量文本。这提高了模型从各种来源合成正确答案的能力。尽管如此，Grok 3 测试版模型回答事实搜索问题的准确率仍低于 50%（SimpleQA 基准），因此人类明天仍有工作要做。

推理模型会逐步思考复杂的提示，让用户看到人工智能的思考过程。这样，这些人工智能就能像专家一样解决问题，解决问题的各个小部分，并将结果结合起来得出正确答案。选择 DeepSearch 代理或搜索选项，Grok 3 就会在互联网上进行广泛而深入的搜索，并使用代码解释器，然后生成报告，总结搜索结果。与其他人工智能相比，Grok 3（Think）模型通常在解决数学问题、回答研究生水平的选择题以及完成编码任务方面表现最佳。

xAI 预计在接下来的几个月里，将在 20 万 GPU 超级计算机集群上继续调整 Grok 3，以提高其性能。Grok 3现已在X和Grok.com上向所有用户开放。免费用户可能会遇到使用限制，而付费用户则可以使用高级功能。