Apple 资助的研究显示，人类可以轻松超越人工智能

人类与人工智能（图片来源：使用 Dall-e 3 生成）

尽管人工智能引擎（如 Meta 和 OpenAI 的人工智能引擎）通常能提供令人印象深刻的结果，但它们使用了大型语言模型，仍然缺乏基本的推理能力。Apple 支持的一个小组提出了一个新的基准，该基准已经揭示出，即使是查询中最轻微的措辞变化也会导致完全不同的答案。

Codrut Nistor (translated by Ninh Duy), Published 10/14/2024 🇺🇸 🇩🇪 ...

AI Science Fail

本月早些时候，由Apple 支持的一个由六位人工智能科学家组成的团队发表了一项研究报告，他们在报告中介绍了 GSM-Symbolic，这是一种新的人工智能基准，"能够实现更可控的评估，为衡量模型的推理能力提供关键见解和更可靠的指标"。遗憾的是，看起来LLM仍然受到了严重的限制，它们缺乏最基本的推理能力，使用GSM-Symbolic 与 Meta 和OpenAI 等行业标志性公司的人工智能引擎进行的初步测试显示。.

上述测试发现，现有模型的问题在于 llm 在面对类似查询时缺乏可靠性。研究得出的结论是，对人类来说不会改变查询含义的细微措辞变化往往会导致人工智能机器人给出不同的答案。这项研究并没有发现任何突出的模型。

"具体来说，在 GSM-Symbolic 基准中，即使只改变问题中的数值，所有模型的性能都会下降。

研究还发现

"这些模型中数学推理的脆弱性[表明]，随着问题中条款数量的增加，它们的性能会明显下降"。

该研究报告共 22 页，可在找到(pdf 文件）。最后两页包含的问题在结尾处添加了一些无关信息，这些信息应该不会改变人类解题的最终结果。然而，所使用的人工智能模型也考虑到了这些部分，从而得出了错误的答案。

总之，人工智能模型仍然无法超越模式识别，仍然缺乏通用的问题解决能力。今年，不少 LLM 纷纷亮相，包括 Meta AI 的Llama 3.1Nvidia 的Nemotron-4Anthropic 的Claude 3日本Fugaku-LLM(是迄今为止完全依靠 CPU 能力训练的最大模型），以及Nova以及本月早些时候发布的 Rubik's AI 的 LLM 系列。

明天，O'Reilly 将发布《Hands-OnLargeLanguageModels》第一版：该书由 JayAlammar和 Maarten Grootendorst 合著。其标价为 48.99 美元（Kindle）或 59.13 美元（平装本）。