Apple 资助的研究显示,人类可以轻松超越人工智能
本月早些时候,由Apple 支持的一个由六位人工智能科学家组成的团队发表了一项研究报告,他们在报告中介绍了 GSM-Symbolic,这是一种新的人工智能基准,"能够实现更可控的评估,为衡量模型的推理能力提供关键见解和更可靠的指标"。遗憾的是,看起来LLM仍然受到了严重的限制,它们缺乏最基本的推理能力,使用GSM-Symbolic 与 Meta 和OpenAI 等行业标志性公司的人工智能引擎进行的初步测试显示。.
上述测试发现,现有模型的问题在于 llm 在面对类似查询时缺乏可靠性。研究得出的结论是,对人类来说不会改变查询含义的细微措辞变化往往会导致人工智能机器人给出不同的答案。这项研究并没有发现任何突出的模型。
"具体来说,在 GSM-Symbolic 基准中,即使只改变问题中的数值,所有模型的性能都会下降。
研究还发现
"这些模型中数学推理的脆弱性[表明],随着问题中条款数量的增加,它们的性能会明显下降"。
该研究报告共 22 页,可在找到(pdf 文件)。最后两页包含的问题在结尾处添加了一些无关信息,这些信息应该不会改变人类解题的最终结果。然而,所使用的人工智能模型也考虑到了这些部分,从而得出了错误的答案。
总之,人工智能模型仍然无法超越模式识别,仍然缺乏通用的问题解决能力。今年,不少 LLM 纷纷亮相,包括 Meta AI 的Llama 3.1Nvidia 的Nemotron-4Anthropic 的Claude 3日本Fugaku-LLM(是迄今为止完全依靠 CPU 能力训练的最大模型),以及Nova以及本月早些时候发布的 Rubik's AI 的 LLM 系列。
明天,O'Reilly 将发布《Hands-OnLargeLanguageModels》第一版:该书由 JayAlammar和 Maarten Grootendorst 合著。其标价为 48.99 美元(Kindle)或 59.13 美元(平装本)。
资料来源
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名