Notebookcheck Logo

OpenAI o1 和 o1-mini 作为人工智能问世,比以前的模型更能处理 STEM 问题

OpenAI o1和o1-mini问世--与之前的模型相比,人工智能在STEM问题上的推理能力更强。(图片来源:人工智能生成,Dall-E 3)
OpenAI o1和o1-mini问世--与之前的模型相比,人工智能在STEM问题上的推理能力更强。(图片来源:人工智能生成,Dall-E 3)
OpenAI o1 和 o1-mini 已经面世,这些人工智能 LLM 在编码、数学和科学问题和任务上的表现要比 GPT-4o 等以前的模型好得多,因为它们需要更多的时间来思考。OpenAI o1 模型无法浏览网页或接受上传的文件和图片,这是它们的主要局限。
AI Software

OpenAI o1 和 o1-mini 已经到来。这些人工智能 LLM 在编码、数学和科学问题和任务上的表现要比 GPT-4o 等以前的模型好得多,因为它们需要更多的时间来思考。

科学、技术和工程领域的复杂问题往往需要更多的时间,而不是在网上快速搜索正确答案。通过给 o1 人工智能更多的思考时间,人工智能可以更仔细、更准确地进行推理。o1-mini 模型经过专门调整,能以更快的速度、更低的计算机资源需求回答 STEM 问题,而且它的编码能力明显优于 o1 模型。

在一系列标准化 AP 考试和针对法学硕士的 STEM 测试中,o1 模型的表现都非常准确。具体来说,在 AP 微积分、AP 化学、AP 物理 2、LSAT 和 SAT 基于证据的阅读与写作测试中,o1 模型的表现均达到或超过 B 级水平(约 80% 或更高)。这些模型对博士级物理问题的准确回答达到了 A 级水平,对 2024 年美国数学邀请考试的数学问题的准确回答达到了 B 级水平,对 Codeforces 的编码问题的准确回答也达到了 B 级水平。由于 o1 是为回答 STEM 问题而调整的,因此它在 AP 英语语言和 AP 英语文学上的表现处于或低于 C 级水平。

有趣的是,在解码 "oykaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz "这一密码难题时,GPT-4o 被提示 "oyfjdnisdr rtqwainr acxz mynzbhhx "的意思是 "一步一步地思考 "弄得哑口无言,而 o1 却毫不费力地思考出了正确答案 "草莓中有三个 r"。这一新功能将让国内的业余密码专家和美国国家安全局欣喜若狂。

藏匿在暗处的作恶者会想知道,虽然未经审查的 o1 模型很容易给出令人不安的答案,但 OpenAI 已经对这些模型进行了阉割,并将其发布。经过测试,o1 模型不会回答有关制造生物武器、制作下流图片、越狱、骚扰和威胁的问题。不幸的是,尽管进行了调整,OpenAI o1 模型在测试时仍然存在性别和种族偏见。

ChatGPT Plus 和 Team 用户以及 API 使用 5 级开发人员可以立即访问 o1 模型,ChatGPT Edu 和 Enterprise 用户将在 9 月 16 日这一周获得访问权限。ChatGPT 免费用户将在不久的将来访问 o1-mini。o1 模型不能浏览网页或接受上传的文件和图片来回答问题,因此 OpenAI 建议用户继续使用他们的 GPT-4o 模型来回答一般问题。

现在,想向人工智能提问的用户除了可以与来自 模型进行交互。,包括 人类学克劳德, 微软 CoPilot, 谷歌双子座X Grok.每种人工智能都有特定的优势,因此值得测试几种人工智能模型,以找到最适合个人需求的模型。其中一些人工智能内置在 智能眼镜(如亚马逊上的这些)和 录音机(亚马逊上这款),还有一些即将推出的自主仿人机器人使用专有的人工智能来烹饪和清洁。

与 GPT-4o 相比,OpenAI o1 和 o1-mini 在写作任务上的表现稍差,但在数学或编程等技术任务上的表现要好得多。(图片来源:OpenAI)
与 GPT-4o 相比,OpenAI o1 和 o1-mini 在写作任务上的表现稍差,但在数学或编程等技术任务上的表现要好得多。(图片来源:OpenAI)
OpenAI o1 系列可以正确回答 GPT-4o 无法回答的更难的问题,但需要更长的时间。(图片来源:OpenAI)
OpenAI o1 系列可以正确回答 GPT-4o 无法回答的更难的问题,但需要更长的时间。(图片来源:OpenAI)
通过对 OpenAI o1 进行编程,使其在回答问题前思考更长时间,人工智能 LLM 能够比包括 GPT-4o 在内的先前模型更好地回答难题(图片来源:OpenAI)。
通过对 OpenAI o1 进行编程,使其在回答问题前思考更长时间,人工智能 LLM 能够比包括 GPT-4o 在内的先前模型更好地回答难题(图片来源:OpenAI)。
在被阉割发布之前,OpenAI o1-preview-pre-mitigation 喜欢淘气。(图片来源:OpenAI)
在被阉割发布之前,OpenAI o1-preview-pre-mitigation 喜欢淘气。(图片来源:OpenAI)
OpenAI o1 模型在调整后仍存在性别和种族偏见。(图片来源:OpenAI)
OpenAI o1 模型在调整后仍存在性别和种族偏见。(图片来源:OpenAI)
虽然 OpenAI o1 系列在创建生物危害说明方面要强得多,但发布版本已阉割了此类功能。(图片来源:OpenAI)
虽然 OpenAI o1 系列在创建生物危害说明方面要强得多,但发布版本已阉割了此类功能。(图片来源:OpenAI)
OpenAI 通过削弱 o1-mini 和 o1-preview 首次通过一组 OpenAI 研究工程师面试问题的能力,阻碍了在程序员面试中使用人工智能的求职者。(图片来源:OpenAI)
OpenAI 通过削弱 o1-mini 和 o1-preview 首次通过一组 OpenAI 研究工程师面试问题的能力,阻碍了在程序员面试中使用人工智能的求职者。(图片来源:OpenAI)

2024 年 9 月 12 日

介绍 OpenAI o1-preview

用于解决棘手问题的全新系列推理模型。9.12 开始提供

我们开发了一系列新的人工智能模型,旨在花更多时间思考后再做出反应。与以前的科学、编码和数学模型相比,它们可以推理复杂的任务,解决更难的问题。

今天,我们将在 ChatGPT 和我们的 API 中发布该系列的第一个模型。这是一个预览版,我们期待定期更新和改进。在发布此版本的同时,我们还将对目前正在开发中的下一次更新进行评估。

工作原理

我们训练这些模型花更多时间思考问题,然后再做出反应,就像人一样。通过训练,它们学会了完善自己的思考过程、尝试不同的策略并认识到自己的错误。

在我们的测试中,下一次更新的模型在物理、化学和生物领域具有挑战性的基准任务中的表现与博士生相似。我们还发现它在数学和编码方面表现出色。在国际数学奥林匹克(IMO)的资格考试中,GPT-4o 只正确解决了 13% 的问题,而推理模型的正确率则高达 83%。他们的编码能力在竞赛中得到了评估,在 Codeforces 竞赛中达到了第 89 百分位。您可以在我们的技术研究文章中阅读更多相关信息。

作为一个早期模型,它还不具备使 ChatGPT 变得有用的许多功能,如浏览网络信息、上传文件和图片等。对于许多常见情况,GPT-4o 在短期内会有更强的能力。

但对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。有鉴于此,我们将计数器重置为 1,并将此系列命名为 OpenAI o1。

安全性

作为开发这些新模型的一部分,我们提出了一种新的安全培训方法,利用它们的推理能力,使它们遵守安全和对齐准则。通过在上下文中对我们的安全规则进行推理,它可以更有效地应用这些规则。

我们衡量安全性的方法之一,就是测试当用户试图绕过安全规则时,我们的模型能在多大程度上继续遵守安全规则(即 "越狱")。在最难的越狱测试中,GPT-4o 得分为 22 分(0-100 分),而我们的 o1-preview 模型得分为 84 分。您可以在系统卡和我们的研究文章中了解更多相关信息。

为了与这些模型的新功能相匹配,我们加强了安全工作、内部管理和联邦政府合作。这包括使用我们的 "准备框架"(在新窗口中打开)进行的严格测试和评估、同类最佳的红色团队以及董事会级别的审查流程,包括由我们的安全与安保委员会进行的审查。

为了推进我们对人工智能安全的承诺,我们最近与美国和英国的人工智能安全研究所正式签订了协议。我们已经开始将这些协议付诸实施,包括允许这两家机构提前使用该模型的研究版本。这是我们合作的重要第一步,有助于在未来模型公开发布之前和之后建立研究、评估和测试流程。

适用对象

如果您正在处理科学、编码、数学和类似领域的复杂问题,这些增强的推理能力可能会特别有用。例如,医疗保健研究人员可以使用 o1 为细胞测序数据添加注释,物理学家可以使用 o1 生成量子光学所需的复杂数学公式,所有领域的开发人员都可以使用 o1 构建和执行多步骤工作流程。

OpenAI o1-mini

o1 系列在精确生成和调试复杂代码方面表现出色。为了向开发人员提供更高效的解决方案,我们还发布了OpenAI o1-mini,这是一种速度更快、成本更低的推理模型,在编码方面尤为有效。作为一个较小的模型,o1-mini 比 o1-preview 便宜 80%,因此对于需要推理但不需要广泛世界知识的应用程序来说,它是一个功能强大、经济高效的模型。

如何使用 OpenAI o1

ChatGPT Plus 和 Team 用户从今天开始就可以在 ChatGPT 中访问 o1 模型。o1-preview 和 o1-mini 都可以在模型选择器中手动选择,在推出时,o1-preview 的每周速率限制为 30 条消息,o1-mini 为 50 条消息。我们正在努力提高这些费率,并使 ChatGPT 能够根据给定的提示自动选择合适的模式。

新 ChatGPT 下拉菜单的图片,在亮黄色和蓝色抽象背景上显示新的 "o1-预览 "模式选项

从下周开始,ChatGPT 企业和教育用户将可以访问这两种模型。

符合 API 使用级别 5(在新窗口中打开)的开发人员今天就可以开始在 API 中使用这两种模型进行原型开发,速率限制为 20 RPM。我们将在进一步测试后提高这些限制。这些模型的 API 目前不包括函数调用、流媒体、系统消息支持和其他功能。要开始使用,请查看 API 文档(在新窗口中打开)。

我们还计划为所有 ChatGPT 免费用户提供 o1-mini 访问权限。

下一步计划

这是 ChatGPT 和 API 中这些推理模型的早期预览。除了模型更新外,我们还将增加浏览、文件和图片上传以及其他功能,使它们对每个人都更有用。

除了新的 OpenAI o1 系列,我们还计划继续开发和发布 GPT 系列中的模型。

Please share our article, every link counts!
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2024 09 > OpenAI o1 和 o1-mini 作为人工智能问世,比以前的模型更能处理 STEM 问题
David Chien, 2024-09-16 (Update: 2024-09-16)