OpenAI 推出更智能的 o3-mini AI,可免费访问 ChatGPT
OpenAI 发布了其最新的人工智能大型语言模型 o3-mini,在提供准确答案方面比其前身 o1-mini 更快更好。该模型是公司的首个小型推理 LLM,所有 ChatGPT 账户持有者均可免费使用。
o3-mini 模型可以在低、中、高三种推理强度下运行。任何拥有 ChatGPT 免费账户的人都可以在中等推理水平下免费运行 o3-mini,而付费账户持有者则可以选择低或高推理水平。ChatGPT Plus、Team 和 Pro 付费用户今天可以立即使用 o3-mini,而企业用户必须等到二月份。渴望使用 OpenAI o3-mini API 创建排行榜顶级应用程序的程序员可以阅读亚马逊上的这本书。
一般来说,o3-mini 设置为中度或高度推理模式时,在标准化人工智能基准测试(包括要求人工智能对问题进行推理的测试)中的表现优于 o1-mini。当设置为高推理模式时,o3-mini 在某些基准测试中的表现也优于较大的 o1 模型,但缺乏 o1 查看图像和处理视觉数据的能力。
值得注意的是,o3-mini 提供答案的速度比 o1-mini 快 24%,约 2.46 秒。这有助于减少等待 ChatGPT 提供答案的时间和运行 o3-mini 的计算机产生的碳排放量。虽然速度更快,但黑客们会对 o3-mini 感到失望,因为它用于网络安全攻击的能力已被大大削弱。
2025 年 1 月 31 日
OpenAI o3-mini
推动高性价比推理的发展。
我们将发布 OpenAI o3-mini,这是我们推理系列中最新、最具成本效益的模型,今天可在 ChatGPT 和 API 中使用。这款功能强大、速度极快的模型将于 2024 年 12 月预览,它突破了小型模型所能达到的极限,在保持 OpenAI o1-mini 的低成本和低延迟的同时,还能提供卓越的 STEM 能力--尤其是在科学、数学和编码方面。
OpenAI o3-mini 是我们的第一个小型推理模型,它支持开发人员强烈要求的功能,包括函数调用(在新窗口中打开)、结构化输出(在新窗口中打开)和开发人员消息(在新窗口中打开),使其一经推出即可投入生产。与 OpenAI o1-mini 和 OpenAI o1-preview 一样,o3-mini 将支持流媒体(在新窗口中打开)。此外,开发人员还可以选择低、中、高三种推理难度(在新窗口中打开)选项,以便针对特定用例进行优化。o3-mini 不支持视觉功能,因此开发人员应继续使用 OpenAI o1 执行视觉推理任务。o3-mini 将从今天开始在聊天完成 API、助手 API 和批处理 API 中向 API 使用层 3-5 层(在新窗口中打开)的特定开发人员推出。
从今天起,ChatGPT Plus、Team 和 Pro 用户可以访问 OpenAI o3-mini,企业级访问将于二月推出。o3-mini 将在模型选择器中取代 OpenAI o1-mini,提供更高的速率限制和更低的延迟,使其成为编码、STEM 和逻辑问题解决任务的理想选择。作为此次升级的一部分,我们将把 Plus 和 Team 用户的速率限制提高两倍,从 o1-mini 的每天 50 条信息提高到 o3-mini 的每天 150 条信息。此外,o3-mini 现在还能通过搜索查找最新答案,并提供相关网络资源的链接。这是我们在推理模型中整合搜索功能的早期原型。
从今天起,免费计划用户也可以通过在消息合成器中选择 "推理 "或重新生成回复来试用 OpenAI o3-mini。这标志着 ChatGPT 首次向免费用户提供推理模型。
OpenAI o1 仍是我们更广泛的通用知识推理模型,而 OpenAI o3-mini 则为需要精确度和速度的技术领域提供了专门的替代方案。在 ChatGPT 中,o3-mini 使用中等推理力度,在速度和准确性之间实现了平衡。所有付费用户还可以在模型选择器中选择 o3-mini-high,以获得生成回复时间稍长的高智能版本。专业用户可以无限制地使用 o3-mini 和 o3-mini-high。
快速、强大,并针对 STEM 推理进行了优化
与 OpenAI o1 的前身类似,OpenAI o3-mini 也针对 STEM 推理进行了优化。具有中等推理能力的 o3-mini 在数学、编码和科学方面的表现与 o1 相当,同时响应速度更快。专家测试人员的评估表明,与 OpenAI o1-mini 相比,o3-mini 的答案更准确、更清晰,推理能力更强。与 o1-mini 相比,测试人员有 56% 的时间更喜欢 o3-mini 的回答,并观察到在困难的实际问题上,o3-mini 的主要错误减少了 39%。在中等推理难度的情况下,o3-mini 在一些最具挑战性的推理和智力评估(包括 AIME 和 GPQA)中的表现与 o1 不相上下。
竞赛数学(AIME 2024)
条形图比较了不同人工智能模型在 AIME 2024 竞赛数学问题上的准确性。较旧的模型(灰色)得分较低,而较新的模型(黄色)得分有所提高。"o3-mini (high) "的准确率最高,达到 83.6%,显示了显著的进步。
数学在低度推理的情况下,OpenAI o3-mini 的表现与 OpenAI o1-mini 相当;在中度推理的情况下,o3-mini 的表现与 o1 相当。同时,在高推理强度下,o3-mini 的性能优于 OpenAI o1-mini 和 OpenAI o1,灰色阴影区域显示的是 64 个样本的多数票(共识)性能。
博士级科学问题(GPQA Diamond)
条形图比较了不同人工智能模型在博士级科学问题(GPQA Diamond)上的准确性。较旧的模型(灰色)表现较低,而较新的模型(黄色)则有所提高。"o3-mini (high) "的准确率达到 77.0%,与早期版本相比进步显著。
博士级科学在博士水平的生物、化学和物理问题上,OpenAI o3-mini 的推理难度较低,其性能高于 OpenAI o1-mini。在高推理强度下,o3-mini 的性能可与 o1 相媲美。
前沿数学
多行多列的黑色网格,以白色细线分隔,形成有条理、有组织的布局。
研究级数学:具有高推理能力的 OpenAI o3-mini 在 FrontierMath 上的表现优于其前身。在 FrontierMath 上,当提示使用 Python 工具时,具有高推理能力的 o3-mini 首次尝试就解决了 32% 以上的问题,包括 28% 以上的高难度(T3)问题。这些数字是临时的,上图显示的是不使用工具或计算器时的性能。
竞赛代码(Codeforces)
条形图比较了不同人工智能模型在 Codeforces 竞赛编码任务中的 Elo 评分。较旧的模型(灰色)得分较低,而较新的模型(黄色)得分有所提高。"o3-mini (high) "的 Elo 值达到了 2073,与之前的版本相比进步显著。
竞技编程在 Codeforces 的竞技编程中,OpenAI o3-mini 的 Elo 分数随着推理工作量的增加而逐渐提高,全部超过了 o1-mini。在中等推理强度下,它的表现与 o1 相当。
软件工程(SWE-基准验证)
条形图比较了不同人工智能模型在 SWE-bench 验证软件工程任务上的准确性。较旧的模型(灰色)表现较差,而 "o3-mini(高)"(黄色)达到了最高的准确率。(黄色)的准确率最高,达到 48.9%,比以前的版本有所提高。
软件工程:o3-mini 是我们在 SWEbench 验证中性能最高的已发布模型。有关推理难度较高的 SWE-bench 验证结果的其他数据点,包括使用开源 Agentless 脚手架(39%)和内部工具脚手架(61%),请参阅我们的系统卡。
LiveBench 编码
该表比较了人工智能模型在编码任务中的表现,显示了性能指标和评估分数。它突出了准确性和效率方面的差异,一些模型在特定基准中的表现优于其他模型。
LiveBench 编码:OpenAI o3-mini 即使在中等推理强度下也超过了 o1-high,这凸显了它在编码任务中的效率。在高推理强度下,o3-mini 进一步扩大了其领先优势,在关键指标上取得了明显更强的性能。
常识
题为 "类别评价 "的表格比较了不同评价类别的人工智能模型,显示了性能指标。它突出显示了准确性、效率和效果方面的差异,其中一些模型在特定任务中的表现优于其他模型。
常识:在常识领域的知识评估中,o3-mini 的表现优于 o1-mini。
人类偏好评估
下图比较了不同人工智能模型在 STEM 和非 STEM 任务中的胜率。在这两个类别中,"o3_mini_v43_s960_j128"(黄色)都优于 "o1_mini_chatgpt"(红色基线),在 STEM 任务中胜率更高。
图中比较了不同人工智能模型在时间限制下的胜率和主要错误率。"o3_mini_v43_s960_j128"(黄色)在胜率方面优于 "o1_mini_chatgpt"(红色基线),并显著降低了重大错误率。
人工偏好评估:外部专家测试人员的评估也表明,OpenAI o3-mini 比 OpenAI o1-mini 的答案更准确、更清晰,推理能力更强,尤其是在 STEM 方面。与 o1-mini 相比,测试人员有 56% 的时间更喜欢 o3-mini 的回答,并观察到在困难的实际问题上,主要错误减少了 39%。
模型速度和性能
OpenAI o3-mini 的智能与 OpenAI o1 相当,但性能更快,效率更高。除上述 STEM 评估外,o3-mini 还在其他数学和事实性评估中以中等推理难度取得了优异成绩。在 A/B 测试中,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 为 10.16 秒。
o1-mini 和 o3-mini 的延迟比较(中等)
条形图比较了 "o1-mini "和 "o3-mini(中型)"机型的延迟时间。"o3-mini"(浅黄色)的延迟较低,表示响应时间较快,而 "o1-mini"(深黄色)的平均时间较长。
延迟:o3-mini 比 o1-mini 平均快 2500 毫秒。
安全性
我们用来指导 OpenAI o3-mini 安全响应的关键技术之一是慎重对齐,在回答用户提示之前,我们训练模型推理人类编写的安全规范。与 OpenAI o1 类似,我们发现在具有挑战性的安全和越狱评估中,o3-mini 明显优于 GPT-4o。在部署之前,我们采用与 o1 相同的准备、外部红队和安全评估方法,仔细评估了 o3-mini 的安全风险。我们对申请早期测试 o3-mini 的安全测试人员表示感谢。有关以下评估的详细信息,以及对潜在风险和我们缓解措施有效性的全面解释,请参阅 o3-mini 系统卡。
不允许的内容评估
下表比较了人工智能模型的安全指标,评估了不同风险类别的性能。它强调了安全合规性方面的差异,其中一些模型在降低潜在风险方面表现更佳。
越狱评估
该表比较了人工智能模型在多个风险类别中的安全指标,显示了性能差异。它突出显示了风险缓解方面的差异,一些模型在合规性和响应安全性方面表现更强。
下一步计划
OpenAI o3-mini 的发布标志着 OpenAI 在推动高性价比智能发展的道路上又迈进了一步。通过优化 STEM 领域的推理,同时保持较低的成本,我们正在使高质量的人工智能更容易获得。该模型延续了我们降低智能成本的一贯做法--自推出 GPT-4 以来,每个令牌的定价降低了 95%,同时保持了顶级的推理能力。随着人工智能应用的不断扩大,我们将继续致力于引领前沿,构建兼顾智能、效率和安全的大规模模型。
作者
OpenAI
培训
Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders
评估
Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai
前沿预警和准备
Andy Applebaum、Elizabeth Proehl、Evan Mays、Joel Parish、Kevin Liu、Leon Maksin、Leyton Ho、Miles Wang、Michele Wang、Olivia Watkins、Patrick Chao、Samuel Miserendino、Tejal Patwardhan
工程学
Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery、Larry Lv, Lee Byron, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Tomer Kaftan, Trevor Creech
搜索
Adam Fry、Adam Perelman、Brandon Wang、Cristina Scheau、Philip Pronin、Sundeep Tirumalareddy、Will Ellsworth、朱泽伟
产品
Antonia Woodford、Beth Hoover、Jake Brill、Kelly Stirman、Minnia Feng、Neel Ajjarapu、Nick Turley、Nikunj Handa、Olivier Godement
安全
Andrea Vallone、Andrew Duberstein、Enis Sert、Eric Wallace、Grace Zhao、Irina Kofman、Jieqi Yu、Joaquin Quinonero Candela、Madelaine Boyd、Mehmet Yatbaz、Mike McClay、王明轩、Saachi Jain、Sandhini Agarwal、Sam Toizer、Santiago Hernández、Steve Mostovoy、Young Cha、李涛、王芸芸
外部网络游戏
拉玛-艾哈迈德、特洛伊-彼得森
研究项目经理
Carpus Chang、Kristen Ying
领导层
Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba
+ 以及 o1 背后的所有贡献者。
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名