OpenAI 推出 GPT-4o mini,价格比 GPT-4o 低 25 倍,让更多企业和用户获得优质人工智能服务
OpenAI推出了GPT-4o mini,其价格比排名第一的GPT-4o低25倍以上,为更多企业和用户提供了接触优质人工智能的机会。GPT-4o mini 已被独立的评为当今能力最强的十大人工智能模型之一。GPT-4o mini 被独立评为当今最有能力的 10 大人工智能模型之一。尽管 GPT-4o mini 只是一个小型 LLM 模型,但它在一系列人工智能基准测试中表现出色。
大型语言模型(LLM)是在对数百万份文档进行训练后创建的,它是像ChatGPT 这样的人工智能聊天机器人的基础。.该模型拥有数学向量,可将单词、图片等相互出现的概率联系起来。例如,"冰 "出现在 "奶油 "旁边的可能性要远远大于它出现在 "石头 "旁边的可能性。然而,大型 LLM 需要消耗大量的计算能力和能源。和能量来回答用户的提示,这对用户来说成本很高。修剪 LLM 可以使其更小、更便宜、更环保,但代价是答案的准确性会降低。
不知道如何利用人工智能更好地完成业务任务或赚更多钱的读者可以在亚马逊上阅读本书。
在与GPT-4o 的直接比较中进行直接比较时,GPT-4o mini 输出的答案准确率始终较低。与 2022 年发布的 GPT-3.5 Turbo 相比,GPT-4o mini 的表现一直更好。在各种大学级别的人工智能基准测试(DROP,HumanEval,MATH,MathVista,MGSM,MMLU和MMMU),该模型大约有 60% 到 80% 的时间能准确回答问题。只有在博士研究生水平测试(GPQA)上,其准确率才下降到大约 40%,或者说只比在网上搜索答案的非专家稍好一些。
重要的是,GPT-4o 的价格为 5 美元/100 万个输入词块和 15 美元/100 万个输出词块,而 GPT-4o mini 的价格为 0.15 美元/100 万个输入词块和 0.60 美元/100 万个输出词块(1000 个词块约等于 750 个单词)。这比便宜得多。便宜,但 mistral-embed 除外。
GPT-4o mini 的输入上下文窗口为 128K 标记,这是一次可分析的文本量,因此对大量商业和法律文件的分析受到限制。输出窗口限制为 16K 标记。该模型的知识截止日期也是 2023 年 10 月,因此人工智能不知道该日期之后发生的新闻、事件和发现,也就无法在回答提示时使用。
还在等待人工智能仿人机器人像 1X Neo 原型机在此期间,他们只能选择非人工智能机器人(如亚马逊上的这款吸尘器)。
2024 年 7 月 18 日
GPT-4o mini:推进高性价比智能化
介绍我们最具成本效益的小型模型
OpenAI 致力于尽可能广泛地普及智能。今天,我们宣布推出 GPT-4o mini,这是我们最具成本效益的小型模型。我们预计,GPT-4o mini 将使智能变得更加经济实惠,从而大大扩展利用人工智能构建的应用范围。GPT-4o mini 在 MMLU 上的得分为 82%,目前在 LMSYS 排行榜(在新窗口中打开)上的聊天偏好方面优于 GPT-41。它的价格为每百万输入代币 15 美分,每百万输出代币 60 美分,比以前的前沿模型便宜一个数量级,比 GPT-3.5 Turbo 便宜 60% 以上。
GPT-4o mini 以其低成本和低延迟实现了广泛的任务,如连锁或并行多个模型调用(如调用多个 API)、向模型传递大量上下文(如完整代码库或对话历史)或通过快速、实时文本回复与客户交互(如客户支持聊天机器人)的应用。
目前,GPT-4o mini 的应用程序接口支持文本和视觉,未来还将支持文本、图像、视频和音频输入和输出。该模型的上下文窗口可容纳 128K 标记,每个请求最多支持 16K 输出标记,知识库可持续到 2023 年 10 月。由于改进了与 GPT-4o 共享的标记器,现在处理非英语文本更加经济高效。
具有卓越文本智能和多模态推理能力的小型模型
在文本智能和多模态推理方面,GPT-4o mini 在学术基准测试中超越了 GPT-3.5 Turbo 和其他小型模型,并支持与 GPT-4o 相同的语言范围。与 GPT-3.5 Turbo 相比,GPT-4o mini 还提高了长上下文性能。
GPT-4o mini 已通过多个关键基准2 进行了评估。
推理任务:GPT-4o mini 在涉及文本和视觉的推理任务方面优于其他小型模型,在文本智能和推理基准 MMLU 中的得分率为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。
数学和编码能力:GPT-4o mini 在数学推理和编码任务方面表现出色,优于市场上以前的小型机型。在测量数学推理的 MGSM 中,GPT-4o mini 的得分率为 87.0%,而 Gemini Flash 为 75.5%,Claude Haiku 为 71.7%。在衡量编码性能的 HumanEval 中,GPT-4o mini 的得分率为 87.2%,而 Gemini Flash 为 71.5%,Claude Haiku 为 75.9%。
多模态推理:GPT-4o mini 在多模态推理评估 MMMU 中也表现出色,得分率为 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。
在模型开发过程中,我们与一些值得信赖的合作伙伴合作,以更好地了解 GPT-4o mini 的使用案例和局限性。我们与 Ramp(在新窗口中打开) 和 Superhuman(在新窗口中打开) 等公司合作,发现 GPT-4o mini 在从收据文件中提取结构化数据或在提供线程历史记录时生成高质量电子邮件回复等任务方面的性能明显优于 GPT-3.5 Turbo。
内置安全措施
我们从一开始就在模型中内置了安全措施,并在开发过程中的每一步都加以强化。在预训练中,我们会过滤掉(在新窗口中打开)我们不希望模型学习或输出的信息,如仇恨言论、成人内容、主要汇集个人信息的网站和垃圾邮件。在后期训练中,我们会使用人机反馈强化学习(RLHF)等技术使模型的行为与我们的策略保持一致,以提高模型响应的准确性和可靠性。
GPT-4o mini 内置了与 GPT-4o 相同的安全缓解措施,我们根据我们的准备框架和自愿承诺,通过自动和人工评估对其进行了仔细评估。社会心理学和错误信息等领域的 70 多名外部专家对 GPT-4o 进行了测试,以确定潜在风险,我们已经解决了这些问题,并计划在即将发布的 GPT-4o 系统卡和准备工作记分卡中分享相关细节。这些专家评估得出的见解有助于提高 GPT-4o 和 GPT-4o mini 的安全性。
在这些经验的基础上,我们的团队还利用研究中获得的新技术努力提高 GPT-4o mini 的安全性。API 中的 GPT-4o mini 是第一个应用我们的指令分层(在新窗口中打开)方法的模型,这种方法有助于提高模型抵御越狱、提示注入和系统提示提取的能力。这使得模型的响应更加可靠,有助于在大规模应用中更安全地使用。
我们将继续监控 GPT-4o mini 的使用情况,并在发现新风险时提高模型的安全性。
供货和定价
GPT-4o mini 现可作为文本和视觉模型在助手 API、聊天完成 API 和批处理 API 中使用。开发人员每 100 万个输入代币需支付 15 美分,每 100 万个输出代币需支付 60 美分(大致相当于标准图书的 2500 页)。我们计划在未来几天内推出 GPT-4o mini 的微调。
在 ChatGPT 中,免费、Plus 和 Team 用户从今天开始将能访问 GPT-4o mini,以取代 GPT-3.5。企业用户也将从下周开始访问,这与我们让所有人都能享受人工智能带来的好处的使命是一致的。
下一步计划
在过去几年中,我们见证了人工智能智能的显著进步,同时也看到了成本的大幅降低。例如,GPT-4o mini 的单位代币成本比 2022 年推出的性能较低的 text-davinci-003 降低了 99%。我们致力于继续保持这种降低成本的轨迹,同时提高模型的能力。
在我们的设想中,未来模型将无缝集成到每个应用程序和每个网站中。GPT-4o mini 为开发人员铺平了道路,使他们能够更高效、更经济地构建和扩展强大的人工智能应用。人工智能的未来正变得更加易用、可靠,并嵌入到我们的日常数字体验中,我们很高兴能继续引领这条道路。
作者
OpenAI
鸣谢
领导Jacob Menick、Kevin Lu、Shengjia Zhao、Eric Wallace、Hongyu Ren、Haitang Hu、Nick Stathas、Felipe Petroski Such
项目负责人陈美娜
脚注
1
截至 2024 年 7 月 18 日,早期版本的 GPT-4o mini 性能优于 GPT-4T 01-25。
2
GPT-4o mini 的评估值是使用我们的 simple-evals(opens in a new window) repo 和 API 助手系统消息提示计算得出的。对于竞争对手的机型,我们取其报告数(如有)、HELM(在新窗口中打开) 排行榜和我们自己通过 simple-evals 重现的数据的最大值。
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名