OpenAI 推出更快、更完善的 GPT-4o 人工智能，可使用音频、图像和文本聊天

OpenAI 推出改进了音频、图像和文本功能的 GPT-4o。(来源：YouTube 上的 OpenAI）

OpenAI 推出了速度更快、经过改进的 GPT-4o 人工智能，能够使用音频、图像和文本进行输入和输出聊天。该人工智能明显提高了多种语言的语音识别能力。该聊天机器人模型目前可供免费和付费用户使用。

David Chien (translated by Ninh Duy), Published 05/14/2024 🇺🇸 🇫🇷 ...

AI Software

OpenAI 推出了反应更快、经过改进的 GPT-4o（或 omni）人工智能模型，能够使用音频、图像和文本进行输入和输出聊天。值得注意的是，除了广泛使用的英语和中文外，该人工智能在多种语言的语音识别方面也有了明显改善。对于开发者来说，GTP-4o 型号的价格是 GPT-4 Turbo 型号的一半，速度是后者的两倍。

像 ChatGPT 或 CoPilot 这样的人工智能聊天机器人使用的人工智能模型已经过数百万甚至数十亿次输入文件（包括音频、图像和文本）的训练。这样，人工智能就能学会识别所有输入文件之间的某些模式和联系。例如，如果人工智能看到 "第一修正案"，它很快就会知道这与 "言论自由 "话题有关。以后再向模型询问 "言论自由 "时，它就会想起 "第一修正案 "这个相关元素。

ChatGPT 基于 OpenAI 模型运行，这些模型自诞生以来经过了多年的逐步改进。与微软 CoPilot 和谷歌 Gemni 等人工智能竞争模型一样，ChatGPT 可以根据提示回答一般问题、解释主题、总结文本、撰写论文等。人工智能模型的知识和诀窍来自于它所训练的数十亿条数据，而它能否正确回答提示则取决于它所使用的算法和所接受的模型调整。

最显著的改进是语音识别的准确性。虽然之前的人工智能模型在英语和中文方面表现不俗，但在非洲、东欧、中东和南亚语言方面表现不佳。GPT-4o 在某些语言中的识别性能提高了约 50%，但仍有很长的路要走。例如，南亚语言的单词错误率 (WER) 仍高达约 22%，即每 5 个单词中就有 1 个错误。值得注意的是，西欧语言和中日韩语言的 WER 仍为 3-5%，即每说 20 个词就有 1 个词出错。这一成绩仍然落后于初中年龄段的儿童。(遗憾的是，GPT-4o 仍然无法理解狗。.)

在推理方面，GPT-4o 在大多数测试中都比竞争对手的模型提高了 4%，但在两项测试中却被击败了 2.6%。这表明，仅仅向人工智能提供更多的输入数据并不能提高人工智能的推理能力，因此还需要研究其他方法。在音频翻译领域，GPT-4o 几乎没有提高谷歌 Gemni 的性能，这也说明了同样的问题。

在回答高中生水平的标准化测试问题方面，GPT-4o 仅在南非荷兰语、英语和意大利语中达到了 B 级（准确率超过 80%），而在其他语言（如中文）中的表现则像一个 C 级学生。人工智能在回答需要参考视觉图形或图表的问题时，无论使用哪种语言，表现都更加糟糕。

在视觉感知方面，比如理解图表，GPT-4o 在七项测试中比其他人工智能模型提高了 2% 到 10.8%，但只有两项测试达到了 A 级水平（90% 以上）。数学仍然是对人工智能能力的一个很好的测试，在 MathVista 测试中，人工智能在高中毕业生就能回答的问题上只获得了 63.8% 的分数，未能通过测试。

该聊天机器人目前可供免费和付费用户使用，但语音模式受到反语音克隆等安全政策的限制。附加的安全防护栏通过在偏见、公平、错误信息、社会心理学、网络安全等方面对人工智能进行阉割，也大大限制了其输出能力。虽然降低人工智能风险有助于减少某些不良方面，但也会增加其他方面，如无法像正常人一样回复。某些主题和观点会被像严厉的审查制度一样阉割掉。GTP-4o无法回复触发回复的提示。

想要测试 GPT-4o 的读者可以立即注册一个免费账户。.感兴趣的开发人员可以从亚马逊上的这本书中了解如何使用 GPT-4 创建应用程序。懒人们如果只是想享受阳光、抓拍度假照片、通过语音提示查找当地小酒馆的路线，可以在亚马逊上购买配备 Meta AI 的雷朋眼镜。

在多语言 LibriSpeech (MLS) 测试中，GPT-4o 的音频翻译性能略微优于 Google Gemni。(来源：OpenAI）

尽管获得了数十亿美元的资助，OpenAI GPT-4o 在非洲和东南亚语言的音频语音识别方面仍然相当落后。(来源：OpenAI）

OpenAI GPT-4o 包括对理解和解决数学问题进行更好的调整。(来源：OpenAI）

GPT-4o 虽然有所改进，但在视觉感知准确性测试中仍低于平均水平。(来源：OpenAI）

尽管有所改进，但在用几种非英语语言进行测试时，GPT-4o 在回答大学入学考试中常见的一般问题方面仍然表现不佳。(来源：OpenAI）

资料来源

OpenAI 新闻稿

▶ ▼ 新闻稿

2024 年 5 月 13 日

你好，GPT-4o

我们宣布推出 GPT-4o，它是我们的新旗舰机型，可实时推理音频、视觉和文本。

本页面上的所有视频均为 1x 实时视频。

猜测 5 月 13 日的公告。

GPT-4o（"o "代表 "omni"）是向更自然的人机交互迈出的一步--它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合作为输出。它能在 232 毫秒内对音频输入做出反应，平均反应时间为 320 毫秒，这与人类在对话中的反应时间（在新窗口中打开）相近。它在英语和代码文本方面的性能与 GPT-4 Turbo 相当，在非英语语言文本方面也有显著提高，同时在应用程序接口（API）方面速度更快，价格便宜 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

模型能力

两个 GPT-4os 互动唱歌。

面试准备。

剪刀石头布

讽刺

萨尔和伊姆兰-汗的数学

两个 GPT-4os 和声。

点学西班牙语

会见人工智能

实时翻译

摇篮曲

语速更快。

生日快乐

狗狗

爸爸的笑话

与伦敦 BeMyEyes 公司的 Andy 进行 GPT-4o 交流。

客户服务概念验证。

在 GPT-4o 之前，您可以使用语音模式与 ChatGPT 通话，平均延迟时间为 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）。为实现这一目标，语音模式是由三个独立模型组成的流水线：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将文本转回音频。这个过程意味着主要的智能源 GPT-4 会丢失很多信息--它不能直接观察音调、多人讲话或背景噪音，也不能输出笑声、歌声或表达情感。

通过 GPT-4o，我们在文本、视觉和音频方面端到端训练了一个新模型，这意味着所有输入和输出都由同一个神经网络处理。由于 GPT-4o 是我们第一个结合了所有这些模式的模型，因此我们在探索该模型的功能及其局限性方面仍处于起步阶段。

能力探索

选择样本：视觉叙事--机器人写作障碍

视觉叙事--邮递员莎莉

为电影《侦探》制作海报

角色设计--机器人 Geary

迭代编辑的诗意排版

1反复编辑的诗意排版

2GPT-4o纪念币设计

照片到漫画

文本到字体

三维物体合成

品牌定位--杯垫上的徽标

诗意的字体设计

多行渲染--机器人发短信

多人发言的会议记录

演讲摘要

可变装订--立方体堆叠

具体诗歌

机器人以第一人称视角打字，写下以下日记：

1. 我现在能看到日出了，太神奇了，到处都是色彩。

机器人的手在打字机上打字。

机器人写下了第二个条目。页面变高了页面上移了。页面上有两个条目：

我看到了日出，真是太棒了，到处都是色彩斑斓，让人不禁怀疑，现实到底是什么？

现在一切都有了新的氛围，每个声音都像是一个新的秘密。

机器人对书写不满意，所以他要撕掉这张纸。这是他用手从上到下撕纸时的第一人称视角。在他撕纸的过程中，两半纸仍然清晰可辨。

模型评估

根据传统的基准测试，GPT-4o 在文本、推理和编码智能方面的性能达到了 GPT-4 Turbo 的水平，同时在多语言、音频和视觉能力方面也达到了新的高度。

改进的推理能力--GPT-4o 在 0shot COT MMLU（常识问题）上创造了 88.7% 的新高分。所有这些测试数据都是通过我们新的简单测试数据(在新窗口中打开)库收集的。此外，在传统的 5 发无 COT MMLU 中，GPT-4o 创造了 87.2% 的新高分。(注：Llama3 400b(在新窗口中打开)仍在训练中）

音频 ASR 性能 - 与 Whisper-v3 相比，GPT-4o 显著提高了所有语言的语音识别性能，尤其是资源较少的语言。

音频翻译性能--GPT-4o 在语音翻译方面树立了新的标杆，在 MLS 基准测试中优于 Whisper-v3。

M3Exam - M3Exam 基准既是一种多语言评估，也是一种视觉评估，由来自其他国家标准化测试的多项选择题组成，有时还包括数字和图表。在所有语言的基准测试中，GPT-4o 均强于 GPT-4。(我们省略了斯瓦希里语和爪哇语的视觉结果，因为这两种语言只有 5 道或更少的视觉问题。

视觉理解测试--GPT-4o 在视觉感知基准上达到了最先进的性能。

语言标记化

我们选择了这 20 种语言作为新标记化器在不同语系中压缩性能的代表

古吉拉特语减少 4.4 倍的标记（从 145 个减少到 33 个）	હેલો, મા 鹦鹉ꪂ નામ 惴惴不安ꪪીટ-4o છે.હું એક નવા પ્રકારનું ભાષા મોડલ છું.赞成票મને ꪮળીને સા 礼品推销ꪂ લા 礼品推销્યં！
泰卢固语代币减少 3.5 倍（从 159 到 45）	నేరునాపేరు జీపీటీ-4o.నేను ఒక్క కొత్త రక 径ైన భాషా నోడల్ ని.ి్ల్నికలిసినందుకు సంతోషం！
泰米尔代币减少 3.3 倍（从 116 个减至 35 个）	வணக்கம், என் பெயர் ஜிபிடி-4o.நான் ஒரு புதிய வகை ↪Lo_Mc_BCA↩ழி ๱ாடல்.뢙ங்களை சந் தி் தில் கிழ்ச்சி！
马拉地语代币减少2.9倍（从96个减少到33个）	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाष मॉडाेल आहे\| तुम्हाला भेटून आनंद झला！
印地语代币减少 2.9 倍（从 90 个减至 31 个）	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छालगा！
乌尔都语代币减少 2.5 倍（从 82 个减至 33 个）	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ای نئے قسم کا زبان ماڈل ہوں، آپ سے مل کراچھا لگا！
阿拉伯语代币减少 2.0 倍（从 53 个减至 26 个）	مرحبًا، اسمي جي بي تي-4o.أنا نوع جديد من نموذج اللغةة، سررت بلقائك！
波斯代币数量减少 1.9 倍（从 61 到 32）	سلام، اسم من جی پی تی-۴او است.من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم！
俄罗斯代币减少1.7倍（从39个减少到23个）	Привет, меня зовут GPT-4o.Я - языковая модель, приятно познакомиться！
韩国代币数量减少 1.7 倍（从 45 个减少到 27 个）	안녕하세요, 제 이름은 GPT-4o입니다.저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다！
越南语代币减少 1.5 倍（从 46 个减至 30 个）	Xin chào, tên tôi là GPT-4o。Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn！
中文减少 1.4 倍（从 34 个减少到 24 个）	你好，我的名字是 GPT-4o。我是一种新型的语言模型，很高兴见到你！
日文代币减少 1.4 倍（从 37 枚减至 26 枚）	こんにちわ、私の名前はGPT-4oです。私は新しいタイプの言語モデルです、初めまして
土耳其语减少 1.3 倍（从 39 降至 30）	Merhaba, benim adım GPT-4o。Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum！
意大利语代币减少 1.2 倍（从 34 降至 28）	你好，我是 GPT-4o。我们是一种全新的语言模型，很高兴认识你们！
德语减少 1.2 倍代币（从 34 到 29）	你好，我的名字是 GPT-4o。Ich bin ein neues KI-Sprachmodell.我的名字是 GPT-4o。
西班牙语代币减少 1.1 倍（从 29 个减至 26 个）	你好，我叫 GPT-4o。我是一个新的语言模型，很高兴认识你！
葡萄牙语减少 1.1 倍代币（从 30 到 27）	Olá, meu nome é GPT-4o.我是一个新的语言模型，很高兴认识您！
法语减少 1.1 倍标记（从 31 到 28）	Bonjour, je m'appelle GPT-4o.Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer！
英语 1.1x 减少代币（从 27 到 24）	大家好，我叫 GPT-4o。我是一个新型语言模型，很高兴认识你！

模型安全性和限制

GPT-4o 通过过滤训练数据和通过后期训练完善模型行为等技术，在设计上内置了跨模式的安全性。我们还创建了新的安全系统，为语音输出提供保护。
我们根据准备框架对 GPT-4o 进行了评估，并符合我们的自愿承诺。并根据我们的自愿承诺.我们对网络安全、CBRN、说服力和模型自主性的评估表明，GPT-4o 在这些类别中的得分均未超过中等风险。这项评估包括在整个模型训练过程中运行一套自动和人工评估。我们使用自定义微调和提示对模型的安全缓解前版本和安全缓解后版本进行了测试，以更好地激发模型的能力。
GPT-4o 还与 70 多名外部专家进行了广泛的外部红队测试。在社会心理学、偏见和公平性以及错误信息等领域，与 70 多名外部专家进行了广泛的红队讨论，以识别新添加的模式所带来或放大的风险。我们利用这些经验制定了安全干预措施，以提高与 GPT-4o 互动的安全性。
我们认识到 GPT-4o 的音频模式会带来各种新的风险。今天，我们将公开发布文本和图像输入以及文本输出。在接下来的几周和几个月中，我们将致力于技术基础设施、通过后期培训提高可用性以及发布其他模式所需的安全性。例如，在推出时，音频输出将仅限于选择预设的声音，并将遵守我们现有的安全政策。我们将在即将发布的系统卡中分享有关 GPT-4o 全部模式的更多细节。
通过对模型的测试和反复修改，我们发现该模型的所有模式都存在一些局限性，以下是其中的几个例子。

我们希望得到反馈，以帮助确定 GPT-4 Turbo 在哪些任务上仍优于 GPT-4o，从而继续改进模型。

模型可用性

GPT-4o 是我们在推动深度学习发展方面迈出的最新一步，这次是朝着实际可用性的方向迈进。在过去两年中，我们花费了大量精力，致力于提高堆栈每一层的效率。作为这项研究的第一个成果，我们能够更广泛地提供 GPT-4 级模型。GPT-4o 的功能将逐步推出（从今天开始扩大红队访问权限）。

GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。我们将在免费层和 Plus 用户中提供 GPT-4o，信息限制最高可提高 5 倍。未来几周，我们将在 ChatGPT Plus 中推出带有 GPT-4o 的新版语音模式 alpha。

开发人员现在也可以在 API 中以文本和视觉模式访问 GPT-4o。与 GPT-4 Turbo 相比，GPT-4o 速度快 2 倍，价格便宜一半，速率限制高 5 倍。我们计划在未来几周内，在 API 中向一小群值得信赖的合作伙伴推出对 GPT-4o 的新音频和视频功能的支持。