OpenAI ChatGPT 利用新的深度研究功能,获得了创建复杂、有据可查的答案的能力
OpenAI 为 ChatGPT 增加了深度研究能力,允许人工智能在互联网上搜索所需的信息,采取多个步骤得出答案,并花费更多时间完成工作。通过这样做,OpenAI 在 "人类最后的考试 "人工智能大型语言模型 (LLM) 基准测试中,将 ChatGPT 在回答难度极高的博士级问题时的准确率提高了一倍。
通过访问实时互联网,深入研究的 ChatGPT 可以提供最新的答案。大多数人工智能 LLM 都有固定的知识,因为它们是在静态的输入文档集上训练出来的。因此,它们只能正确回答依赖于训练时可用信息的问题,而不是训练后的问题。现在,ChatGPT 利用即将推出的 o3 LLM 模型,可以访问互联网并进行数据分析。
深度研究的多步骤思维与人类如何得出复杂问题的答案类似。ChatGPT 可以收集回答复杂问题各方面所需的基本信息,然后分析并整合这些知识,得出最终答案。例如,它可以首先收集笔记本电脑各品牌销售数据和台式机各品牌销售数据,然后比较两者,看看哪个品牌在笔记本电脑或台式机销售中占主导地位。
大多数聊天机器人回答提示的时间有限,一般不超过十秒。对一个复杂的提示做出一个深思熟虑、有理有据的回答需要更多的时间来研究和完成,而 ChatGPT 现在需要长达 30 分钟的时间来得出答案。
ChatGPT 的专业用户将首先使用深度研究功能,然后是 Plus、Team 和 Enterprise 用户。美国的付费用户可以立即使用,欧洲经济区、瑞士和英国的用户将在毕业后使用。深度研究功能的计算量非常大,最多需要 30 分钟才能完成回答,因此专业版用户最初每月只能进行 100 次查询。专业版的订阅费用目前为每月 200 美元。
2025 年 2 月 2 日
发布
深度研究介绍
一款使用推理方法综合大量在线信息并为您完成多步骤研究任务的代理。专业版用户今天可用,Plus 版和 Team 版随后可用。
今天,我们在 ChatGPT 中推出了深度研究功能,这是一种新的代理功能,可在互联网上针对复杂任务进行多步骤研究。它能在数十分钟内完成人类需要数小时才能完成的任务。
深度研究是 OpenAI 的下一个代理,它可以独立为您完成工作--您只需给它一个提示,ChatGPT 就会查找、分析和综合数百个在线资源,从而创建一份研究分析师级别的综合报告。ChatGPT 由即将推出的 OpenAI o3 模型的一个版本提供支持,该模型针对网页浏览和数据分析进行了优化,它利用推理来搜索、解释和分析互联网上的海量文本、图片和 PDF 文件,并根据需要对遇到的信息做出反应。
综合知识的能力是创造新知识的前提。因此,深度研究标志着我们向开发 AGI 这一更广泛的目标迈出了重要的一步。
我们为什么要建立深度研究
深度研究是为那些在金融、科学、政策和工程等领域从事密集型知识工作,并需要全面、精确和可靠研究的人而构建的。它同样适用于眼光独到的购物者,为他们提供超个性化的购物建议,这些建议通常需要仔细研究,如汽车、电器和家具等。每项产出都有完整的记录,并附有清晰的引文和思维摘要,便于参考和验证信息。它在查找需要浏览大量网站的小众、非直观信息方面尤为有效。深度研究只需一次查询,就能卸载并加快复杂、耗时的网络研究,从而节省宝贵的时间。
深度研究可以独立发现、推理和整合来自整个网络的见解。为了实现这一目标,我们使用我们的首个推理模型 OpenAI o1 背后的相同强化学习方法,在需要使用浏览器和 Python 工具的实际任务中对其进行了训练。虽然 o1 在编码、数学和其他技术领域表现出了令人印象深刻的能力,但现实世界中的许多挑战都需要从不同的在线资源中收集广泛的上下文和信息。深度研究以这些推理能力为基础,弥补了这一差距,使其能够解决人们在工作和日常生活中面临的各类问题。
如何使用深度研究
在 ChatGPT 中,在信息组成器中选择 "深度研究",然后输入您的查询。告诉 ChatGPT 你的需求--无论是关于流媒体平台的竞争分析,还是关于最佳通勤自行车的个性化报告。您可以附加文件或电子表格,为您的问题添加背景信息。一旦开始运行,侧边栏就会显示所采取步骤和所用资料来源的摘要。
深度研究可能需要 5 到 30 分钟才能完成工作,这需要时间深入网络。在此期间,你可以离开或处理其他任务,研究完成后你会收到通知。最终输出会以报告形式出现在聊天工具中,在接下来的几周内,我们还将在这些报告中添加嵌入式图片、数据可视化和其他分析输出,以提高清晰度和上下文。
与深入研究相比,GPT-4o 是实时、多模态对话的理想选择。对于深度和细节至关重要的多方面、特定领域的查询,深度研究能够进行广泛的探索,并对每项主张进行引证,这就是快速摘要与有据可查、经过验证并可作为工作成果使用的答案之间的区别。
今天,我们在 ChatGPT 中推出了深度研究功能,这是一种新的代理能力,可在互联网上针对复杂任务开展多步骤研究。它能在数十分钟内完成人类需要数小时才能完成的任务。
深度研究是 OpenAI 的下一个代理,它可以独立为您完成工作--您只需给它一个提示,ChatGPT 就会查找、分析和综合数百个在线资源,从而创建一份研究分析师级别的综合报告。ChatGPT 由即将推出的 OpenAI o3 模型的一个版本提供支持,该模型针对网页浏览和数据分析进行了优化,它利用推理来搜索、解释和分析互联网上的海量文本、图片和 PDF 文件,并根据需要对遇到的信息做出反应。
综合知识的能力是创造新知识的前提。因此,深度研究标志着我们向开发 AGI 这一更广泛的目标迈出了重要的一步。
我们为什么要建立深度研究
深度研究是为那些在金融、科学、政策和工程等领域从事密集型知识工作,并需要全面、精确和可靠研究的人而构建的。它同样适用于眼光独到的购物者,为他们提供超个性化的购物建议,这些建议通常需要仔细研究,如汽车、电器和家具等。每项产出都有完整的记录,并附有清晰的引文和思维摘要,便于参考和验证信息。它在查找需要浏览大量网站的小众、非直观信息方面尤为有效。深度研究只需一次查询,就能卸载并加快复杂、耗时的网络研究,从而节省宝贵的时间。
深度研究可以独立发现、推理和整合来自整个网络的见解。为了实现这一目标,我们使用我们的首个推理模型 OpenAI o1 背后的相同强化学习方法,在需要使用浏览器和 Python 工具的实际任务中对其进行了训练。虽然 o1 在编码、数学和其他技术领域表现出了令人印象深刻的能力,但现实世界中的许多挑战都需要从不同的在线资源中收集广泛的上下文和信息。深度研究以这些推理能力为基础,弥补了这一差距,使其能够解决人们在工作和日常生活中面临的各类问题。
如何使用深度研究
在 ChatGPT 中,在信息组成器中选择 "深度研究",然后输入您的查询。告诉 ChatGPT 你的需求--无论是关于流媒体平台的竞争分析,还是关于最佳通勤自行车的个性化报告。您可以附加文件或电子表格,为您的问题添加背景信息。一旦开始运行,侧边栏就会显示所采取步骤和所用资料来源的摘要。
深度研究可能需要 5 到 30 分钟才能完成工作,这需要时间深入网络。在此期间,你可以离开或处理其他任务,研究完成后你会收到通知。最终输出会以报告形式出现在聊天工具中,在接下来的几周内,我们还将在这些报告中添加嵌入式图片、数据可视化和其他分析输出,以提高清晰度和上下文。
与深入研究相比,GPT-4o 是实时、多模态对话的理想选择。对于深度和细节至关重要的多方面、特定领域的查询,深度研究能够进行广泛的探索,并对每项主张进行引证,这就是快速摘要与有据可查、经过验证并可作为工作成果使用的答案之间的区别。
GAIA
在 GAIA(在新窗口中打开)1 这个评估人工智能在真实世界问题上表现的公开基准测试中,支持深度研究的模型达到了新的技术水平(SOTA),在外部排行榜(在新窗口中打开)中名列前茅。这些任务包含三个难度级别的问题,成功完成这些任务需要具备推理、多模式流畅性、网页浏览和工具使用熟练程度等能力。
专家级任务
在对多个领域的专家级任务进行的内部评估中,领域专家认为深度研究自动完成了多个小时的艰苦手工调查。
局限性
深度研究释放了重要的新能力,但它仍处于早期阶段,存在局限性。根据内部评估,它有时会在回复中出现幻觉或做出错误推断,但其发生率明显低于现有的 ChatGPT 模型。它可能难以区分权威信息和谣言,目前在置信度校准方面表现薄弱,经常无法准确表达不确定性。在发布之初,报告和引文中可能会出现一些小的格式错误,任务启动可能需要更长的时间。我们希望随着使用的增加和时间的推移,所有这些问题都能很快得到改善。
访问
目前,ChatGPT 的深入研究需要大量的计算资源。研究查询所需的时间越长,所需的推理计算量就越大。我们从今天开始推出为专业版用户优化的版本,每月最多可进行 100 次查询。接下来,Plus 和 Team 用户将获得访问权限,然后是企业用户。我们仍在努力为英国、瑞士和欧洲经济区的用户提供访问权限。
当我们发布更快、更具成本效益的深度研究版本时,所有付费用户将很快获得更高的费率限制,该版本采用更小的模型,但仍能提供高质量的结果。
在接下来的几周和几个月里,我们将致力于技术基础设施的建设,密切监控当前版本,并进行更严格的测试。这符合我们的迭代部署原则。如果所有安全检查继续符合我们的发布标准,我们预计将在一个月内向 Plus 用户发布深度研究。
下一步计划
深度研究今天可在 ChatGPT 网页上使用,并将在一个月内推广到移动和桌面应用程序。目前,深度研究可以访问开放的网络和任何上传的文件。未来,您将可以连接到更专业的数据源,扩大对基于订阅或内部资源的访问,使其输出更加强大和个性化。
展望未来,我们设想在 ChatGPT 中结合代理体验,进行异步、真实世界的研究和执行。深度研究(可执行异步在线调查)与操作员(可在现实世界中采取行动)的结合将使 ChatGPT 能够为您执行越来越复杂的任务。
2025 年 2 月 3 日更新:我们对支持深度研究的 o3 早期版本进行了严格的安全测试、准备评估和治理审查,将其确定为中等(在新窗口中打开)风险。我们还进行了额外的安全测试,以更好地了解与深度研究的网络浏览能力相关的增量风险,并增加了新的缓解措施。我们将继续对当前的有限版本进行全面测试和密切监控。当我们扩大对 Plus 用户的访问时,我们将在系统卡中分享我们对深度研究的安全见解和保障措施。
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名