OpenAI 推出了新的软件工具,供商业应用开发人员创建定制的人工智能代理,以满足其特定的客户需求。这些工具结合了OpenAI人工智能产品的多种功能,简化了代理的编程。
像 OpenAI 的 ChatGPT 这样的人工智能聊天机器人之所以流行,是因为它们可以回答人们的提示。不过,这些聊天机器人大多局限于无需深入思考和研究的简单问题,如 "东京塔的高度是多少?"这些聊天机器人通常依赖于它们接受过训练的信息,综合答案的能力有限。
代理型人工智能可以上网获取信息,并像人类一样使用计算机,同时研究一个复杂的提示,如 "以 2000 美元的预算,创建一个包括热门动漫商店和景点在内的东京旅行计划"。这些人工智能可以深入研究,然后思考解决复杂的提示。
为了创建这些人工智能代理,OpenAI 创建了研究应用程序接口(Research API),让程序员只需几行代码就能创建代理。新的 API 基于其 Assistants API 测试版,并根据反馈意见改进了其易用性和速度。研究应用程序接口是当前聊天完成应用程序接口的超集,可根据提示创建文本答案,也是公司推荐使用的新应用程序接口。助手 API 将于 2026 年停用。
OpenAI 还发布了代理 SDK,帮助开发人员创建多代理工作流,其中一个专门的代理与其他代理合作处理客户的请求。例如,一个代理可以将产品退货请求转给退货代理,将购物想法请求转给购物代理。
2025 年 3 月 11 日
产品
构建代理的新工具
我们正在改进我们的平台,以帮助开发人员和企业构建有用、可靠的代理。
在 Playground 中试用(在新窗口中打开)
在流畅的蓝色抽象背景上,一个时尚、简约的界面显示了人工智能代理的任务列表,包括 "triage_agent"、"guardrail "和 "update_salesforce_record"。
今天,我们将发布第一套构建模块,帮助开发人员和企业构建有用、可靠的代理。我们将代理视为代表用户独立完成任务的系统。在过去的一年中,我们推出了新的模型功能,如高级推理、多模态交互和新的安全技术,这些功能为我们的模型处理构建代理所需的复杂、多步骤任务奠定了基础。不过,客户也表示,将这些功能转化为生产就绪的代理具有挑战性,通常需要大量的提示迭代和自定义协调逻辑,而没有足够的可视性或内置支持。
为了应对这些挑战,我们推出了一套新的 API 和工具,专门用于简化代理应用程序的开发:
新的回复 API(在新窗口中打开)结合了聊天完成 API 的简易性和助手 API 的工具使用功能,用于构建代理。
内置工具包括网络搜索(在新窗口中打开)、文件搜索(在新窗口中打开)和计算机使用(在新窗口中打开)
新的代理 SDK(在新窗口中打开),用于协调单代理和多代理工作流
集成的可观察性工具(在新窗口中打开),用于跟踪和检查代理工作流的执行情况
这些新工具简化了核心代理逻辑、协调和交互,大大方便了开发人员开始构建代理。在未来几周和几个月内,我们计划发布更多工具和功能,以进一步简化和加速在我们的平台上构建代理应用程序。
引入响应 API
Responses API 是我们新推出的 API 原始接口,用于利用 OpenAI 的内置工具构建代理。它结合了聊天完成的简单性和助手 API 的工具使用功能。我们相信,随着模型功能的不断发展,Responses API 将为开发人员构建代理应用程序提供更灵活的基础。开发人员只需调用一次应答 API,就能使用多种工具和模型解决日益复杂的任务。
首先,Responses API 将支持新的内置工具,如网络搜索、文件搜索和计算机使用。这些工具旨在协同工作,将模型与现实世界联系起来,使其在完成任务时更加有用。它还带来了几项可用性改进,包括统一的基于项的设计、更简单的多态性、直观的流事件和 SDK 助手(如 response.output_text),以便轻松访问模型的文本输出。
Responses API 专为希望将 OpenAI 模型和内置工具轻松结合到应用程序中的开发人员而设计,无需复杂地集成多个 API 或外部供应商。该 API 还能让 OpenAI 上的数据存储变得更容易,这样开发人员就可以使用跟踪和评估等功能来评估代理的性能。需要提醒的是,我们默认不在业务数据上训练模型,即使数据存储在 OpenAI 上也是如此。从即日起,所有开发人员均可使用 API,且无需单独付费--代币和工具按定价页面(在新窗口中打开)中规定的标准费率计费。查看 Responses API 快速入门指南(在新窗口中打开),了解更多信息。
这对现有 API 的意义
聊天完成 API(在新窗口中打开):聊天完成 API 仍然是我们最广泛采用的 API,我们将全力以赴通过新的模式和功能为其提供支持。不需要内置工具的开发人员可以放心地继续使用 Chat Completions。只要 Chat Completions 的功能不依赖于内置工具或多个模型调用,我们就会不断发布新模型。不过,Responses API 是 Chat Completions 的超集(在新窗口中打开),具有同样出色的性能,因此对于新的集成,我们建议从 Responses API 开始。
助手 API(在新窗口中打开):根据 Assistants API 测试版中开发人员的反馈,我们在 Responses API 中加入了关键改进,使其更灵活、更快速、更易用。我们正在努力实现 Assistants 和 Responses API 的功能完全一致,包括支持类助理和类线程对象以及代码解释器工具。一旦这项工作完成,我们计划正式宣布废弃 "助手 "应用程序接口,目标日落日期为 2026 年年中。废弃后,我们将提供从 Assistants API 到 Responses API 的清晰迁移指南,以便开发人员保留所有数据并迁移应用程序。在我们正式宣布停用之前,我们将继续向 Assistants API 提供新模型。Responses API 代表了在 OpenAI 上构建代理的未来方向。
在 Responses API 中引入内置工具
网络搜索
开发人员现在可以从网络上获得快速、最新的答案,并获得清晰、相关的引用。在 Responses API 中,网络搜索可作为使用 gpt-4o 和 gpt-4o-mini 时的工具,并可与其他工具或函数调用搭配使用。
JavaScript
1
const response = await openai.responses.create({
2
模型:"gpt-4o"、
3
工具:[ { type: "web_search_preview" } ]、
4
输入"今天发生的正面新闻是什么?
5
});
6
7
console.log(response.output_text);
在早期测试中,我们看到开发人员利用网络搜索构建了各种用例,包括购物助手、研究代理和旅行预订代理--任何需要及时从网络获取信息的应用。
例如,Hebbia(在新窗口中打开)利用网络搜索工具帮助资产管理公司、私募股权和信贷公司以及律师事务所从广泛的公共和私人数据集中快速提取可行的见解。通过将实时搜索功能集成到他们的研究工作流程中,Hebia 提供了更丰富的、针对具体情况的市场情报,并不断提高分析的精确性和相关性,超越了当前的基准。
API 中的网络搜索采用与 ChatGPT 搜索相同的模式。SimpleQA 是一个评估 LLM 回答简短事实性问题准确性的基准,GPT-4o 搜索预览和 GPT-4o 迷你搜索预览的得分率分别为 90% 和 88%。
SimpleQA 准确率(越高越好)
63%
38%
47%
15%
90%
88%
0
20
40
60
80
100
精度
GPT-4.5
GPT-4o
OpenAI o1
OpenAI o3-mini
GPT-4o
搜索预览
GPT-4o mini
搜索预览
通过 API 中的网络搜索生成的回复包含新闻文章和博客文章等来源的链接,为用户提供了了解更多信息的途径。有了这些清晰的内联引文,用户可以以一种新的方式接触信息,而内容所有者也获得了接触更多受众的新机会。
任何网站或出版商都可以选择在 API 的网络搜索中显示(在新窗口中打开)。
所有开发人员都可以在 Responses API 中预览网络搜索工具。我们还通过 gpt-4o-search-preview 和 gpt-4o-mini-search-preview 让开发人员直接访问聊天完成 API 中经过微调的搜索模型。GPT-4o 搜索和 4o-mini 搜索的起价(在新窗口中打开)分别为每千次查询 30 美元和 25 美元。在 Playground(在新窗口中打开)中查看网络搜索,并在我们的文档(在新窗口中打开)中了解更多信息。
文件搜索
开发人员现在可以使用改进后的文件搜索工具从大量文件中轻松检索相关信息。该工具支持多种文件类型、查询优化、元数据过滤和自定义重排,可以提供快速、准确的搜索结果。同样,利用 Responses API,只需几行代码即可集成。
JavaScript
1 const productDocs = await openai.vectorStores.create({
2 name: "Product Documentation"、
3 file_ids: [file1.id, file2.id, file3.id]、
4 });
5
6 const response = await openai.responses.create({
7 model:"gpt-4o-mini"、
8 tools:[{
9 type:"file_search"、
10 vector_store_ids: [productDocs.id]、
11 }],
12 输入"什么是 OpenAI 的深度研究?
13 });
14
15 console.log(response.output_text);
文件搜索工具可用于各种实际用例,包括让客户支持代理轻松访问常见问题,帮助法律助理快速参考合格专业人士的过往案例,以及协助编码代理查询技术文档。例如,Navan(在新窗口中打开)在其人工智能驱动的旅行代理中使用文件搜索,从知识库文章(如公司的旅行政策)中快速为用户提供精确的答案。通过内置的查询优化和重排功能,他们能够建立一个强大的 RAG(检索增强生成)管道,而无需额外的调整或配置。通过为每个用户组提供专用向量存储,Navan 能够根据个人账户设置和用户角色定制答案,为客户及其员工节省时间,同时帮助提供准确、个性化的支持。
所有开发人员都可以通过响应 API 使用该工具。使用费(在新窗口中打开)为每千次查询 2.50 美元,文件存储费为 0.10 美元/GB/天,首 GB 免费。该工具继续在 Assistants API 中提供。最后,我们还为 Vector Store API 对象添加了一个新的搜索端点,以便直接查询数据,供其他应用程序和 API 使用。在我们的文档(在新窗口中打开)中了解更多信息,并在 Playground(在新窗口中打开)中开始测试。
计算机使用
要构建能够在计算机上完成任务的代理,开发人员现在可以使用 Responses API 中的计算机使用工具,该工具由与 Operator 相同的计算机使用代理 (CUA) 模型提供支持。该研究预览模型创造了新的先进记录,在 OSWorld(在新窗口中打开)上完成全部计算机使用任务的成功率达到 38.1%,在 WebArena(在新窗口中打开)上达到 58.1%,在 WebVoyager(在新窗口中打开)上完成基于网络的交互的成功率达到 87%。
内置的计算机使用工具可捕捉模型生成的鼠标和键盘操作,使开发人员能够在其环境中将这些操作直接转化为可执行命令,从而实现计算机使用任务的自动化。
JavaScript
1 const response = await openai.responses.create({
2 model:"computer-use-preview"、
3 tools:[{
4 type:"computer_use_preview"、
5 display_width: 1024、
6 display_height: 768、
7 environment:"浏览器"、
8 }],
9 truncation:"auto"、
10 输入:"我正在寻找一款新相机。帮我找到最好的一款。"、
11 });
12
13 console.log(response.output);
开发人员可以使用计算机使用工具来自动执行基于浏览器的工作流,如对网络应用程序执行质量保证或跨遗留系统执行数据录入任务。例如,Unify(在新窗口中打开) 是一个增加收入的行动系统,它使用代理来识别意图、研究账户并与买家互动。通过使用 OpenAI 的计算机使用工具,Unify 的代理可以访问以前无法通过 API 访问的信息,例如,物业管理公司可以通过在线地图核实企业是否扩大了房地产业务范围。这项研究可作为触发个性化外联的定制信号,使市场团队能够精准、大规模地吸引买家。
另一个例子是,Luminai(在新窗口中打开)公司集成了计算机使用工具,以自动化大型企业复杂的运营工作流程,这些企业的传统系统缺乏应用程序接口(API)可用性和标准化数据。在最近与一家大型社区服务机构的试点项目中,Luminai仅用了几天时间就实现了申请处理和用户注册流程的自动化,而传统的机器人流程自动化(RPA)经过数月的努力也难以实现这一目标。
去年在 Operator 中推出 CUA 之前,我们进行了大量的安全测试和红队工作,解决了三个关键领域的风险:误用、模型错误和前沿风险。为了应对通过 API 中的 CUA 将 Operator 的功能扩展到本地操作系统所带来的风险,我们进行了额外的安全评估和红队测试。我们还为开发人员增加了缓解措施,包括防范提示注入的安全检查、敏感任务的确认提示、帮助开发人员隔离环境的工具,以及加强对潜在策略违规的检测。虽然这些缓解措施有助于降低风险,但该模型仍然容易在无意中犯错,尤其是在非浏览器环境中。例如,CUA 在 OSWorld(一个用于衡量人工智能代理在实际任务中的表现的基准)上的表现目前为 38.1%,这表明该模型在操作系统上自动执行任务的可靠性还不高。在这些情况下,建议由人工进行监督。有关 API 安全性工作的更多详情,请参阅我们更新的系统卡。
基准类型 基准 计算机使用(通用接口) 网页浏览代理 人类
OpenAI CUA 以前的 SOTA 以前的 SOTA
计算机使用 OSWorld 38.1% 22.0% - 72.4
浏览器使用 WebArena 58.1% 36.2% 57.1% 78.2
WebVoyager 87.0% 56.0% 87.0% -
评估详情如下
从今天起,计算机使用工具可作为研究预览版在 Responses API 中提供给使用层级为 3-5 的特定开发人员(在新窗口中打开)。使用价格(在新窗口中打开)为 3 美元/100 万个输入代币和 12 美元/100 万个输出代币。在我们的文档中了解更多信息(在新窗口中打开),并查看示例应用程序(在新窗口中打开),了解如何使用该工具构建。
代理 SDK
除了构建代理的核心逻辑并让它们能够访问工具以便发挥作用外,开发人员还需要协调代理工作流。我们新的开源 Agents SDK 简化了多代理工作流的协调,与 Swarm(在新窗口中打开)相比有了显著改进,后者是我们去年发布的一个实验性 SDK,被开发者社区广泛采用,并被多个客户成功部署。
改进包括
代理:可轻松配置的 LLM,具有清晰的说明和内置工具。
切换:在代理之间智能地转移控制权。
护栏可配置的输入和输出验证安全检查。
跟踪与可观察性可视化代理执行跟踪,以调试和优化性能。
Python
1 from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
2
3 @function_tool
4 def submit_refund_request(item_id: str, reason: str):
5 # 这里是您的退款逻辑
6 返回 "成功
7
8 support_agent = Agent(
9 name="Support & Returns"、
10 instructions="You are a support agent who can submit refunds [...]"、
11 tools=[submit_refund_request]、
12 )
13
14 shopping_agent = Agent(
15 name="Shopping Assistant"、
16 instructions="You are a shopping assistant who can search the web [...]"、
17 tools=[WebSearchTool()]、
18 )
19
20 triage_agent = Agent(
21 name="Triage Agent"、
22 instructions="将用户路由到正确的代理"、
23 handoffs=[shopping_agent,support_agent]、
24 )
25
26 output = Runner.run_sync(
27 starting_agent=triage_agent、
28 input="What shoes might work best with my outfit so far?"、
29 )
Agents SDK 适用于各种实际应用,包括客户支持自动化、多步骤研究、内容生成、代码审查和销售潜在客户。例如,Coinbase(在新窗口中打开)使用Agent SDK快速开发了AgentKit原型并进行了部署,AgentKit是一个能让人工智能代理与加密货币钱包和各种链上活动进行无缝交互的工具包。在短短几个小时内,Coinbase 就将开发者平台 SDK 中的自定义操作集成到了一个功能齐全的代理中。AgentKit的精简架构简化了添加新代理操作的过程,让开发人员可以将更多精力放在有意义的集成上,而不是浏览复杂的代理设置。
在短短几天内,Box(在新窗口中打开)就能利用网络搜索和Agent SDK快速创建代理,使企业能够从存储在Box和公共互联网资源中的非结构化数据中搜索、查询和提取洞察力。这种方法使客户不仅能访问最新信息,还能以安全可靠的方式搜索其内部专有数据,并遵守其内部权限和安全策略。例如,金融服务公司可以建立一个自定义代理,调用 Box AI 代理,将其存储在 Box 中的内部市场分析与来自网络的实时新闻和经济数据整合在一起,为其分析师的投资决策提供全面的视图。
Agents SDK 可与 Responses API 和 Chat Completions API 配合使用。只要其他提供商提供 Chat Completions 风格的 API 端点,SDK 也能与这些提供商的模型配合使用。开发人员可以立即将其集成到自己的 Python 代码库中,Node.js 支持也即将推出。更多信息,请参阅我们的文档(在新窗口中打开)。
在设计 Agents SDK 的过程中,我们的团队受到了 Pydantic(在新窗口中打开)、Griffe(在新窗口中打开)和 MkDocs(在新窗口中打开)等社区中其他开发者出色工作的启发。我们致力于继续将 Agents SDK 打造成一个开源框架,这样社区中的其他人就可以扩展我们的方法。
下一步:构建代理平台
我们相信,代理很快就会成为劳动力不可或缺的一部分,大大提高各行各业的生产力。随着公司越来越多地寻求利用人工智能来完成复杂的任务,我们致力于提供构建模块,使开发人员和企业能够有效地创建自主系统,从而产生实际影响。
通过今天的发布,我们推出了首批构建模块,使开发人员和企业能够更轻松地构建、部署和扩展可靠、高性能的人工智能代理。随着模型功能变得越来越代理化,我们将继续投资于 API 和新工具的深度集成,以帮助在生产中部署、评估和优化代理。我们的目标是为开发人员提供无缝的平台体验,以构建能帮助完成各行各业各种任务的代理。我们很期待看到开发人员下一步的开发成果。要开始使用,请浏览我们的文档(在新窗口中打开),并随时关注更多更新。
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名