Anthropic 通过 Claude 3.5 Haiku、改进的计算机控制 Claude 3.5 Sonnet 以及 Palantir 与美国政府情报和国防行动的合作,推进人工智能发展
Anthropic 发布了新版本的 Claude 3.5,与之前的 Claude 模型和竞争人工智能模型相比,功能得到了改进。与 Palantir 合作,为美国政府情报和国防部门提供经认证可用于机密级文件的 Claude 人工智能。
Claude 3.5 Sonnet 经过改进,具有直接使用计算机的功能。这使得人工智能可以通过移动鼠标、打开应用程序、与窗口互动以及像人类一样使用软件工具来控制和操作计算机。OSWorld 开放式任务基准测试了这项新增加的功能。结果显示,它的得分率为 14.9%,几乎是同类人工智能的两倍,但却落后于人类的 72.36%。造成这一成绩的原因是克劳德在教授如何操作电脑方面缺乏经验。换句话说,人类在训练人工智能正确操作电脑方面面临挑战,比如用多个文件中的新数据更新电子表格。
此外,一个速度更快、体积更小的版本也已发布,名为 "克劳德 3.5 俳句",不具备计算机操作能力。这种人工智能的设计目的是快速反应,而不是花几秒钟来思考一个答案,同时使用的计算资源也要少得多。因此,在回答较简单的问题时,成本要低得多。在与同类迷你人工智能模型 OpenAI GPT-4o 的直接比较中,Haiku 的表现始终更胜一筹。
Anthropic 和 Palantir 与亚马逊网络服务(AWS)合作,发布了用于美国政府机密文件的孤岛式克劳德人工智能。美国国防部(DoD)IL6-accredited服务为美国机构提供了改造复杂任务的能力,加快了完成时间,减少了人力工作量需求,例如在识别和锁定关键目标时,同时保护了美国。
除了用于以下方面的 Claude 应用程序 Android和 Apple此外,Anthropic 还发布了用于 Windows 和 Mac 桌面的Claude 测试版。.对人工智能有更多需求的读者可以试用 Plaud 人工智能录音机(亚马逊上有售),可以自动转录和总结数小时的枯燥单口相声。
人类学 =====
介绍电脑使用、新的克劳德3.5十四行诗和克劳德3.5俳句
2024年10月22日
5 分钟阅读
克劳德浏览电脑光标的插图
更新(2024 年 4 月 11 日):我们修改了 Claude 3.5 Haiku 的定价。现在,该模型的输入价格为 1 MTok 美元,输出价格为 5 MTok 美元。
今天,我们宣布推出升级版 Claude 3.5 Sonnet 和新型号 Claude 3.5 Haiku。升级后的 Claude 3.5 Sonnet 与前代产品相比有了全面的改进,尤其是在编码方面有了显著的提高--在这一领域,Claude 3.5 Sonnet 已经处于领先地位。Claude 3.5 Haiku 在许多评估中的性能与 Claude 3 Opus(我们之前最大的机型)不相上下,速度与上一代 Haiku 相似。
我们还在公开测试版中推出了一项突破性的新功能:计算机使用。现在,开发人员可以通过 API,指导 Claude 像人一样使用计算机,如看屏幕、移动光标、点击按钮和输入文本。Claude 3.5 Sonnet 是首个在公开测试版中提供电脑使用功能的前沿人工智能模型。在现阶段,它仍处于实验阶段,有时操作繁琐,容易出错。我们提前发布了计算机使用功能,以征求开发人员的反馈意见,并希望随着时间的推移,该功能能得到迅速改进。
Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已经开始探索这些可能性,执行需要几十步甚至几百步才能完成的任务。例如,Replit 公司正在利用 Claude 3.5 Sonnet 在计算机使用和用户界面导航方面的能力,开发一项关键功能,在为其 Replit Agent 产品构建应用程序时对其进行评估。
升级后的 Claude 3.5 Sonnet 现已向所有用户开放。从今天开始,开发人员可以在 Anthropic API、亚马逊 Bedrock 和谷歌云的 Vertex AI 上使用计算机使用测试版进行构建。新版 Claude 3.5 Haiku 将于本月晚些时候发布。
Claude 3.5 Sonnet:行业领先的软件工程技能
更新后的 Claude 3.5 Sonnet 在行业基准测试中取得了广泛的改进,尤其是在代理编码和工具使用任务方面。在编码方面,它在 SWE 基准验证中的表现从 33.4% 提高到 49.0%,得分高于所有公开可用的模型,包括 OpenAI o1-preview 等推理模型和专为代理编码设计的专业系统。它还提高了代理工具使用任务 TAU-bench 的性能,在零售领域从 62.6% 提高到 69.2%,在更具挑战性的航空领域从 36.0% 提高到 46.0%。新的 Claude 3.5 Sonnet 在价格和速度上与前代产品相同,但却取得了这些进步。
早期的客户反馈表明,升级版 Claude 3.5 Sonnet 代表了人工智能驱动的编码技术的重大飞跃。GitLab 针对 DevSecOps 任务对该模型进行了测试,发现它的推理能力更强(在不同的使用案例中可达 10%),而且没有增加延迟,是支持多步骤软件开发流程的理想选择。Cognition 使用新的 Claude 3.5 Sonnet 进行自主人工智能评估,与前一版本相比,在编码、规划和问题解决方面有了大幅改进。浏览器公司在使用该模型实现基于网络的工作流程自动化时,注意到 Claude 3.5 Sonnet 的性能超过了他们之前测试过的所有模型。
作为我们与外部专家合作的持续努力的一部分,美国人工智能安全研究所(US AISI)和英国安全研究所(UK AISI)对新的 Claude 3.5 Sonnet 模型进行了联合部署前测试。
我们还对升级后的 Claude 3.5 Sonnet 进行了灾难性风险评估,发现我们的 "负责任扩展政策 "中概述的 ASL-2 标准仍然适用于该型号。
克劳德 3.5 Haiku:先进性与经济性和速度的完美结合
Claude 3.5 Haiku 是我们速度最快的新一代机型。Claude 3.5 Haiku 的速度与 Claude 3 Haiku 相近,但它在各种技能方面都有所提高,在许多智能基准测试中甚至超过了 Claude 3 Opus(我们上一代中最大的模型)。Claude 3.5 Haiku 在编码任务方面表现尤为突出。例如,它在 SWE 基准验证中的得分率为 40.6%,超过了许多使用最先进公开模型的代理,包括原始的 Claude 3.5 Sonnet 和 GPT-4o。
Claude 3.5 Haiku 拥有低延迟、改进的指令跟踪和更精确的工具使用,非常适合面向用户的产品、专业的子代理任务,以及从海量数据(如购买历史、定价或库存记录)中生成个性化体验。
Claude 3.5 Haiku 将于本月晚些时候在我们的第一方 API、亚马逊 Bedrock 和谷歌云的顶点人工智能(Vertex AI)上推出,最初是纯文本模型,随后将提供图像输入。
教会克劳德负责任地使用电脑
在计算机使用方面,我们正在尝试一些全新的方法。我们不是制作特定的工具来帮助克劳德完成个别任务,而是教授它一般的计算机技能--让它能够使用为人类设计的各种标准工具和软件程序。开发人员可以利用这种新生能力来自动完成重复性流程、构建和测试软件,以及执行研究等开放式任务。
为了使这些通用技能成为可能,我们开发了一个应用程序接口(API),让克劳德能够感知计算机界面并与之互动。开发人员可以集成该 API,使克劳德能够将指令(例如,"使用我的电脑和网上的数据填写这份表格")转化为计算机命令(例如,检查电子表格;移动光标打开网页浏览器;浏览相关网页;使用这些网页上的数据填写表格,等等)。OSWorld 对人工智能模型像人一样使用计算机的能力进行了评估,Claude 3.5 Sonnet 在纯截图类别中的得分率为 14.9%,明显高于次佳人工智能系统的 7.8%。当有更多步骤来完成任务时,克劳德的得分达到了 22.0%。
虽然我们预计克劳德的这种能力将在未来几个月内迅速提高,但它目前使用计算机的能力还不完善。目前,一些人们毫不费力就能完成的操作--滚动、拖动、缩放--对克劳德来说都是挑战,我们鼓励开发人员从低风险任务开始探索。由于计算机的使用可能会为垃圾邮件、错误信息或欺诈等更常见的威胁提供新的载体,因此我们正在采取积极主动的方法来促进其安全部署。我们已经开发出了新的分类器,可以识别计算机使用的时间以及是否正在造成危害。您可以在我们的 "开发计算机使用 "一文中阅读更多关于这项新技能背后的研究过程,以及关于安全措施的进一步讨论。
展望未来
这项技术仍处于初期阶段,从最初的部署中汲取经验将有助于我们更好地了解能力日益增强的人工智能系统的潜力和影响。
我们很高兴您能探索我们的新模型和计算机使用的公开测试版,并欢迎您与我们分享您的反馈意见。我们相信,这些发展将为您与克劳德的合作开辟新的可能性,我们期待着看到您的创造。
人类 ====
开发计算机使用模型
2024 年 10 月 22 日
7 分钟阅读
人工智能计算机使用的抽象表现形式,计算机光标点击神经网络的风格化表现形式
克劳德现在可以使用计算机了。最新版本的克劳德 3.5 Sonnet 在通过适当的软件设置运行后,可以按照用户的指令在电脑屏幕上移动光标,点击相关位置,并通过虚拟键盘输入信息,模拟人与电脑的交互方式。
我们认为,这项目前处于公开测试阶段的技能代表了人工智能进步的重大突破。下面,我们将与大家分享在开发计算机使用模型过程中的一些研究心得,以及如何让这些模型更加安全。
为什么要使用计算机?
为什么这种新能力很重要?大量的现代工作都是通过计算机完成的。让人工智能能够以与人类相同的方式直接与计算机软件进行交互,将开启大量应用,而这些应用对于当前一代的人工智能助手来说是根本不可能实现的。
在过去几年里,强大的人工智能发展已经取得了许多重要的里程碑式成果--例如,能够进行复杂的逻辑推理,能够看到和理解图像。下一个前沿领域是计算机应用:人工智能模型无需通过定制工具进行交互,而是能够按照指令使用任何软件。
研究过程
我们之前在工具使用和多模态方面的工作为这些新的计算机使用技能奠定了基础。操作计算机需要具备观看和解读图像的能力,这里的图像指的是计算机屏幕上的图像。它还需要根据屏幕上的内容推理如何以及何时执行特定操作。结合这些能力,我们训练克劳德解读屏幕上的内容,然后使用可用的软件工具执行任务。
当开发人员让克劳德使用一款计算机软件并赋予其必要的访问权限时,克劳德会查看用户所能看到的屏幕截图,然后计算光标需要垂直或水平移动多少像素才能点击正确的位置。训练克劳德准确计算像素至关重要。没有这项技能,模型就很难发出鼠标指令--这就好比模型在回答"'banana'(香蕉)一词中有几个 A?"等看似简单的问题时经常会遇到的困难。
让我们感到惊讶的是,克劳德在接受计算机使用训练后,仅使用计算器和文本编辑器等几款简单软件,就能迅速掌握计算机使用技能(出于安全考虑,我们在训练期间不允许模型访问互联网)。结合克劳德的其他技能,这种训练使它具备了非凡的能力,能够将用户的书面提示转化为一连串的逻辑步骤,然后在计算机上进行操作。我们观察到,该模型甚至会在遇到障碍时进行自我纠正并重试任务。
虽然在取得初步突破后,我们很快就取得了后续进展,但这需要大量的尝试和错误。我们的一些研究人员指出,开发计算机的使用与他们初入人工智能领域时想象的人工智能研究的 "理想化 "过程非常接近:不断迭代,反复回到绘图板,直到取得进展。
研究获得了回报。目前,克劳德最先进的研究成果是以与人相同的方式使用计算机的模型,即通过观察屏幕并采取相应行动。在 OSWorld 这个为测试开发者让模型使用计算机的尝试而创建的评估系统中,克劳德目前的得分率为 14.9%。虽然这还远远达不到人类的水平(一般为 70-75%),但却远远高于同类产品中排名第二的人工智能模型的 7.7%。
确保计算机使用安全
人工智能的每一次进步都会带来新的安全挑战。计算机的使用主要是降低人工智能系统应用其现有认知技能的门槛,而不是从根本上提高这些技能,因此我们对计算机使用的主要关注点是当前的危害而不是未来的危害。我们通过评估计算机的使用是否会增加我们的 "负责任的扩展政策 "中所述的前沿威胁风险,证实了这一点。我们发现,更新后的 Claude 3.5 Sonnet,包括其新的计算机使用技能,仍处于人工智能安全等级 2 级,也就是说,它不需要比我们现有的安全和安保措施更高的标准。
当未来的模型因为存在灾难性风险而需要人工智能安全等级 3 级或 4 级保障措施时,计算机使用可能会加剧这些风险。我们判断,在模型还只需要人工智能安全等级 2 的保障措施时,现在就引入计算机的使用可能会更好。这意味着我们可以在风险过高之前开始解决任何安全问题,而不是在风险严重得多的模型中首次添加计算机使用功能。
本着这种精神,我们的信任与安全团队对新的计算机使用模型进行了广泛的分析,以找出潜在的漏洞。他们发现的一个问题是 "提示注入"--这是一种网络攻击,即向人工智能模型输入恶意指令,使其推翻之前的指令或执行偏离用户初衷的意外操作。由于克劳德可以解读来自联网电脑的截图,因此它有可能接触到包括提示注入攻击的内容。
在我们的公开测试版中使用计算机使用版本 Claude 的用户应采取相关预防措施,将此类风险降至最低。作为开发人员的资源,我们在参考实现中提供了进一步的指导。
与任何人工智能功能一样,用户也有可能故意滥用克劳德的计算机技能。我们的团队开发了分类器和其他方法来标记和减少这类滥用。鉴于美国大选在即,我们对可能被视为破坏公众对选举过程信任的滥用企图保持高度警惕。虽然计算机的使用还不够先进,也无法达到相对于现有能力而言会带来更大风险的操作规模,但我们已经采取了措施来监控克劳德何时被要求参与与选举有关的活动,并建立了系统来提醒克劳德不要参与在社交媒体上生成和发布内容、注册网域或与政府网站互动等活动。在公开测试阶段,我们将不断评估和改进这些安全措施,以平衡 Claude 的功能和负责任的使用。
根据我们对数据隐私的标准处理方式,默认情况下,我们不会对用户提交的数据(包括 Claude 收到的任何屏幕截图)训练我们的人工智能生成模型。
计算机使用的未来
计算机使用是一种完全不同的人工智能开发方法。到目前为止,LLM 开发人员都是让工具与模型相匹配,创建自定义环境,让人工智能使用专门设计的工具完成各种任务。现在,我们可以让模型适应工具--克劳德可以适应我们日常使用的计算机环境。我们的目标是让克劳德能够像人一样使用已有的计算机软件。
我们还有很多工作要做。克劳德使用电脑的速度仍然很慢,而且经常出错。人们在电脑上经常做的许多操作(拖动、缩放等),克劳德还无法尝试。克劳德查看屏幕的 "翻书 "性质--截图并将它们拼凑在一起,而不是观察更细粒度的视频流--意味着它可能会错过短暂的操作或通知。
即使是在为今天的发布会录制电脑使用演示时,我们也遇到了一些有趣的错误。有一次,克劳德不小心点击了停止长时间屏幕录制的按钮,导致所有镜头丢失。还有一次,克劳德突然中断了编码演示,开始浏览黄石国家公园的照片。
我们预计,计算机的使用将迅速改善,变得更快、更可靠,对用户想要完成的任务也更有用。对于软件开发经验较少的人来说,计算机的使用也将变得更加容易。在每个阶段,我们的研究人员都将与我们的安全团队密切合作,确保克劳德的新功能与适当的安全措施相辅相成。
我们邀请在公开测试版中试用计算机的开发人员使用本表与我们联系,提供反馈意见,以便我们的研究人员继续改进这一新功能的实用性和安全性。
PALANTIR ====
11 / 07 / 2024
Anthropic与Palantir合作将克劳德人工智能模型引入AWS,用于美国政府情报和国防行动
丹佛--(BUSINESS WIRE)--Anthropic和Palantir Technologies Inc.(纽约证券交易所股票代码:PLTR)今天宣布与亚马逊网络服务(AWS)合作,为美国情报和国防机构提供在AWS上访问Claude 3和3.5系列模型的机会。这种合作关系允许在 Palantir 的人工智能平台 (AIP) 中使用一套集成技术来操作 Claude,同时利用 AWS 提供的安全性、敏捷性、灵活性和可持续性优势。
这种合作关系有助于负责任地应用人工智能,使 Claude 能够在 Palantir 的产品中使用,以支持政府运作,例如快速处理大量复杂数据、提升数据驱动的洞察力、更有效地识别模式和趋势、简化文件审查和准备工作,以及帮助美国官员在时间敏感的情况下做出更明智的决策,同时保留他们的决策权。本月早些时候,Claude 可在 AWS 上的 Palantir AIP 中访问。
有了Palantir的AIP,客户现在可以使用集成的技术套件运行Claude,该套件由亚马逊SageMaker(一项经认证的全面管理服务)提供,并托管在Palantir经认证的影响等级6(IL6)环境中,由AWS提供支持。Palantir和AWS是获得国防信息系统局(DISA)IL6认证的少数公司之一,该认证要求采用最严格的安全协议。
"Palantir首席技术官Shyam Sankar表示:"我们与Anthropic和AWS的合作为美国国防和情报部门提供了安全利用和部署人工智能模型所需的工具链,为其最关键的任务带来了下一代决策优势。"Palantir很荣幸能成为首个将Claude模型引入机密环境的行业合作伙伴。我们已经亲眼目睹了这些模型与 AIP 在商业领域产生的影响:例如,一家领先的美国保险公司利用由 AIP 和 Claude 提供支持的 78 个人工智能代理,将其承保流程的很大一部分实现了自动化,将原来需要两周的流程转变为三小时即可完成的流程。现在,我们正在为美国政府及其盟友提供同样的非对称人工智能优势。
"我们很自豪能够走在前列,为美国的机密环境带来负责任的人工智能解决方案,提高重要政府业务的分析能力和运营效率。在 AWS 上访问 Palantir AIP 中的 Claude 3 和 Claude 3.5 将为美国国防和情报机构提供强大的人工智能工具,能够快速处理和分析大量复杂数据。这将极大地改进情报分析,使官员能够在决策过程中简化资源密集型任务,并提高各部门的运营效率,"Anthropic 销售与合作主管 Kate Earle Jensen 说。
"我们很高兴能与 Anthropic 和 Palantir 合作,提供新的生成式人工智能功能,推动整个公共部门的创新。AWS全球公共部门副总裁Dave Levy表示:"在AWS,我们致力于为公共部门客户和合作伙伴提供最安全、最创新、最全面的云服务。
关于Palantir Technologies Inc.
未来的基础软件。今日交付。更多信息,请访问:https://www.palantir.com 。
前瞻性声明
本新闻稿包含1933年《证券法》修订版第27A条和1934年《证券交易法》修订版第21E条所指的前瞻性声明。这些声明可能涉及但不限于 Palantir 对合同金额和条款的预期,以及我们软件平台的预期收益。前瞻性声明本身存在风险和不确定性,其中有些风险和不确定性无法预测或量化。前瞻性表述以表述时可获得的信息为基础,并基于当前的预期以及管理层当时对未来事件的看法和假设。这些陈述存在风险和不确定性,其中许多涉及我们无法控制的因素或情况。这些风险和不确定因素包括:我们满足客户独特需求的能力;我们的平台无法满足客户需求或无法按预期运行;任何软件和实施错误的频率或严重程度;我们平台的可靠性;以及客户修改或终止合同的能力。有关这些及其他风险和不确定性的更多信息,请参见我们不时向美国证券交易委员会提交的文件。除法律要求外,我们不承担因新信息、未来发展或其他原因而公开更新或修订任何前瞻性声明的义务。
媒体联系方式
摩根-格雷斯
资料来源:Palantir Technologies Inc:资料来源:Palantir Technologies Inc.
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名