Reddit用户先发现的--克劳德突然更锋利, 更有能力现在我们知道原因了:Anthropic已经对其AI模型进行了重大升级,包括增强的Claude 3.5 Sonnet和对其轻量级Haiku模型的急需升级。
最新消息:这些人工智能现在可以像人类一样物理控制计算机、移动光标、滚动页面甚至点击按钮。
在一段视频演示中,Anthropic研究员Sam Ringer展示了Claude如何能够通过滚动电子表格在外部网站上填写表格,在分析了公司的CRM后搜索公司的信息,然后理解并填写表格中的字段。
Anthropic在一篇文章中说:“现在API上提供了Claude,开发人员可以指导Claude使用计算机,就像人们看屏幕、移动光标、点击按钮和输入文本一样。Claude 3.5 Sonnet是第一个提供计算机使用的前沿人工智能模型。”官方公告今天早些时候。“我们提前发布了计算机使用情况,以征求开发人员的反馈,并预计随着时间的推移,这种能力会迅速提高。”
Anthropic(或者可能是其按下按钮的人工智能之一?Jk.)似乎在他们宣布之前就发布了该模型。几个小时以来,Claude和Anthropic的子版块里挤满了试图知道到底发生了什么的人,因为他们的人工智能做得很好:用户报告说它更快、更准确,令人惊讶的是,它不再道歉了。
“克劳德回来了,好多了。它只是让你,像真正理解意图一样回应,而不是死气沉沉的回应。”NextGenA用户在Reddit的一篇帖子中说。“使用o1 Mini和o1 Preview在一个编码问题上卡住了几个小时,逐渐输出越来越差的响应。用完全相同的提示将问题提交给Claude,它一下子就没有问题了。”Roth_Skyfire在另一条评论中说。
他们是对的。Anthropic报告称,在SWE台架验证测试中,Claude 3.5 Sonnet的编码能力从33.4%飙升至49%,击败了OpenAI o1预览版等竞争对手。这不仅仅是一个小问题。Anthropic报告的每一个基准都表明,新的Claude 3.5 Sonnet比原始模型要好得多。
图片:Anthropic
但这就是事情变得真正有趣的地方。升级后的Sonnet不仅更智能;它现在能够控制你的电脑。Anthropic称此新功能为“计算机使用,”目前处于公测阶段。它的工作方式是,你让克劳德访问你的桌面,并执行一个任务。然后,人工智能将开始像人类一样通过远程桌面使用您的计算机——移动光标、单击按钮、键入命令、填写表单和文本字段,就像人类一样。
然而,此功能只能通过API提供,因此最终用户在短期内无法享受。
Anthropic已经训练克劳德在视觉上解释你屏幕上发生的事情。开发人员可以指示它执行诸如填写表单、浏览网站甚至使用软件应用程序等任务。这有点像让你的人工智能能够坐在你的电脑前为你工作,只是它不会累,(希望)不会像我们人类那样犯那么多错误。
该功能处于测试阶段,因为它仍然会遇到一些基本问题——滚动和缩放会给它带来麻烦。这就是为什么Anthropic会密切关注事情,将截图存储至少30天,并进行安全检查以发现任何可疑行为。
这家公司的偏执是有根据的。几个月前,微软推出了一项名为“Recall”的功能,该功能允许Copilot+对用户的计算机进行截图,从而使其人工智能更加有用和相关。噪音太大了,微软不得不推迟计划之后Copilot+Recall功能被视为“间谍软件”--当局开始调查它.
但Anthropic是由好人组成的,他们承诺自己与众不同。研究小组表示:“我们发现,更新后的Claude 3.5 Sonnet,包括其新的计算机使用技能,仍处于人工智能安全级别2——也就是说,它不需要比我们目前实施的更高的安全和安保措施标准。”。
像Replit这样的公司已经在整合Claude的计算机使用功能,以帮助自动化应用程序评估,而The Browser Company正在测试其简化基于网络的工作流程的能力。这些早期采用者正在探索让Claude处理通常需要几十个甚至几百个手动步骤的任务的方法。
此外,Anthropic的预算友好型车型Claude 3.5 Haiku现在与之前的旗舰车型Claude 3 Opus一样强大。然而,这种模型的运行成本只有它的一小部分,延迟也低得多,使其在不牺牲太多性能的情况下更容易访问。
Claude 3.5 Haiku特别擅长编码任务和工具使用,SWE bench Verified得分为40.6%。这使得它领先于市场上一些更昂贵的型号,这意味着预算有限的开发商不必在质量上妥协。
Claude 3.5 Haiku将于11月上市。