Anthropic发布新的克劳德3.5十四行诗：一个足够聪明的模型来接管你的电脑

Bitget App

交易“智”变

Bitget

资讯中心

币界网2024/10/22 20:32

作者:币界网

人工智能巨头Anthropic刚刚对其模型进行了重大更新，包括一项让人工智能物理控制计算机的功能。

Reddit用户先发现的--克劳德突然更锋利, 更有能力现在我们知道原因了：Anthropic已经对其AI模型进行了重大升级，包括增强的Claude 3.5 Sonnet和对其轻量级Haiku模型的急需升级。

最新消息：这些人工智能现在可以像人类一样物理控制计算机、移动光标、滚动页面甚至点击按钮。

在一段视频演示中，Anthropic研究员Sam Ringer展示了Claude如何能够通过滚动电子表格在外部网站上填写表格，在分析了公司的CRM后搜索公司的信息，然后理解并填写表格中的字段。

Anthropic在一篇文章中说：“现在API上提供了Claude，开发人员可以指导Claude使用计算机，就像人们看屏幕、移动光标、点击按钮和输入文本一样。Claude 3.5 Sonnet是第一个提供计算机使用的前沿人工智能模型。”官方公告今天早些时候。“我们提前发布了计算机使用情况，以征求开发人员的反馈，并预计随着时间的推移，这种能力会迅速提高。”

Anthropic（或者可能是其按下按钮的人工智能之一？Jk.）似乎在他们宣布之前就发布了该模型。几个小时以来，Claude和Anthropic的子版块里挤满了试图知道到底发生了什么的人，因为他们的人工智能做得很好：用户报告说它更快、更准确，令人惊讶的是，它不再道歉了。

“克劳德回来了，好多了。它只是让你，像真正理解意图一样回应，而不是死气沉沉的回应。”NextGenA用户在Reddit的一篇帖子中说。“使用o1 Mini和o1 Preview在一个编码问题上卡住了几个小时，逐渐输出越来越差的响应。用完全相同的提示将问题提交给Claude，它一下子就没有问题了。”Roth_Skyfire在另一条评论中说。

他们是对的。Anthropic报告称，在SWE台架验证测试中，Claude 3.5 Sonnet的编码能力从33.4%飙升至49%，击败了OpenAI o1预览版等竞争对手。这不仅仅是一个小问题。Anthropic报告的每一个基准都表明，新的Claude 3.5 Sonnet比原始模型要好得多。

Anthropic发布新的克劳德3.5十四行诗：一个足够聪明的模型来接管你的电脑 image 0

图片：Anthropic

但这就是事情变得真正有趣的地方。升级后的Sonnet不仅更智能；它现在能够控制你的电脑。Anthropic称此新功能为“计算机使用，”目前处于公测阶段。它的工作方式是，你让克劳德访问你的桌面，并执行一个任务。然后，人工智能将开始像人类一样通过远程桌面使用您的计算机——移动光标、单击按钮、键入命令、填写表单和文本字段，就像人类一样。

然而，此功能只能通过API提供，因此最终用户在短期内无法享受。

Anthropic已经训练克劳德在视觉上解释你屏幕上发生的事情。开发人员可以指示它执行诸如填写表单、浏览网站甚至使用软件应用程序等任务。这有点像让你的人工智能能够坐在你的电脑前为你工作，只是它不会累，（希望）不会像我们人类那样犯那么多错误。

该功能处于测试阶段，因为它仍然会遇到一些基本问题——滚动和缩放会给它带来麻烦。这就是为什么Anthropic会密切关注事情，将截图存储至少30天，并进行安全检查以发现任何可疑行为。

这家公司的偏执是有根据的。几个月前，微软推出了一项名为“Recall”的功能，该功能允许Copilot+对用户的计算机进行截图，从而使其人工智能更加有用和相关。噪音太大了，微软不得不推迟计划之后Copilot+Recall功能被视为“间谍软件”--当局开始调查它.

但Anthropic是由好人组成的，他们承诺自己与众不同。研究小组表示：“我们发现，更新后的Claude 3.5 Sonnet，包括其新的计算机使用技能，仍处于人工智能安全级别2——也就是说，它不需要比我们目前实施的更高的安全和安保措施标准。”。

像Replit这样的公司已经在整合Claude的计算机使用功能，以帮助自动化应用程序评估，而The Browser Company正在测试其简化基于网络的工作流程的能力。这些早期采用者正在探索让Claude处理通常需要几十个甚至几百个手动步骤的任务的方法。

此外，Anthropic的预算友好型车型Claude 3.5 Haiku现在与之前的旗舰车型Claude 3 Opus一样强大。然而，这种模型的运行成本只有它的一小部分，延迟也低得多，使其在不牺牲太多性能的情况下更容易访问。

Claude 3.5 Haiku特别擅长编码任务和工具使用，SWE bench Verified得分为40.6%。这使得它领先于市场上一些更昂贵的型号，这意味着预算有限的开发商不必在质量上妥协。

Claude 3.5 Haiku将于11月上市。

免责声明：文章中的所有内容仅代表作者的观点，与本平台无关。用户不应以本文作为投资决策的参考。

PoolX：锁仓获得新代币空投

不要错过热门新币，且APR 高达 10%+