大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科技

OpenAI 最强竞品大更新!一句话模拟人类用电腦,AI 智能体觉醒前的重大突破

2024-10-23 简体 HK SG TW

今天小编分享的科技经验:OpenAI 最强竞品大更新!一句话模拟人类用电腦,AI 智能体觉醒前的重大突破,欢迎阅读。

天下苦 OpenAI 挤牙膏久矣。

环顾宇内,能够与 OpenAI 抗衡的对手屈指可数,Anthropic 旗下的 Claude 模型至少算是一个靠谱的劲敌。

盼星星,盼月亮,没有等到「超大杯」Opus 的亮相,但好在也等来了全新更新的大杯 Claude 3.5 Sonnet。

简单总结这次更新的亮点:

拳打 GPT-4o,脚踢 Gemini 1.5 Pro,新版 Claude 3.5 Sonnet 表现遥遥领先

Claude 3.5 Haiku 响应速度最快,性能媲美 GPT-4o mini

构建 API,教 Claude 怎么玩电腦

教 Claude 玩电腦,AI 键盘侠来了?

这次更新的重头戏其实不是新模型,而是怎么教 AI 玩电腦。

Anthropic 推出了一个公开测试的革命性功能「computer use」:通过 API 教 Claude 像个人一样操作电腦,能看螢幕、动游標、点按钮、打字……

简单说就是,Claude 现在能用人类设计的标准工具和軟體了。而开发者可以借此解放一些枯燥的重复性流程任务,甚至进行开放式任务,如研究。

为了让 Claude 具备这种技能,Anthropic 通过一个 API 来让 Claude 能够感知并与计算机界面互動。

具体来说,开发者在互動过程中集成这一 API,让 Claude 将指令(比如:「用我电腦上的数据,结合网上信息填个表」)翻译成计算机指令(比如:检查个表格,动动滑鼠打开个浏览器,导航到相关网页,然后用网上的数据把表格填满)。

OSWorld 是一个用于测试多模态智能体在真实计算机环境中执行开放式任务的能力的基准测试平台,通常用来评估 AI 模型是否具备像人类一样使用计算机的能力。

Claude 3.5 Sonnet 在仅用截图的测试类别中得分 14.9%,远超第二名的 7.8%。在允许使用更多步骤时,Claude 的得分为 22.0%。

一些公司的产品已经提前用上了这一功能。

例如,Replit 正在利用 Claude 3.5 Sonnet 的计算机操作与界面导航能力,为其 Replit 智能体产品开发一项关键功能,用于评估正在构建中的应用程式。

当然,这种做法其实并不新鲜。

因为在此之前,Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已经开始探索这些可能性,执行需要几十甚至上百步的任务。

不过,理想很丰满,现实很骨感。

官方也坦诚,当前这一功能仍处于实验阶段,在操作计算机时速度较慢,并且经常会出现错误。一些简单的操作——比如滚动、拖动、缩放,看似人类一挥手就能搞定的事儿,对 Claude 来说依然是个不小的挑战。

在录制这些演示的过程中,我们遇到了一些有趣的插曲。有一次,Claude 不小心终止了一个正在进行的长时间螢幕录制,结果所有的录像素材都丢失了。

之后,Claude 在我们的编码演示间隙休息了一下,开始欣赏黄石国家公园的照片。

此外,Claude 通过截取螢幕的静态影像,然后将这些影像组合起来,以理解螢幕上发生的事情,但也正因此,它可能无法捕捉到螢幕上的短暂动作或通知,比如弹出視窗或快速变化的圖示。

官方也说了,之所以提前发布一个实验品,是为了获取开发者的反馈,预计这功能随着时间会逐渐有所改进。

Anthropic 开发者关系主管 Alex Albert 还分享了一个有趣的经历。

在开发「computer use 」功能时,他们组织了一次工程故障排查会,目的是找出 API 中所有潜在的问题。

几位工程师聚在一个房间里工作几个小时,但很快就饿了,所以其中一位工程师的第一个「computer use 」请求是让 Claude 导航到外卖平台 DoorDash 并订购足够的食物来喂饱大家。

Claude 思考了大约一分钟后, 最后给工程师们订了几份披萨。

网友也很快挖出了 computer use 功能拒绝做的清单:

在社交媒体或其他平台上创建账户

发送电子邮件或消息

在社交媒体上发布评论

进行购买

访问私人信息

完成验证码(CAPTCHA)

生成、编辑或修改图片

打电话

访问受限内容

执行需要个人身份验证的操作

真 · 推理模型之王,新模型编码遥遥领先

再来看看 Claude 3.5 Sonnet 交出的成绩单。

尽管现在大模型榜单的公信力已不如往日,但基于同一套考题的逻辑下,我们仍然能对新发布的模型有个初步了解。

拳打 GPT-4o,脚踢 Gemini 1.5 Pro,Claude 3.5 Sonnet 在 GPQA、MMLU Pro、HumanEVal 等一系列基准测试中表现亮眼,可谓是遥遥领先。

特别是在编码领網域,Claude 3.5 Sonnet 更是进一步拉大了领先优势。或许你会好奇,为什么基准测试里没有出现与 OpenAI o1 模型的对比。

别急,Anthropic 预判了你的预判,官方给出的解释是:

我们的评估表格中之所以没有包含 OpenAI 的 o1 模型系列,是因为它们在响应前需要大量的计算时间,这与大多数模型不同。这种本质上的区别使得进行性能比较变得复杂。

翻译一下就是,我们想比但也不好比。

不过,在 SWE-bench Verified 的编码测试中,Claude 3.5 Sonnet 的表现从 33.4% 提升到 49.0%,超过了所有公开可用的模型——包括 OpenAI o1-preview 等推理模型,以及各种智能体编码系统。

Claude 3.5 Sonnet 真 · 推理模型之王。

此外,在 TAU-bench 智能体工具测试中,Claude 3.5 Sonnet 也表现不俗。

TAU-bench 主要提供一个更接近真实世界应用场景的评估环境。

面对零售领網域问题,Claude 3.5 Sonnet 得分从 62.6% 提高至 69.2%,而面对航空方面的问题,其成绩也从 36.0% 上升至 46.0%。

更重要的是,这些改进并未提高价格或降低速度,Claude 3.5 Sonnet 仍保持了与前代相同的性价比。

官方博客中提到,编码能力的改进是 Claude 3.5 Sonnet 的最大亮点。

GitLab 测试发现其推理能力提升了 10%,无额外延迟,非常适合多步骤的軟體开发流程。The Browser Company 也指出,Claude 3.5 Sonnet 在自动化网页工作流程方面的表现超越了他们之前测试的所有模型。

作为追求极高安全系数的模型公司,Anthropic 自然也对 Claude 3.5 Sonnet 进行了灾难性风险评估,结果符合 ASL-2 标准。。

ASL-2 指的是显示出危险能力早期迹象的系统(例如能够给出如何制造生物武器的指令),但这些信息由于可靠性不足或无法超越搜索引擎能提供的信息而没有太多用处。

简言之,Claude 3.5 Sonnet 再强,也还没有到威胁人类的地步。

聊完性能最强的模型,接下来登场的是,响应速度最快的全新更新模型—— Claude 3.5 Haiku。

光看纸面参数,中杯 Claude 3.5 Haiku 几乎不逊色于 GPT-4o mini,甚至可以说,它已经可以小赢一把,整体表现也与前代 Claude 3 Opus 表现持平。

但价格没变,响应速度也没减,有种「加量不加价」的错位体验。

类似地,Claude 3.5 Haiku 在在编码任务的表现也尤为突出。例如,它在 SWE-bench Verified 上的得分为 40.6%,超过了很多所谓的最先进智能体,包括它的 Claude 3.5 Sonnet(原版)和 GPT-4o。

低延迟、改进的指令执行能力以及更精准的工具使用能力,这些特性都让 Claude 3.5 Haiku 尤其适用于需要个性化服务的场景中。

比如根据你以前买东西的习惯来推荐商品,或者帮你决定商品的价格,甚至是帮你管理仓库里的存货。

最后,更新版的 Claude 3.5 Sonnet 现已面向所有用户开放。而 Claude 3.5 Haiku 将于本月晚些时候发布,初期只支持文本输入,影像输入功能随后推出。

如果你最近关注 AI 圈,你会发现行业里的几位重要人物都玩起了「未卜先知」。

Demis Hassabis、Yann LeCun、Sam Altman 和 Anthropic 的 Dario Amodei,都宣称 AGI 将在未来几年内实现,时间范围从 2025 年到 2030 年不等。

他们画了一张又一张堪比乌托邦的 AGI 蓝图,如治愈大多数疾病、解决气候问题、消除贫困等,如果汇总几篇长文的核心思想,AI 几乎成了包治百病的神药。

但话说回来,信心还得是靠真刀真枪的产品来证明。

在没有可靠、可持续的商业模式下,这个行业只能靠对 AGI 的「盲信」来维持高昂的投资和支出,就好像挂在驴前面的那根晃荡的萝卜。

换言之,今天发布的 Claude 模型等一系列产品功能也是在让我们重拾信心,而按照以往的产品发布节奏,OpenAI 预计也快要出手了。

不同之处在于,OpenAI 的武器库显然更丰富。或许下一个亮相的会是 OpenAI o1 的正式版,又或者是「期货」Sora。

接下来,我们就拭目以待,看 OpenAI 如何「亮剑」了。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們