大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

OpenAI 最強競品大更新!一句話模拟人類用電腦,AI 智能體覺醒前的重大突破

2024-10-23 简体 HK SG TW

今天小編分享的科技經驗:OpenAI 最強競品大更新!一句話模拟人類用電腦,AI 智能體覺醒前的重大突破,歡迎閱讀。

天下苦 OpenAI 擠牙膏久矣。

環顧宇内,能夠與 OpenAI 抗衡的對手屈指可數,Anthropic 旗下的 Claude 模型至少算是一個靠譜的勁敵。

盼星星,盼月亮,沒有等到「超大杯」Opus 的亮相,但好在也等來了全新更新的大杯 Claude 3.5 Sonnet。

簡單總結這次更新的亮點:

拳打 GPT-4o,腳踢 Gemini 1.5 Pro,新版 Claude 3.5 Sonnet 表現遙遙領先

Claude 3.5 Haiku 響應速度最快,性能媲美 GPT-4o mini

構建 API,教 Claude 怎麼玩電腦

教 Claude 玩電腦,AI 鍵盤俠來了?

這次更新的重頭戲其實不是新模型,而是怎麼教 AI 玩電腦。

Anthropic 推出了一個公開測試的革命性功能「computer use」:通過 API 教 Claude 像個人一樣操作電腦,能看螢幕、動遊標、點按鈕、打字……

簡單說就是,Claude 現在能用人類設計的标準工具和軟體了。而開發者可以借此解放一些枯燥的重復性流程任務,甚至進行開放式任務,如研究。

為了讓 Claude 具備這種技能,Anthropic 通過一個 API 來讓 Claude 能夠感知并與計算機界面互動。

具體來說,開發者在互動過程中集成這一 API,讓 Claude 将指令(比如:「用我電腦上的數據,結合網上信息填個表」)翻譯成計算機指令(比如:檢查個表格,動動滑鼠打開個浏覽器,導航到相關網頁,然後用網上的數據把表格填滿)。

OSWorld 是一個用于測試多模态智能體在真實計算機環境中執行開放式任務的能力的基準測試平台,通常用來評估 AI 模型是否具備像人類一樣使用計算機的能力。

Claude 3.5 Sonnet 在僅用截圖的測試類别中得分 14.9%,遠超第二名的 7.8%。在允許使用更多步驟時,Claude 的得分為 22.0%。

一些公司的產品已經提前用上了這一功能。

例如,Replit 正在利用 Claude 3.5 Sonnet 的計算機操作與界面導航能力,為其 Replit 智能體產品開發一項關鍵功能,用于評估正在構建中的應用程式。

當然,這種做法其實并不新鮮。

因為在此之前,Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已經開始探索這些可能性,執行需要幾十甚至上百步的任務。

不過,理想很豐滿,現實很骨感。

官方也坦誠,當前這一功能仍處于實驗階段,在操作計算機時速度較慢,并且經常會出現錯誤。一些簡單的操作——比如滾動、拖動、縮放,看似人類一揮手就能搞定的事兒,對 Claude 來說依然是個不小的挑戰。

在錄制這些演示的過程中,我們遇到了一些有趣的插曲。有一次,Claude 不小心終止了一個正在進行的長時間螢幕錄制,結果所有的錄像素材都丢失了。

之後,Claude 在我們的編碼演示間隙休息了一下,開始欣賞黃石國家公園的照片。

此外,Claude 通過截取螢幕的靜态影像,然後将這些影像組合起來,以理解螢幕上發生的事情,但也正因此,它可能無法捕捉到螢幕上的短暫動作或通知,比如彈出視窗或快速變化的圖示。

官方也說了,之所以提前發布一個實驗品,是為了獲取開發者的反饋,預計這功能随着時間會逐漸有所改進。

Anthropic 開發者關系主管 Alex Albert 還分享了一個有趣的經歷。

在開發「computer use 」功能時,他們組織了一次工程故障排查會,目的是找出 API 中所有潛在的問題。

幾位工程師聚在一個房間裡工作幾個小時,但很快就餓了,所以其中一位工程師的第一個「computer use 」請求是讓 Claude 導航到外賣平台 DoorDash 并訂購足夠的食物來喂飽大家。

Claude 思考了大約一分鍾後, 最後給工程師們訂了幾份披薩。

網友也很快挖出了 computer use 功能拒絕做的清單:

在社交媒體或其他平台上創建賬戶

發送電子郵件或消息

在社交媒體上發布評論

進行購買

訪問私人信息

完成驗證碼(CAPTCHA)

生成、編輯或修改圖片

打電話

訪問受限内容

執行需要個人身份驗證的操作

真 · 推理模型之王,新模型編碼遙遙領先

再來看看 Claude 3.5 Sonnet 交出的成績單。

盡管現在大模型榜單的公信力已不如往日,但基于同一套考題的邏輯下,我們仍然能對新發布的模型有個初步了解。

拳打 GPT-4o,腳踢 Gemini 1.5 Pro,Claude 3.5 Sonnet 在 GPQA、MMLU Pro、HumanEVal 等一系列基準測試中表現亮眼,可謂是遙遙領先。

特别是在編碼領網域,Claude 3.5 Sonnet 更是進一步拉大了領先優勢。或許你會好奇,為什麼基準測試裡沒有出現與 OpenAI o1 模型的對比。

别急,Anthropic 預判了你的預判,官方給出的解釋是:

我們的評估表格中之所以沒有包含 OpenAI 的 o1 模型系列,是因為它們在響應前需要大量的計算時間,這與大多數模型不同。這種本質上的區别使得進行性能比較變得復雜。

翻譯一下就是,我們想比但也不好比。

不過,在 SWE-bench Verified 的編碼測試中,Claude 3.5 Sonnet 的表現從 33.4% 提升到 49.0%,超過了所有公開可用的模型——包括 OpenAI o1-preview 等推理模型,以及各種智能體編碼系統。

Claude 3.5 Sonnet 真 · 推理模型之王。

此外,在 TAU-bench 智能體工具測試中,Claude 3.5 Sonnet 也表現不俗。

TAU-bench 主要提供一個更接近真實世界應用場景的評估環境。

面對零售領網域問題,Claude 3.5 Sonnet 得分從 62.6% 提高至 69.2%,而面對航空方面的問題,其成績也從 36.0% 上升至 46.0%。

更重要的是,這些改進并未提高價格或降低速度,Claude 3.5 Sonnet 仍保持了與前代相同的性價比。

官方博客中提到,編碼能力的改進是 Claude 3.5 Sonnet 的最大亮點。

GitLab 測試發現其推理能力提升了 10%,無額外延遲,非常适合多步驟的軟體開發流程。The Browser Company 也指出,Claude 3.5 Sonnet 在自動化網頁工作流程方面的表現超越了他們之前測試的所有模型。

作為追求極高安全系數的模型公司,Anthropic 自然也對 Claude 3.5 Sonnet 進行了災難性風險評估,結果符合 ASL-2 标準。。

ASL-2 指的是顯示出危險能力早期迹象的系統(例如能夠給出如何制造生物武器的指令),但這些信息由于可靠性不足或無法超越搜索引擎能提供的信息而沒有太多用處。

簡言之,Claude 3.5 Sonnet 再強,也還沒有到威脅人類的地步。

聊完性能最強的模型,接下來登場的是,響應速度最快的全新更新模型—— Claude 3.5 Haiku。

光看紙面參數,中杯 Claude 3.5 Haiku 幾乎不遜色于 GPT-4o mini,甚至可以說,它已經可以小赢一把,整體表現也與前代 Claude 3 Opus 表現持平。

但價格沒變,響應速度也沒減,有種「加量不加價」的錯位體驗。

類似地,Claude 3.5 Haiku 在在編碼任務的表現也尤為突出。例如,它在 SWE-bench Verified 上的得分為 40.6%,超過了很多所謂的最先進智能體,包括它的 Claude 3.5 Sonnet(原版)和 GPT-4o。

低延遲、改進的指令執行能力以及更精準的工具使用能力,這些特性都讓 Claude 3.5 Haiku 尤其适用于需要個性化服務的場景中。

比如根據你以前買東西的習慣來推薦商品,或者幫你決定商品的價格,甚至是幫你管理倉庫裡的存貨。

最後,更新版的 Claude 3.5 Sonnet 現已面向所有用戶開放。而 Claude 3.5 Haiku 将于本月晚些時候發布,初期只支持文本輸入,影像輸入功能随後推出。

如果你最近關注 AI 圈,你會發現行業裡的幾位重要人物都玩起了「未卜先知」。

Demis Hassabis、Yann LeCun、Sam Altman 和 Anthropic 的 Dario Amodei,都宣稱 AGI 将在未來幾年内實現,時間範圍從 2025 年到 2030 年不等。

他們畫了一張又一張堪比烏托邦的 AGI 藍圖,如治愈大多數疾病、解決氣候問題、消除貧困等,如果匯總幾篇長文的核心思想,AI 幾乎成了包治百病的神藥。

但話說回來,信心還得是靠真刀真槍的產品來證明。

在沒有可靠、可持續的商業模式下,這個行業只能靠對 AGI 的「盲信」來維持高昂的投資和支出,就好像挂在驢前面的那根晃蕩的蘿卜。

換言之,今天發布的 Claude 模型等一系列產品功能也是在讓我們重拾信心,而按照以往的產品發布節奏,OpenAI 預計也快要出手了。

不同之處在于,OpenAI 的武器庫顯然更豐富。或許下一個亮相的會是 OpenAI o1 的正式版,又或者是「期貨」Sora。

接下來,我們就拭目以待,看 OpenAI 如何「亮劍」了。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們