OpenAI 最強競品大更新！一句話模拟人類用電腦，AI 智能體覺醒前的重大突破

今天小編分享的科技經驗：OpenAI 最強競品大更新！一句話模拟人類用電腦，AI 智能體覺醒前的重大突破，歡迎閱讀。

天下苦 OpenAI 擠牙膏久矣。

環顧宇内，能夠與 OpenAI 抗衡的對手屈指可數，Anthropic 旗下的 Claude 模型至少算是一個靠譜的勁敵。

盼星星，盼月亮，沒有等到「超大杯」Opus 的亮相，但好在也等來了全新更新的大杯 Claude 3.5 Sonnet。

簡單總結這次更新的亮點：

拳打 GPT-4o，腳踢 Gemini 1.5 Pro，新版 Claude 3.5 Sonnet 表現遙遙領先

Claude 3.5 Haiku 響應速度最快，性能媲美 GPT-4o mini

構建 API，教 Claude 怎麼玩電腦

教 Claude 玩電腦，AI 鍵盤俠來了？

這次更新的重頭戲其實不是新模型，而是怎麼教 AI 玩電腦。

Anthropic 推出了一個公開測試的革命性功能「computer use」：通過 API 教 Claude 像個人一樣操作電腦，能看螢幕、動遊標、點按鈕、打字……

簡單說就是，Claude 現在能用人類設計的标準工具和軟體了。而開發者可以借此解放一些枯燥的重復性流程任務，甚至進行開放式任務，如研究。

為了讓 Claude 具備這種技能，Anthropic 通過一個 API 來讓 Claude 能夠感知并與計算機界面互動。

具體來說，開發者在互動過程中集成這一 API，讓 Claude 将指令（比如：「用我電腦上的數據，結合網上信息填個表」）翻譯成計算機指令（比如：檢查個表格，動動滑鼠打開個浏覽器，導航到相關網頁，然後用網上的數據把表格填滿）。

OSWorld 是一個用于測試多模态智能體在真實計算機環境中執行開放式任務的能力的基準測試平台，通常用來評估 AI 模型是否具備像人類一樣使用計算機的能力。

Claude 3.5 Sonnet 在僅用截圖的測試類别中得分 14.9%，遠超第二名的 7.8%。在允許使用更多步驟時，Claude 的得分為 22.0%。

一些公司的產品已經提前用上了這一功能。

例如，Replit 正在利用 Claude 3.5 Sonnet 的計算機操作與界面導航能力，為其 Replit 智能體產品開發一項關鍵功能，用于評估正在構建中的應用程式。

當然，這種做法其實并不新鮮。

因為在此之前，Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已經開始探索這些可能性，執行需要幾十甚至上百步的任務。

不過，理想很豐滿，現實很骨感。

官方也坦誠，當前這一功能仍處于實驗階段，在操作計算機時速度較慢，并且經常會出現錯誤。一些簡單的操作——比如滾動、拖動、縮放，看似人類一揮手就能搞定的事兒，對 Claude 來說依然是個不小的挑戰。

在錄制這些演示的過程中，我們遇到了一些有趣的插曲。有一次，Claude 不小心終止了一個正在進行的長時間螢幕錄制，結果所有的錄像素材都丢失了。

之後，Claude 在我們的編碼演示間隙休息了一下，開始欣賞黃石國家公園的照片。

此外，Claude 通過截取螢幕的靜态影像，然後将這些影像組合起來，以理解螢幕上發生的事情，但也正因此，它可能無法捕捉到螢幕上的短暫動作或通知，比如彈出視窗或快速變化的圖示。

官方也說了，之所以提前發布一個實驗品，是為了獲取開發者的反饋，預計這功能随着時間會逐漸有所改進。

Anthropic 開發者關系主管 Alex Albert 還分享了一個有趣的經歷。

在開發「computer use 」功能時，他們組織了一次工程故障排查會，目的是找出 API 中所有潛在的問題。

幾位工程師聚在一個房間裡工作幾個小時，但很快就餓了，所以其中一位工程師的第一個「computer use 」請求是讓 Claude 導航到外賣平台 DoorDash 并訂購足夠的食物來喂飽大家。

Claude 思考了大約一分鍾後，最後給工程師們訂了幾份披薩。

網友也很快挖出了 computer use 功能拒絕做的清單：

在社交媒體或其他平台上創建賬戶

發送電子郵件或消息

在社交媒體上發布評論

進行購買

訪問私人信息

完成驗證碼（CAPTCHA）

生成、編輯或修改圖片

打電話

訪問受限内容

執行需要個人身份驗證的操作

真 · 推理模型之王，新模型編碼遙遙領先

再來看看 Claude 3.5 Sonnet 交出的成績單。

盡管現在大模型榜單的公信力已不如往日，但基于同一套考題的邏輯下，我們仍然能對新發布的模型有個初步了解。

拳打 GPT-4o，腳踢 Gemini 1.5 Pro，Claude 3.5 Sonnet 在 GPQA、MMLU Pro、HumanEVal 等一系列基準測試中表現亮眼，可謂是遙遙領先。

特别是在編碼領網域，Claude 3.5 Sonnet 更是進一步拉大了領先優勢。或許你會好奇，為什麼基準測試裡沒有出現與 OpenAI o1 模型的對比。

别急，Anthropic 預判了你的預判，官方給出的解釋是：

我們的評估表格中之所以沒有包含 OpenAI 的 o1 模型系列，是因為它們在響應前需要大量的計算時間，這與大多數模型不同。這種本質上的區别使得進行性能比較變得復雜。

翻譯一下就是，我們想比但也不好比。

不過，在 SWE-bench Verified 的編碼測試中，Claude 3.5 Sonnet 的表現從 33.4% 提升到 49.0%，超過了所有公開可用的模型——包括 OpenAI o1-preview 等推理模型，以及各種智能體編碼系統。

Claude 3.5 Sonnet 真 · 推理模型之王。

此外，在 TAU-bench 智能體工具測試中，Claude 3.5 Sonnet 也表現不俗。

TAU-bench 主要提供一個更接近真實世界應用場景的評估環境。

面對零售領網域問題，Claude 3.5 Sonnet 得分從 62.6% 提高至 69.2%，而面對航空方面的問題，其成績也從 36.0% 上升至 46.0%。

更重要的是，這些改進并未提高價格或降低速度，Claude 3.5 Sonnet 仍保持了與前代相同的性價比。

官方博客中提到，編碼能力的改進是 Claude 3.5 Sonnet 的最大亮點。

GitLab 測試發現其推理能力提升了 10%，無額外延遲，非常适合多步驟的軟體開發流程。The Browser Company 也指出，Claude 3.5 Sonnet 在自動化網頁工作流程方面的表現超越了他們之前測試的所有模型。

作為追求極高安全系數的模型公司，Anthropic 自然也對 Claude 3.5 Sonnet 進行了災難性風險評估，結果符合 ASL-2 标準。。

ASL-2 指的是顯示出危險能力早期迹象的系統（例如能夠給出如何制造生物武器的指令），但這些信息由于可靠性不足或無法超越搜索引擎能提供的信息而沒有太多用處。

簡言之，Claude 3.5 Sonnet 再強，也還沒有到威脅人類的地步。

聊完性能最強的模型，接下來登場的是，響應速度最快的全新更新模型—— Claude 3.5 Haiku。

光看紙面參數，中杯 Claude 3.5 Haiku 幾乎不遜色于 GPT-4o mini，甚至可以說，它已經可以小赢一把，整體表現也與前代 Claude 3 Opus 表現持平。

但價格沒變，響應速度也沒減，有種「加量不加價」的錯位體驗。

類似地，Claude 3.5 Haiku 在在編碼任務的表現也尤為突出。例如，它在 SWE-bench Verified 上的得分為 40.6%，超過了很多所謂的最先進智能體，包括它的 Claude 3.5 Sonnet（原版）和 GPT-4o。

低延遲、改進的指令執行能力以及更精準的工具使用能力，這些特性都讓 Claude 3.5 Haiku 尤其适用于需要個性化服務的場景中。

比如根據你以前買東西的習慣來推薦商品，或者幫你決定商品的價格，甚至是幫你管理倉庫裡的存貨。

最後，更新版的 Claude 3.5 Sonnet 現已面向所有用戶開放。而 Claude 3.5 Haiku 将于本月晚些時候發布，初期只支持文本輸入，影像輸入功能随後推出。

如果你最近關注 AI 圈，你會發現行業裡的幾位重要人物都玩起了「未卜先知」。

Demis Hassabis、Yann LeCun、Sam Altman 和 Anthropic 的 Dario Amodei，都宣稱 AGI 将在未來幾年内實現，時間範圍從 2025 年到 2030 年不等。

他們畫了一張又一張堪比烏托邦的 AGI 藍圖，如治愈大多數疾病、解決氣候問題、消除貧困等，如果匯總幾篇長文的核心思想，AI 幾乎成了包治百病的神藥。

但話說回來，信心還得是靠真刀真槍的產品來證明。

在沒有可靠、可持續的商業模式下，這個行業只能靠對 AGI 的「盲信」來維持高昂的投資和支出，就好像挂在驢前面的那根晃蕩的蘿卜。

換言之，今天發布的 Claude 模型等一系列產品功能也是在讓我們重拾信心，而按照以往的產品發布節奏，OpenAI 預計也快要出手了。

不同之處在于，OpenAI 的武器庫顯然更豐富。或許下一個亮相的會是 OpenAI o1 的正式版，又或者是「期貨」Sora。

接下來，我們就拭目以待，看 OpenAI 如何「亮劍」了。