OpenAI最強競對Claude再次出牌

今天小編分享的科技經驗：OpenAI最強競對Claude再次出牌，歡迎閲讀。

出品｜虎嗅科技組

作者｜餘楊

編輯｜苗正卿

頭圖｜視覺中國

10 月 22 日，由 Anthropic 開發的 Claude 3.5 迎來重磅更新，發布了 Claude 3.5 Haiku 和 Claude 3.5 Sonnet 。

Claude 模型也被稱為 " 十四行詩 "（Sonnet），Anthropic 公司在為其模型命名時，借鑑了文學藝術作品中的術語，其中包括 " 俳句 "（Haiku）、" 十四行詩 "（Sonnet）和 " 傑作 "（Opus），這些名稱不僅代表了模型的不同版本，也反映了它們在功能和性能上的特點。

Claude 3.5 Sonnet 有着更強的編程能力，全新功能的 computer use（計算機使用），支持像人類一樣操作計算機，可以遵循用户的命令在計算機螢幕上移動遊標，點擊相關位置，并通過虛拟鍵盤輸入信息，模拟人們與自己計算機的互動方式。

目前，Claude 3.5 Sonnet 已投入使用。

Claude 系列大語言模型，一直被廣泛認為是 OpenAI 的 ChatGPT 和谷歌的 Gemini 的主要競争對手。Anthropic 在 X 中發布了模型基準測試結果，與 GPT 和 Gemini 在多個領網域進行橫向對比。

這些領網域包括研究生水平的推理能力（GPQA Diamond）、大學生水平的知識掌握（MMLUPro）、代碼編寫能力（Code HumanEval）、數學問題解決能力（MATH）、視覺問答能力（MMMU）以及代理編碼（SWE-bench Verified）和代理工具使用（TAU-bench）。

在研究生水平推理測試（GPQA Diamond）中，Claude 3.5 Sonnet 以 65.0% 的準确率拔得頭籌，Claude 3.5 Haiku 則以 41.6% 的準确率則稍顯遜色。而 Gemini 1.5 Pro 的準确率為 59.1%，居于第二。在大學生水平知識測試（MMLUPro）中，Claude 3.5 Sonnet 再次以 78.0% 的準确率領先，而 Gemini 1.5 Pro 則以 75.8% 的準确率緊随其後。

在此次主打的代碼編寫能力測試（Code HumanEval）中，Claude 3.5 Sonnet 以 93.7% 的準确率取得了最佳成績，GPT-4o 系列模型在這一測試中也展現了不錯的性能，準确率為 90.2% 和 87.2%。

雖然在數學問題解決測試（MATH）中，Claude 3.5 系列稍顯遜色，Gemini 1.5 Pro 仍然碾壓全場，但對于視覺問答測試（MMMU）和代理編碼測試（SWE-bench Verified），Claude 3.5 Sonnet 和 Claude 3.5 Haiku 仍有着不俗的表現。

而 TO B 的代理工具使用測試（TAU-bench），則直接關系到大模型的應用能力，此次主要測試了零售和航空領網域。Claude 3.5 Sonnet 在零售和航空領網域的準确率分别為 69.2% 和 46.0%，而 Claude 3.5 Haiku 在零售和航空領網域的準确率分别為 51.0% 和 22.8%。

需要注意的是，OpenAI 的 o1 模型家族由于其依賴于廣泛的預響應計算時間，與典型模型存在根本差異，這使得性能比較變得困難，因此在本次評估中被排除在外。

這可能不夠具像化。

Anthropic 提供了一個演示，在 2 分鍾的視頻中，研究員給 Claude 提出了一個指令：

我的朋友要來舊金山，我想明天早上和他一起在金門大橋看日出。我們将從太平洋高地出發。你能幫我們找到一個絕佳的觀賞地點，查看一下開車時間和日出時間，然後安排一個日歷活動，讓我們有足夠的時間到達那裏嗎？

Claude 的回應首先是，" 讓我搜索谷歌尋找最佳日出觀賞地點 "，并自行打開了 Google 開始搜索。

Claude 以用户的居住地為出發點，在地圖中 check 了駕駛時間，随後，Claude 不僅打開了一個新的網頁确認明天的日出時間，還在日歷中設定了行程提醒，并附上了 Notes，URL 和附件。

開發者展示出 Claude 如何操控了自己的筆記型電腦，絲滑地完成了一個任務。

Anthropic 表示，" 我們并沒有制作特定工具來幫助 Claude 完成單個任務，而是教它通用的計算機技能——允許它使用為人類設計的各種标準工具和軟體程式。我們構建了一個 API，使 Claude 能夠感知計算機界面并與之互動。該 API 使 Claude 能夠将提示翻譯成計算機命令。開發人員可以使用它來自動執行重復性任務、進行測試和 QA 以及進行開放式研究 "。