大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

首個混合推理模型Claude 3.7發布!編程能力全面領先,還能精準控制思考時間

2025-02-25 简体 HK SG TW

今天小編分享的科學經驗:首個混合推理模型Claude 3.7發布!編程能力全面領先,還能精準控制思考時間,歡迎閱讀。

Claude 深夜重磅發布新模型——

Claude 3.7 Sonnet,首個混合推理模型問世,在編碼和前端 Web 開發方面顯著提升,實現了全面領先。

與 o3-mini 實際對比,相同的提示詞下,Claude 3.7 Sonnet 的表現。

o3-mini:

Claude 3.7 Sonnet:

(提示詞:編寫一個 p5.js 腳本,模拟 100 個彩球在球體内彈跳。每個球都應留下一條逐漸消失的軌迹,顯示其最近的運動軌迹。容器球體應緩慢旋轉。确保實現适當的碰撞檢測,使球保持在球體内。)

還有用它來做視頻遊戲。

作為混合推理模型,它有兩種思考模式:

近乎實時地反應 & 擴展地、循序漸進(step-by-step)地思考。

擴展思維模式下,它在數學、物理、指令遵循、編碼等多個任務中有額外的提升。

API 用戶甚至還可以精準控制模型的思考時間。目前已經在全平台上線,包括亞馬遜雲服務 Bedrock 平台、谷歌雲,而要想要擴展思考模式,除免費版外其他都可以用。

模型更新,價格不變——

與前代產品相同,每百萬輸入 token 3 美元,每百萬輸出 token 15 美元(其中包括思考代币)。

除此之外,他們還發布了他們首個編碼工具Claude Code:

它能夠一次性完成原本需要 45 分鍾以上手動才能完成的工作。

網友們紛紛表示,已經迫不及待地想用上了。

不過,為什麼是 3.7 版本呢?

Claude 3.7 Sonnet:首個混合推理模型

官方此次首先表示,他們開發 Claude 3.7 Sonnet 這個的理念與市場上其他推理模型不同。

類比于人類大腦有快速反應和深度思考兩種一樣,他們認為推理應該是前沿模型的綜合能力,而不是完全獨立的模型。

由此,Claude 3.7 Sonnet 在多個方面都有體現這個理念。

首先,Claude 3.7 Sonnet 既是普通的 LLM 模型,又是推理模型:

您可以選擇何時讓模型正常回答,何時讓模型在回答前思考更長時間。

在标準模式下,Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的更新版。在擴展思維模式下,它會在回答前進行自我反思,從而提高其在數學、物理、遵循指令、編碼和許多其他任務上的表現。

在兩種模式下,對模型的提示方式類似。

這是代碼生成任務下,兩種思維模式回答之間的區别。

其次,控制思考預算,用速度和成本來換取答案的質量。

API 用戶可以告訴 Claude 思考的數量不超過 N 個 token,N 的值可以是任何值,但輸出上限不能超過 128K 個 token。

模型能力的表現,也就取決于允許思考的 token 數量。例如以下在 AIME 2024 的成績圖。

第三,優化重點轉向更能反映用戶需求的現實世界任務,對數學和計算機競賽問題優化較少。

△解決實際的概率問題

編碼任務,網友們對它這種「vibe coding」(面對非開發人員的 AI 輔助編碼)印象深刻。

有網友實測發現,确實能解決其他模型無法解決的問題。> 你能用 p5js 編寫最復雜的布料模拟嗎?

結果 Grok 3 和 o1 pro 沒有可用的結果。而 Claude 3.7 Sonnet 的表現是:

在代理工具使用上面,實現了 SOTA。

Claude 3.7 Sonnet 在指令遵循、一般推理、多模态能力和代理編碼方面表現出色,擴展思維在數學和科學方面提供了顯著的提升。

除了傳統的基準測試之外,它甚至在寶可夢遊戲測試中超越了所有以前的模型——

團隊為 Claude 配備了基本内存、螢幕像素輸入以及按鍵和螢幕導航的功能調用,使其能夠超越通常的上下文限制,持續玩遊戲,并通過數以萬計的互動進行遊戲。

最終實驗表明,它是迄今所有 Sonnet 模型中表現最好的,它成功與三個寶可夢道館館主(遊戲的 Boss)戰鬥并赢得他們的徽章。相比之下,Claude 3.0 Sonnet 甚至無法離開故事開始的地方 Pallet Town 的房子。

x 軸表示 Claude 在玩遊戲時完成的互動次數;y 軸表示遊戲中的重要裡程碑,包括收集某些物品、導航到某些區網域以及擊敗某些 Boss。

此次,研究人員使用了并行測試時間計算來提高模型的性能。

他們的方法是對多個獨立思考過程進行采樣,并在事先不知道真實答案的情況下選出最佳答案。其中一種方法是使用多數投票;選擇最常見的答案作為 " 最佳 " 答案。另一種方法是使用另一個語言模型(比如 Claude 的第二個副本),要求它檢查自己的工作或學習的評分函數,然後選出它認為最好的答案。

結果在 GPQA 評估中,這一方法讓模型取得了驚人的改進。

GPQA 是一組常用的具有挑戰性的生物、化學和物理問題。  Claude 3.7 Sonnet 使用 256 個獨立樣本的等效計算、學習的評分模型和最大 64 token 的思維成本之下,取得了 84.8% 的 GPQA 分數(包括 96.5% 的物理子分數)。

此外,Claude 3.7 Sonnet 還對有害請求和良性請求進行了更細致的區分,與前代版本相比,不必要的拒絕次數減少了 45% 。

Claude 首個編碼工具面世

Claude Code,從官方透露的功能看,它可以搜索和讀取代碼、編輯檔案、編寫和運行測試、提交和推送代碼到 GitHub 以及使用命令行工具。

目前還只是早期的預覽版,可直接在終端運行。

早期測試中,Claude Code 可以一次性完成了通常需要 45 分鍾以上手動操作才能完成的任務,從而減少了開發時間和開銷。

在接下來的幾周内,他們計劃結合他們使用情況不斷改進它——

比如增強工具調用的可靠性,增加對長時間運行的命令的支持,改進應用内渲染,并擴展 Claude 對其功能的理解。

除此之外,他們還改進了 Claude.ai 上的編碼體驗。GitHub 集成現已在所有 Claude 使用平台中提供,開發人員可以将其代碼存儲庫直接連接到 Claude。

參考鏈接:

[ 1 ] https://www.anthropic.com/news/claude-3-7-sonnet

[ 2 ] https://www.anthropic.com/research/visible-extended-thinking

[ 3 ] https://docs.anthropic.com/en/docs/build-with-claude/extended-thinking

[ 4 ] https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview

[ 5 ] https://x.com/deedydas/status/1894110678027571412

[ 6 ] https://x.com/_akhaliq/status/1894106278185898489

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們