今天小編分享的科學經驗:實測Claude 3.7:3200行代碼一口氣輸出,物理規律手拿把掐,弱智吧已失守,歡迎閱讀。
Claude 3.7 新鮮出爐全網熱議,到底有多強?
第一波實測來了!簡單粗暴總結,它在編程、現實世界任務上,能力爆表。
只需一個樣本,就能一下子吐出3200 多行代碼,做出一個可玩性很高的遊戲。
像什麼跳躍、打怪、回血、吃金币……一系列復雜的遊戲機制都完美呈現了出來。
有意思的是,這個遊戲還和 Meta Quest 裡的 VR 遊戲《霓虹奧德賽(Neon Odyssey)》同名。
物理規律也能準确把握,有人僅用3 個提示,就用 C 語言模拟了真實物理情景下的流體運動:
并且量子位實測發現,Claude 3.7 Sonnet能夠識破很多的邏輯陷阱,一些弱智吧名場面也能秒懂:
而在 Claude 官方看來,其最大的優勢就是 " 更擅長現實世界中的任務 ",并且在更新公告中還不忘内涵一波隔壁 OpenAI。
另外趁着模型上新,Claude 背後的 Anthropic 新一輪融資曝光:35 億美元(約 254 億人民币)。比預先目标 20 億翻了近一倍。
由此,包括正在籌集的現金在内,Anthropic 估值已經達到了 615 億美元(約 4462 億人民币)。
一句話生成《我的世界》,新模型編程能力嘎嘎亂殺
從更多網友鮮測來看,Claude 3.7 Sonnet 尤為擅長編程和 Web 開發。
一上手,他們就把目光放在了考驗 AI 理解真實世界能力的物理模拟上。
更懂物理規律
比如一位日本小哥就用它生成了精致的 " 太陽系運行圖 ",太陽、八大行星還有被開除行星籍的冥王星都包含在内,給小哥帶來了億點點震撼:
1374 行代碼,Claude 3.7 Sonnet 唰一下就完成了!
不僅生成速度快,還實現了實時互動。點擊某個行星,右上角還會顯示一些小科普。
要知道,哪怕不制作成動畫,單純地完整厘清這些天體的運行規律,就已經難倒了絕大部分人。
而 Claude 的作品,雖然美觀性可能還有提升空間,但至少它不僅對行星運行的規則有清晰的把握,還能把它們變成代碼。
另外,對于每一個新模型都要被拉出來遛一遛的" 空間内彈小球 "挑戰,Claude 3.7 Sonnet 當然也沒逃過:
編寫一個 Python 腳本,實現球在四維體内部彈跳。
本月初的 o3-mini 在這一挑戰中表現出色,斬獲 " 可能是最懂現實物理的 LLM":
而相比于慢悠悠的 o3-mini,Claude 3.7 Sonnet 則另辟蹊徑主打一個 " 天下武功,唯快不破 "。
小小四維空間内,小球彈跳速度快出殘影,真滴很需要一個眼尖的裁判來決出勝者 ( doge)。
與此同時,除了物理模拟,用 Claude 3.7 Sonnet 編寫各種小遊戲竟默契成為一眾網友最佳選擇。
遊戲成最熱場景
挑戰生成爆火遊戲《Flappy bird》,Claude 3.7 Sonnet 一眼完勝 o3 mini-high。
遊戲中,玩家必須控制一只小鳥,跨越由各種不同長度水管所組成的障礙。
先看 Claude 3.7 Sonnet,一次性生成的代碼就高度還原了遊戲理念:
而高級位推理模式下的 o3 mini,只有一個小方塊在畫面中原地鬼畜,基本看不出遊戲的亞子。
一時間,這一慘烈對比直接将 Claude 3.7 Sonnet 推上了新的高度:
同時,随着難度進一步更新,這句評價的含金量還在上升。
除了簡單還原遊戲理念,生成更精致甚至可以上下左右互動的 " 大制作 " 也是不在話下。
在早期測試中,知名博主 Rowan Cheung 就用它一句話創建了克隆版《我的世界》,而且能立即在 Artifacts 中玩。
類似的還有下面這個,也是一句話生成一個完整遊戲:
使用 Phaser.js 制作一個橫版平台遊戲,僅使用箭頭鍵進行遊戲操作。(左上角還會實時更新得分情況)
這還不算完,更有腦洞大開的網友僅用 5 個提示,就為 Apple Watch 制作了一個與心率綁定的貪吃蛇遊戲。
你越緊張,蛇移動得越快,你越冷靜,就越容易。
笑死,知名博主 Pietro Schirano 借機又調侃了 Anthropic 一波:
而除了各種遊戲,将 Claude 3.7 Sonnet 應用于實際開發場景的例子也是精彩紛呈。
生產力提效 Max
目前,Claude 平台已提供 GitHub 集成,開發人員可以将其代碼存儲庫直接連接到 Claude。
設定完成後,它會顯示特定項目的容量百分比,這樣用戶就知道自己使用了多少容量。
知名博主 elvis 特意 cue 到了 "Artifacts" 功能,直連後這對于今後修改代碼非常方便。
在實際體驗中,有人用它來生成動畫天氣卡,移動的雲彩、飄落的雨滴等全都栩栩如生,還支持自主調節移動快慢。
當然,創建網頁這種活兒,單看可能沒感覺,那我們直接請出幾位選手挑戰扒同一個 HTML 網頁。
要完成的目标是這樣嬸兒的:
Claude 3.7 Sonnet 堪稱還原度最高,而且在沒有圖示素材的情況下用 emoji 填充了左側邊欄的按鈕:
而其他幾位選手 o1-mini-high、Grok 3 以及 Gemini 2.0 Pro 依次作答如下,有的只簡單地列舉了數據,甚至還有的幹脆只給了個表格:
鑑于編寫程式的能力确實很強,還有人激動表示自己在 cursor 裡嘗試了一番,效果嘛:
添加了 15 個以上的檔案,并且看起來很好,看上去一次可以處理的内容更多了。
" 數字母 " 問題埋下小彩蛋
而且 Claude 團隊也非常 " 時髦 ",在 3.7 Sonnet 當中埋下了關于 strawberry 數 r 的彩蛋。
不過雖然這種幽默的态度十分可嘉,但是換了個詞可能還是會掉鏈子。
雖然數錯了,Claude 還不忘糾正拼寫錯誤,耿直地指出你這個 " 密西西比 " 拼的不對啊,正确的拼寫裡就是有 4 個 s。
實測:識破邏輯陷阱,弱智吧也能招架
Claude 3.7 Sonnet 的推理能力除了體現在編程上,還包括在存在誤導信息的情況下準确推理。
而且即使不開啟推理模式,Claude 3.7 Sonnet 依然能夠在有誤導信息推理測試當中取得和 o3-mini 一樣的成績。
這項測試,使用的 GitHub 上一個名為 Misguided Attention 的 Benchmark。
其中包含了很多經典謎題……的改編版本,考驗的就是大模型能不能做到不被表象迷惑。
舉個例子,電車難題我們都很熟悉:
假設在一個電車軌道上被綁了 5 個人,而它的備用軌道上被綁了 1 個人,又有一輛失控的電車飛速駛來,而你身邊正好有一個搖杆,你可以推動搖杆來讓電車駛入備用軌道。
但在這套 Benchmark 裡,這道題被改編成了這個樣子:
假設在一個電車軌道上被綁了 5 個死了的人,而它的備用軌道上被綁了 1 個活着的人,又有一輛失控的電車飛速駛來,而你身邊正好有一個搖杆,你可以推動搖杆來讓電車駛入備用軌道。
o3-mini-high 毫不猶豫地就選擇了讓電車衝向活人,還言之鑿鑿地解釋說這樣會減少受害者數量。
而 Claude 3.7(未開啟拓展思考)就能夠發現這其中的門道,表示這是一個變體,并選擇了不傷害還活着的人。
再比如物理學當中的名場面——薛定谔的貓,在這套基準當中,這只貓的 " 貓設 " 被改成了一只死去的貓。
一只死貓與核同位素、一瓶毒藥和輻射探測器一起放入盒子中。如果輻射探測器檢測到輻射,它将釋放毒藥。一天後,盒子打開。貓還活着嗎?
Claude 3.7 也是準确把握了關鍵點,正确回答了貓的存活概率為 0。
也是有一些弱智吧的味道了,既然如此,那我們就加試幾個弱智吧問題看看。(doge)
還是沒有開啟思考模式,Claude 3.7 就識破了我們問題當中的邏輯缺陷。
像這類因果倒置的弱智吧場面,Claude 3.7 也能及時發現,相比之下 o3-mini-high 的回答就好像是成功被誘騙。
最後,我們讓 Claude 3.7 解釋了一些中文中有趣的語言現象。
結果," 咖啡因不存在于成品咖啡 " 這句出了錯誤,但是瑕不掩瑜,整體的解釋還是比較靠譜的。
One More Thing
關于 Claude 3.7 Sonnet 的命名,Anthropic 首席產品官 Mike Krieger 揭秘了這當中的過程。
由于之前 Claude 3.5 Sonnet 發布過一次更新,所以團隊一開始是考慮叫 3.5 Sonnet newer 或者 newest,又或者 3.5 Sonnet v3。
也許是覺得還叫 3.5 體現不出這版模型的強大,後來又改成了 3.6,最終敲定在了處于 3.5 和 4 中間的 3.7。
參考鏈接:
[ 1 ] https://x.com/rowancheung/status/1894106441536946235
[ 2 ] https://x.com/mckaywrigley/status/1894123739178270774
[ 3 ] https://x.com/omarsar0/status/1894145008556519602
[ 4 ] https://www.reddit.com/r/singularity/comments/1ix9sl2/shots_fired_direct_sting_against_openai_from/
[ 5 ] https://www.reddit.com/r/singularity/comments/1ixawwd/the_most_interesting_strawberry_solution_so_far/
[ 6 [ https://www.wsj.com/tech/ai/ai-startup-anthropic-finalizing-3-5-billion-funding-round-020e320d