今天小編分享的科學經驗:Claude 3.7登頂編程競技場,大幅領先100分!最新布料模拟實測再驚豔網友,歡迎閲讀。
公認的編程開發能力第一!Claude 3.7 Sonnet剛剛登頂 WebDev 競技場榜首。
大幅甩第二名 100 多分,在榜單前十的其它相鄰模型分差僅為幾分、幾十分的情況下。
那第二名是誰呢?還是 Claude 自己—— Claude 3.5 Sonnet。
WebDev 榜單與我們所熟知 Chatbot Arena 榜單 " 同宗同源 ",也是由 LMArena(LMSYS Org)打造,不過更專注于 AI 編程、網頁應用開發能力。
值得一提的是,DeepSeek R1 作為榜單前十唯一的開源模型排名第三,超越 early-grok-3、o3-mini-high、Claude 3.5 Haiku 等。
對于 Claude 3.7 Sonnet 高分登頂,有網友表示并不驚訝。
畢竟,這兩天網友們瘋狂實測 Claude 3.7,一次又一次被驚豔到,最新實測更是再次刷新網友對 Claude 3.7 的認知。
比如前兩天下面這個 Claude 3.7 Sonnet 用 p5js 編寫布料模拟效果在網上瘋傳:
有位學者看到後,還曬出了自己 1986 年在 MIT 的碩士論文,主題正是 " 布料外觀建模 "。他提到,過去完成這項工作需要數天時間,而現在 AI 只需幾分鍾就能超越他,不禁感嘆:
雖然他們現在還付我薪水,但這樣的日子還能持續多久呢?
現在,更扎心了老鐵。
網友又做出了另一版,還是帶有明暗關系的那種:
網友表示 " 這種效果即使是在高級圖形學課中,也很少有教怎麼做的 "。
除此之外,Reddit 上一位老哥的最新分享也引發網友熱議。
他表示突然想起一個自己在 1997 年用 Visual Basic 4 編寫的古老應用程式,于是将這個 27 年前的 EXE 檔案上傳到了 Claude 3.7 并請求轉換為 Python 代碼,結果 Claude 不僅分析了檔案組件,還在 5 分鍾内用 Pygame 寫出完美轉換且可運行的 Python 代碼。
這位老哥還曬出了自己與 Claude 3.7 的聊天記錄:
網友 get 新玩法後紛紛開始效仿。
另外,有網友體驗了 Claude 3.7 的新GitHub 集成功能後表示 " 它改變了工程師理解軟體的方式 ":
可以 Frok 一個代碼庫選擇一個特定的檔案夾,然後向它提問關于代碼的任何問題,Claude 還會顯示每個檔案夾在上下文視窗中所占的百分比,幫助你更好地理解代碼結構和内容。
沃頓商學院教授 Ethan Mollick 也放出了最新實測。
例如,基于 "Bartleby the Scrivner" 故事創建的小遊戲:
還可以用 Claude 3.7 制作一個互動式的 " 時光機道具,能夠穿越回過去 ":
Ethan Mollick 特意寫了一篇 Blog 介紹 Claude 3.7。
有意思的是,這篇 Blog 被 Anthropic 官方注意到了,官方表示Claude 3.7 沒有那麼大(花幾千萬美元訓練的那種)。但之後的模型規模會增長。
參考鏈接:
[ 1 ] https://x.com/lmarena_ai/status/1894840263379689490
[ 2 ] https://x.com/deedydas/status/1894871849269633162
[ 3 ] https://x.com/deedydas/status/1894841573311197239
[ 4 ] https://x.com/deedydas/status/1894576702749381082
[ 5 ] https://x.com/emollick/status/1894258450852401243