今天小编分享的科学经验:Claude 3.7登顶编程竞技场,大幅领先100分!最新布料模拟实测再惊艳网友,欢迎阅读。
公认的编程开发能力第一!Claude 3.7 Sonnet刚刚登顶 WebDev 竞技场榜首。
大幅甩第二名 100 多分,在榜单前十的其它相邻模型分差仅为几分、几十分的情况下。
那第二名是谁呢?还是 Claude 自己—— Claude 3.5 Sonnet。
WebDev 榜单与我们所熟知 Chatbot Arena 榜单 " 同宗同源 ",也是由 LMArena(LMSYS Org)打造,不过更专注于 AI 编程、网页应用开发能力。
值得一提的是,DeepSeek R1 作为榜单前十唯一的开源模型排名第三,超越 early-grok-3、o3-mini-high、Claude 3.5 Haiku 等。
对于 Claude 3.7 Sonnet 高分登顶,有网友表示并不惊讶。
毕竟,这两天网友们疯狂实测 Claude 3.7,一次又一次被惊艳到,最新实测更是再次刷新网友对 Claude 3.7 的认知。
比如前两天下面这个 Claude 3.7 Sonnet 用 p5js 编写布料模拟效果在网上疯传:
有位学者看到后,还晒出了自己 1986 年在 MIT 的硕士论文,主题正是 " 布料外观建模 "。他提到,过去完成这项工作需要数天时间,而现在 AI 只需几分钟就能超越他,不禁感叹:
虽然他们现在还付我薪水,但这样的日子还能持续多久呢?
现在,更扎心了老铁。
网友又做出了另一版,还是带有明暗关系的那种:
网友表示 " 这种效果即使是在高级图形学课中,也很少有教怎么做的 "。
除此之外,Reddit 上一位老哥的最新分享也引发网友热议。
他表示突然想起一个自己在 1997 年用 Visual Basic 4 编写的古老应用程式,于是将这个 27 年前的 EXE 檔案上传到了 Claude 3.7 并请求转换为 Python 代码,结果 Claude 不仅分析了檔案组件,还在 5 分钟内用 Pygame 写出完美转换且可运行的 Python 代码。
这位老哥还晒出了自己与 Claude 3.7 的聊天记录:
网友 get 新玩法后纷纷开始效仿。
另外,有网友体验了 Claude 3.7 的新GitHub 集成功能后表示 " 它改变了工程师理解軟體的方式 ":
可以 Frok 一个代码库选择一个特定的檔案夹,然后向它提问关于代码的任何问题,Claude 还会显示每个檔案夹在上下文視窗中所占的百分比,帮助你更好地理解代码结构和内容。
沃顿商学院教授 Ethan Mollick 也放出了最新实测。
例如,基于 "Bartleby the Scrivner" 故事创建的小游戏:
还可以用 Claude 3.7 制作一个互动式的 " 时光机道具,能够穿越回过去 ":
Ethan Mollick 特意写了一篇 Blog 介绍 Claude 3.7。
有意思的是,这篇 Blog 被 Anthropic 官方注意到了,官方表示Claude 3.7 没有那么大(花几千万美元训练的那种)。但之后的模型规模会增长。
参考链接:
[ 1 ] https://x.com/lmarena_ai/status/1894840263379689490
[ 2 ] https://x.com/deedydas/status/1894871849269633162
[ 3 ] https://x.com/deedydas/status/1894841573311197239
[ 4 ] https://x.com/deedydas/status/1894576702749381082
[ 5 ] https://x.com/emollick/status/1894258450852401243