大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

2025-02-25 简体 HK SG TW

今天小编分享的科学经验:实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守,欢迎阅读。

Claude 3.7 新鲜出炉全网热议,到底有多强?

第一波实测来了!简单粗暴总结,它在编程、现实世界任务上,能力爆表。

只需一个样本,就能一下子吐出3200 多行代码,做出一个可玩性很高的游戏。

像什么跳跃、打怪、回血、吃金币……一系列复杂的游戏机制都完美呈现了出来。

有意思的是,这个游戏还和 Meta Quest 里的 VR 游戏《霓虹奥德赛(Neon Odyssey)》同名。

物理规律也能准确把握,有人仅用3 个提示,就用 C 语言模拟了真实物理情景下的流体运动:

并且量子位实测发现,Claude 3.7 Sonnet能够识破很多的逻辑陷阱,一些弱智吧名场面也能秒懂:

而在 Claude 官方看来,其最大的优势就是 " 更擅长现实世界中的任务 ",并且在更新公告中还不忘内涵一波隔壁 OpenAI。

另外趁着模型上新,Claude 背后的 Anthropic 新一轮融资曝光:35 亿美元(约 254 亿人民币)。比预先目标 20 亿翻了近一倍。

由此,包括正在筹集的现金在内,Anthropic 估值已经达到了 615 亿美元(约 4462 亿人民币)。

一句话生成《我的世界》,新模型编程能力嘎嘎乱杀

从更多网友鲜测来看,Claude 3.7 Sonnet 尤为擅长编程和 Web 开发。

一上手,他们就把目光放在了考验 AI 理解真实世界能力的物理模拟上。

更懂物理规律

比如一位日本小哥就用它生成了精致的 " 太阳系运行图 ",太阳、八大行星还有被开除行星籍的冥王星都包含在内,给小哥带来了亿点点震撼:

1374 行代码,Claude 3.7 Sonnet 唰一下就完成了!

不仅生成速度快,还实现了实时互動。点击某个行星,右上角还会显示一些小科普。

要知道,哪怕不制作成动画,单纯地完整厘清这些天体的运行规律,就已经难倒了绝大部分人。

而 Claude 的作品,虽然美观性可能还有提升空间,但至少它不仅对行星运行的规则有清晰的把握,还能把它们变成代码。

另外,对于每一个新模型都要被拉出来遛一遛的" 空间内弹小球 "挑战,Claude 3.7 Sonnet 当然也没逃过:

编写一个 Python 脚本,实现球在四维体内部弹跳。

本月初的 o3-mini 在这一挑战中表现出色,斩获 " 可能是最懂现实物理的 LLM":

而相比于慢悠悠的 o3-mini,Claude 3.7 Sonnet 则另辟蹊径主打一个 " 天下武功,唯快不破 "。

小小四维空间内,小球弹跳速度快出残影,真滴很需要一个眼尖的裁判来决出胜者 ( doge)。

与此同时,除了物理模拟,用 Claude 3.7 Sonnet 编写各种小游戏竟默契成为一众网友最佳选择。

游戏成最热场景

挑战生成爆火游戏《Flappy bird》,Claude 3.7 Sonnet 一眼完胜 o3 mini-high。

游戏中,玩家必须控制一只小鸟,跨越由各种不同长度水管所组成的障碍。

先看 Claude 3.7 Sonnet,一次性生成的代码就高度还原了游戏理念:

而高級位推理模式下的 o3 mini,只有一个小方块在画面中原地鬼畜,基本看不出游戏的亚子。

一时间,这一惨烈对比直接将 Claude 3.7 Sonnet 推上了新的高度:

同时,随着难度进一步更新,这句评价的含金量还在上升。

除了简单还原游戏理念,生成更精致甚至可以上下左右互動的 " 大制作 " 也是不在话下。

在早期测试中,知名博主 Rowan Cheung 就用它一句话创建了克隆版《我的世界》,而且能立即在 Artifacts 中玩。

类似的还有下面这个,也是一句话生成一个完整游戏:

使用 Phaser.js 制作一个横版平台游戏,仅使用箭头键进行游戏操作。(左上角还会实时更新得分情况)

这还不算完,更有腦洞大开的网友仅用 5 个提示,就为 Apple Watch 制作了一个与心率绑定的贪吃蛇游戏。

你越紧张,蛇移动得越快,你越冷静,就越容易。

笑死,知名博主 Pietro Schirano 借机又调侃了 Anthropic 一波:

而除了各种游戏,将 Claude 3.7 Sonnet 应用于实际开发场景的例子也是精彩纷呈。

生产力提效 Max

目前,Claude 平台已提供 GitHub 集成,开发人员可以将其代码存储库直接连接到 Claude。

設定完成后,它会显示特定项目的容量百分比,这样用户就知道自己使用了多少容量。

知名博主 elvis 特意 cue 到了 "Artifacts" 功能,直连后这对于今后修改代码非常方便。

在实际体验中,有人用它来生成动画天气卡,移动的云彩、飘落的雨滴等全都栩栩如生,还支持自主调节移动快慢。

当然,创建网页这种活儿,单看可能没感觉,那我们直接请出几位选手挑战扒同一个 HTML 网页。

要完成的目标是这样婶儿的:

Claude 3.7 Sonnet 堪称还原度最高,而且在没有圖示素材的情况下用 emoji 填充了左侧边栏的按钮:

而其他几位选手 o1-mini-high、Grok 3 以及 Gemini 2.0 Pro 依次作答如下,有的只简单地列举了数据,甚至还有的干脆只给了个表格:

鉴于编写程式的能力确实很强,还有人激动表示自己在 cursor 里尝试了一番,效果嘛:

添加了 15 个以上的檔案,并且看起来很好,看上去一次可以处理的内容更多了。

" 数字母 " 问题埋下小彩蛋

而且 Claude 团队也非常 " 时髦 ",在 3.7 Sonnet 当中埋下了关于 strawberry 数 r 的彩蛋。

不过虽然这种幽默的态度十分可嘉,但是换了个词可能还是会掉链子。

虽然数错了,Claude 还不忘纠正拼写错误,耿直地指出你这个 " 密西西比 " 拼的不对啊,正确的拼写里就是有 4 个 s。

实测:识破逻辑陷阱,弱智吧也能招架

Claude 3.7 Sonnet 的推理能力除了体现在编程上,还包括在存在误导信息的情况下准确推理。

而且即使不开启推理模式,Claude 3.7 Sonnet 依然能够在有误导信息推理测试当中取得和 o3-mini 一样的成绩。

这项测试,使用的 GitHub 上一个名为 Misguided Attention 的 Benchmark。

其中包含了很多经典谜题……的改编版本,考验的就是大模型能不能做到不被表象迷惑。

举个例子,电车难题我们都很熟悉:

假设在一个电车轨道上被绑了 5 个人,而它的备用轨道上被绑了 1 个人,又有一辆失控的电车飞速驶来,而你身边正好有一个摇杆,你可以推动摇杆来让电车驶入备用轨道。

但在这套 Benchmark 里,这道题被改编成了这个样子:

假设在一个电车轨道上被绑了 5 个死了的人,而它的备用轨道上被绑了 1 个活着的人,又有一辆失控的电车飞速驶来,而你身边正好有一个摇杆,你可以推动摇杆来让电车驶入备用轨道。

o3-mini-high 毫不犹豫地就选择了让电车冲向活人,还言之凿凿地解释说这样会减少受害者数量。

而 Claude 3.7(未开启拓展思考)就能够发现这其中的门道,表示这是一个变体,并选择了不伤害还活着的人。

再比如物理学当中的名场面——薛定谔的猫,在这套基准当中,这只猫的 " 猫设 " 被改成了一只死去的猫。

一只死猫与核同位素、一瓶毒药和辐射探测器一起放入盒子中。如果辐射探测器检测到辐射,它将释放毒药。一天后,盒子打开。猫还活着吗?

Claude 3.7 也是准确把握了关键点,正确回答了猫的存活概率为 0。

也是有一些弱智吧的味道了,既然如此,那我们就加试几个弱智吧问题看看。(doge)

还是没有开启思考模式,Claude 3.7 就识破了我们问题当中的逻辑缺陷。

像这类因果倒置的弱智吧场面,Claude 3.7 也能及时发现,相比之下 o3-mini-high 的回答就好像是成功被诱骗。

最后,我们让 Claude 3.7 解释了一些中文中有趣的语言现象。

结果," 咖啡因不存在于成品咖啡 " 这句出了错误,但是瑕不掩瑜,整体的解释还是比较靠谱的。

One More Thing

关于 Claude 3.7 Sonnet 的命名,Anthropic 首席产品官 Mike Krieger 揭秘了这当中的过程。

由于之前 Claude 3.5 Sonnet 发布过一次更新,所以团队一开始是考虑叫 3.5 Sonnet newer 或者 newest,又或者 3.5 Sonnet v3。

也许是觉得还叫 3.5 体现不出这版模型的强大,后来又改成了 3.6,最终敲定在了处于 3.5 和 4 中间的 3.7。

参考链接:

[ 1 ] https://x.com/rowancheung/status/1894106441536946235

[ 2 ] https://x.com/mckaywrigley/status/1894123739178270774

[ 3 ] https://x.com/omarsar0/status/1894145008556519602

[ 4 ] https://www.reddit.com/r/singularity/comments/1ix9sl2/shots_fired_direct_sting_against_openai_from/

[ 5 ] https://www.reddit.com/r/singularity/comments/1ixawwd/the_most_interesting_strawberry_solution_so_far/

[ 6 [ https://www.wsj.com/tech/ai/ai-startup-anthropic-finalizing-3-5-billion-funding-round-020e320d

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們