大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

首个混合推理模型Claude 3.7发布!编程能力全面领先,还能精准控制思考时间

2025-02-25 简体 HK SG TW

今天小编分享的科学经验:首个混合推理模型Claude 3.7发布!编程能力全面领先,还能精准控制思考时间,欢迎阅读。

Claude 深夜重磅发布新模型——

Claude 3.7 Sonnet,首个混合推理模型问世,在编码和前端 Web 开发方面显著提升,实现了全面领先。

与 o3-mini 实际对比,相同的提示词下,Claude 3.7 Sonnet 的表现。

o3-mini:

Claude 3.7 Sonnet:

(提示词:编写一个 p5.js 脚本,模拟 100 个彩球在球体内弹跳。每个球都应留下一条逐渐消失的轨迹,显示其最近的运动轨迹。容器球体应缓慢旋转。确保实现适当的碰撞检测,使球保持在球体内。)

还有用它来做视频游戏。

作为混合推理模型,它有两种思考模式:

近乎实时地反应 & 扩展地、循序渐进(step-by-step)地思考。

扩展思维模式下,它在数学、物理、指令遵循、编码等多个任务中有额外的提升。

API 用户甚至还可以精准控制模型的思考时间。目前已经在全平台上线,包括亚马逊云服务 Bedrock 平台、谷歌云,而要想要扩展思考模式,除免费版外其他都可以用。

模型更新,价格不变——

与前代产品相同,每百万输入 token 3 美元,每百万输出 token 15 美元(其中包括思考代币)。

除此之外,他们还发布了他们首个编码工具Claude Code:

它能够一次性完成原本需要 45 分钟以上手动才能完成的工作。

网友们纷纷表示,已经迫不及待地想用上了。

不过,为什么是 3.7 版本呢?

Claude 3.7 Sonnet:首个混合推理模型

官方此次首先表示,他们开发 Claude 3.7 Sonnet 这个的理念与市场上其他推理模型不同。

类比于人类大腦有快速反应和深度思考两种一样,他们认为推理应该是前沿模型的综合能力,而不是完全独立的模型。

由此,Claude 3.7 Sonnet 在多个方面都有体现这个理念。

首先,Claude 3.7 Sonnet 既是普通的 LLM 模型,又是推理模型:

您可以选择何时让模型正常回答,何时让模型在回答前思考更长时间。

在标准模式下,Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的更新版。在扩展思维模式下,它会在回答前进行自我反思,从而提高其在数学、物理、遵循指令、编码和许多其他任务上的表现。

在两种模式下,对模型的提示方式类似。

这是代码生成任务下,两种思维模式回答之间的区别。

其次,控制思考预算,用速度和成本来换取答案的质量。

API 用户可以告诉 Claude 思考的数量不超过 N 个 token,N 的值可以是任何值,但输出上限不能超过 128K 个 token。

模型能力的表现,也就取决于允许思考的 token 数量。例如以下在 AIME 2024 的成绩图。

第三,优化重点转向更能反映用户需求的现实世界任务,对数学和计算机竞赛问题优化较少。

△解决实际的概率问题

编码任务,网友们对它这种「vibe coding」(面对非开发人员的 AI 辅助编码)印象深刻。

有网友实测发现,确实能解决其他模型无法解决的问题。> 你能用 p5js 编写最复杂的布料模拟吗?

结果 Grok 3 和 o1 pro 没有可用的结果。而 Claude 3.7 Sonnet 的表现是:

在代理工具使用上面,实现了 SOTA。

Claude 3.7 Sonnet 在指令遵循、一般推理、多模态能力和代理编码方面表现出色,扩展思维在数学和科学方面提供了显著的提升。

除了传统的基准测试之外,它甚至在宝可梦游戏测试中超越了所有以前的模型——

团队为 Claude 配备了基本内存、螢幕像素输入以及按键和螢幕导航的功能调用,使其能够超越通常的上下文限制,持续玩游戏,并通过数以万计的互動进行游戏。

最终实验表明,它是迄今所有 Sonnet 模型中表现最好的,它成功与三个宝可梦道馆馆主(游戏的 Boss)战斗并赢得他们的徽章。相比之下,Claude 3.0 Sonnet 甚至无法离开故事开始的地方 Pallet Town 的房子。

x 轴表示 Claude 在玩游戏时完成的互动次数;y 轴表示游戏中的重要里程碑,包括收集某些物品、导航到某些区網域以及击败某些 Boss。

此次,研究人员使用了并行测试时间计算来提高模型的性能。

他们的方法是对多个独立思考过程进行采样,并在事先不知道真实答案的情况下选出最佳答案。其中一种方法是使用多数投票;选择最常见的答案作为 " 最佳 " 答案。另一种方法是使用另一个语言模型(比如 Claude 的第二个副本),要求它检查自己的工作或学习的评分函数,然后选出它认为最好的答案。

结果在 GPQA 评估中,这一方法让模型取得了惊人的改进。

GPQA 是一组常用的具有挑战性的生物、化学和物理问题。  Claude 3.7 Sonnet 使用 256 个独立样本的等效计算、学习的评分模型和最大 64 token 的思维成本之下,取得了 84.8% 的 GPQA 分数(包括 96.5% 的物理子分数)。

此外,Claude 3.7 Sonnet 还对有害请求和良性请求进行了更细致的区分,与前代版本相比,不必要的拒绝次数减少了 45% 。

Claude 首个编码工具面世

Claude Code,从官方透露的功能看,它可以搜索和读取代码、编辑檔案、编写和运行测试、提交和推送代码到 GitHub 以及使用命令行工具。

目前还只是早期的预览版,可直接在终端运行。

早期测试中,Claude Code 可以一次性完成了通常需要 45 分钟以上手动操作才能完成的任务,从而减少了开发时间和开销。

在接下来的几周内,他们计划结合他们使用情况不断改进它——

比如增强工具调用的可靠性,增加对长时间运行的命令的支持,改进应用内渲染,并扩展 Claude 对其功能的理解。

除此之外,他们还改进了 Claude.ai 上的编码体验。GitHub 集成现已在所有 Claude 使用平台中提供,开发人员可以将其代码存储库直接连接到 Claude。

参考链接:

[ 1 ] https://www.anthropic.com/news/claude-3-7-sonnet

[ 2 ] https://www.anthropic.com/research/visible-extended-thinking

[ 3 ] https://docs.anthropic.com/en/docs/build-with-claude/extended-thinking

[ 4 ] https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview

[ 5 ] https://x.com/deedydas/status/1894110678027571412

[ 6 ] https://x.com/_akhaliq/status/1894106278185898489

熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們