大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 互联网

超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场

2024-12-21 简体 HK SG TW

今天小编分享的互联网经验:超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场,欢迎阅读。

本文作者:李丹

来源:硬 AI

圣诞节前,人工智能巨头上演了一场精彩的推理模型攻防战。谷歌和 OpenAI 正面对垒,谷歌刚发布自家的先进推理模型挑战 OpenAI 的 o1,第二天,OpenAI 就推出了更新版的最强推理模型 o3。

美东时间 12 月 20 日周五,在为期 12 个工作日的线上新品发布活动最后一日,OpenAI 宣布了 " 压轴大作 ":o1 的下一代模型 o3,而且一开始就要推出两个版本,一个正式的 o3,还有一个相对较小的精简版 o3-mini。

OpenAI 的 CEO Sam Altman 在直播中提到,OpenAI 本次 12 日的活动第一天官宣了上线正式版 o1、所谓满血 o1。活动最后一天又有 o3 亮相,首尾都由介绍推理模型呼应,也算是一种精心设计。

逻辑上说,o1 的下一代应该命名为 o2,至于为什么新模型叫 o3,之前媒体称,OpenAI 是为了避免和名为 O2 的英国电信服务商冲突。Altman 也确认了这点,说出于对 O2 的尊敬,并没有起同样的名字。

直播中,Altman 称 o3 是 " 一个非常、非常聪明的模型 "。OpenAi 的评估结果也显示,无论在軟體工程、编写代码,还是竞赛数学、掌握人类博士级别的自然科学知识能力方面,o3 都明显高出 o1 一筹。同时测试显示,o3 在 OpenAI 实现通用人工智能(AGI)这一奋斗目标上取得了突破,最高的测试成绩达到了类人水平。

o3 軟體工程测试准确率比 o1 高近 47% 竞赛数学高 15% 人类博士专家级生化物高近 13%

今年 9 月,OpenAI 发布 o1 的预览版 o1 preview 时称,o1 是第一个具备真正通用推理能力的大模型,它的核心能力推理在测试化学、物理和生物学专业知识的基准 GPQA-diamond 上得到了充分体现。据 OpenAI 评估,o1 在该测试中全面超过了人类博士专家,准确率达到 78.3%,而人类专家的得分为 69.7%。

本周五的直播中,OpenAI 展示了 o3 的测评表现:

根据 OpenAI8 月推出的 SWE-bench Verified 代码生成评估基准,在軟體工程的能力测评中,o3 的准确度得分 71.7,即准确率 71.7%,远超得分 48.9 的 o1 和得分 41.3 的 o1 preview。也就是说,o3 的准确率比 o1 正式版高将近 47%,比 o1 预览版高将近 74%。

在竞争性编程网站 Codeforces 的竞争性代码测评中,o3 取得 2727 的 Elo 评分,o1 评分 1891,o1 preview 评分 1258。这个测评结果显示,竞争性代码方面,o3 的评分比 o1 正式版高 44%,是 o1 预览版的两倍多。

经过 2024 年 AIME 数学竞赛的题目测试,o3 的准确度得分为 96.7、即准确率 96.7%,o1 和 o1 preview 分别得分 83.8 和 56.7。从竞赛数学的角度看,o3 的准确率比 o1 正式版高 15%,比 o1 预览版高近 71%。

以人类博士专家的测试考验,在测试化学、物理和生物学专业知识的基准 GPQA-diamond 上,o3 的准确度得分为 87.7,即准确率 87.7%,o1 和 o1 preview 分别得分 78.0 和 78.3。o3 的准确率比 o1 高将近 13%,比 o1 预览版高 12%。

迈向类人智能取得突破 AGI 相关测试最佳成绩达到人类水平

除了以上和 o1 对比的编码、数学、自然科学测评结果,OpenAI 周五还展示了,o3 的推理能力已经更加接近实现 AGI。

OpenAI 对 o1 和 o3 都进行了名为 ARC-AGI 的测试。ARC-AGI 是一项旨在评估 AI 系统是否能有效在其训练数据之外获得新技能的测试,运用半私有评估集验证的测评结果。

下图可见,以 100% 为最高分的 ARC-AGI 评估结果显示,o1 的得分在 25% 到 32%,而 o3 的最低成绩为 75.7%,最高成绩为 87.5%。从这个结果看,o3 的最佳成绩超过了标志着达到人类水平的门槛 85%。

创始 ARC-AGI 标准的前谷歌高级工程师、AI 研究员 Fran ç ois Chollet 表示,OpenAI 这些推理模型在 AGI 测试中取得进步是 " 稳健的 "。

Chollet 周五在社交媒体 X 发帖,公布了同 OpenAI 合作进行的 ARC-AGI 结果,称 " 我们相信这代表了让 AI 适应新任务的重大突破。"

Chollet 解释说,在低计算模式下、即计算中每个任务 20 美元的半私人评估中,o3 的得分为 75.7%,在高计算模式下、即每个任务数千美元的评估中,o3 的得分为 87.5%。它不仅仅是蛮力,它是新领網域的功能,需要科学领網域认真关注。

OpenAI 计划明年初发布 o3 可能一段时间内都不会面向大众上线

虽然 o3 的测评看上去表现惊艳,但 OpenAI 应该不会很快面向大众上线这款新的超级推理模型。

从本周五开始,OpenAI 允许安全研究人员可以注册访问 o3 和 o3-mini 的预览。OpenAI 的一名发言人本周五称,OpenAI 计划明年初正式发布这些新的 o3 模型。

周五的直播中,Altman 暗示,o3 系列可能在一段时间内都不会向普通大众推广使用。因为他说,在 OpenAI 正式发布新的推理模型之前,他更希望有一个联邦政府的测试框架,指导监控和减轻此类模型的风险。Altman 说,

在 OpenAI 发布 o3 之前," 应该有某种联邦测试框架,说明我们最感兴趣的是监控和缓解危害,类似于这里有一组测试,在你发布它之前,你必须能够证明,这种模型在这些方面是安全的,就像你对一种新药或一架新飞机或其他什么的证明一样。"

本周四,谷歌宣布推出全新的测试模型——Gemini 2.0 Flash Thinking。它使用了类似 o1 模型的慢思维思考方式,可以深度可视化展示整个思维链过程,尤其是在执行数学、编程等复杂问题方面。

相比 o1,Gemini 2.0 Flash Thinking 的最大差别是,让用户能看到一步一步推理的过程,更清晰、更透明地了解模型如何得出结论。它刚亮相就登上了 Chatbot Arena 大模型评估的榜首。不过,谷歌的这一新模型还处于实验性阶段,只是一个早期版本。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們