大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科技

OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相!

2024-12-21 简体 HK SG TW

今天小编分享的科技经验:OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相!,欢迎阅读。

财联社 12 月 21 日讯(编辑 潇湘)OpenAI 将其最为重要的尖端产品,放在了为期 12 天的技术分享直播活动的最后一天!

周五,OpenAI 发布了下一代的推理模型 o3,这是今年早些时候发布的 o1 推理模型的更新版本。更准确地说,o3 是一个模型系列——就像 o1 一样,同时有 o3 和 o3-mini 两个版本,后者是一款更小的精简版模型,针对特定任务进行了微调。

OpenAI 声称,至少在某些条件下,o3 模型可以接近实现 AGI。

AGI 是 " 通用人工智能 " ( artificial general intelligence ) 的缩写,泛指能完成人类所能完成的任何任务的人工智能。OpenAI 对此有着自己的定义:" 在最具经济价值的工作上胜过人类的高度自主系统 "。

实现 AGI 将是一个大胆的宣言。对于 OpenAI 来说,其背后也将具有现实意义。根据 OpenAI 与其亲密合作伙伴和投资方微软的協定条款,一旦 OpenAI 达到 AGI,就没有义务再让微软使用其最先进的技术 ( 即那些符合 OpenAI AGI 定义的技术 ) 。

OpenAI 首席执行官山姆 · 奥尔特曼 ( Sam Altman ) 介绍称,OpenAI 计划在 1 月底前正式推出 o3 mini,之后推出完整版的 o3。该公司期待更强大的大型语言模型可以超越现有模型,吸引新的投资和用户。

OpenAI 在一篇博客文章中表示,o1 模型已经能够推理复杂的任务,与以前的科学、编码和数学模型相比,它能解决更具挑战性的问题。而 OpenAI 新推出的 o3 和 o3 mini 模型目前正在进行内部安全测试,它们将比之前推出的 o1 模型更加强大。

OpenAI 两年前发布了 ChatGPT,拉开了 AI 军备竞赛的序幕。ChatGPT 是一款聊天机器人,最初由版本为 GPT-3.5 的大型语言模型驱动。OpenAI 随后在 2023 年推出了 GPT-4,并称其更准确、更具创造性。最近,OpenAI 又推出了其首个推理模型 o1。

该公司发言人表示,OpenAI 决定不将下一代新模型命名为 o2," 是出于对同名英国电信运营商 o2 的尊重 "。奥尔特曼当天在直播中也调侃称," 按照 OpenAI 非常非常不擅长命名的伟大传统,它将被命名为 o3。"

o3 有多强大?

那么,o3 具体的表现究竟能有多强大呢?

根据 OpenAI 的介绍,o3 模型在 ARC-AGI 基准上获得了破纪录的分数。ARC-AGI 由 Keras 之父 Fran ç ois Chollet 开发,主要是通过图形逻辑推理来测试模型的推理能力。以 100% 为最高分的 ARC-AGI 评估结果显示,在低计算场景中,o3 得分为 75.7%,而在高计算测试中,它达到了 87.5%。

这标志着,o3 的最佳成绩超过了标志着达到人类水平的门槛 85%。作为对比,目前开放的 o1 模型的得分仅在 25% 到 32% 之间。o3 的表现几乎是 o1 的逾三倍。

在其他基准测试中,o3 也明显脱颖而出。

在衡量编程能力的 Codeforces Elo 评分中,o3 取得了 2727 的 Elo 评分,而 o1 评分仅为 1891。事实上,o3 mini 在中等推理时间模式的表现也已足以超越 o1。

在 OpenAI 于 8 月推出的 SWE-bench Verified 代码生成评估基准中,o3 的准确率为 71.7%,比 o1 高出了 22.8 个百分点。

o3 还在 2024 年美国 AIME数学竞赛中取得了 96.7% 准确率的高分,只缺了一道题,并在 GPQA Diamond ( 一套研究生水平的生物、物理和化学试题 ) 中取得了 87.7% 准确率的高分。

尤为值得一提的是,o3 在 EpochAI 的 "FrontierMath" 基准测试中创造了新纪录,解决了 25.2% 的问题——在该项测试中没有其他模型能超过 2%。

Epoch AI 此前联合六十余位全世界的数学家,其中包括教授、IMO 命题人、菲尔兹奖得主,共同推出了全新的数学基准 FrontierMath。这些数学问题从奥赛难度到当今的数学前沿,包含了目前数学研究的所有主要分支——从数论和实数分析中的计算密集型问题到代数几何和群论中的抽象问题。

行业竞争与风险

毫无疑问,o3 模型在上述测试中的表现,足以令人感到惊艳。无论在軟體工程、编写代码,还是竞赛数学、掌握人类博士级别的自然科学知识能力方面,o3 都明显高出 o1 一筹。

OpenAI 总裁 Greg Brockman 表示," 我们最新的推理模型 o3 是一个突破,在我们最困难的基准上有了阶跃函数的改进。我们现在开始安全测试和红队演练。"

而迈向类人智能的大跨步突破,显然也会引发一些人士对 AI 安全性的担心。

风险可能确实存在。人工智能安全测试人员发现,与传统的 " 非推理 " 模型相比,o1 的推理能力便已使其试图欺骗人类用户的比例更高,而在这方面,Meta、Anthropic 和谷歌的领先人工智能模型也是如此。

o3 试图欺骗用户的比例可能比它的前身更高;一旦未来 OpenAI 的红队测试结果出炉,人们或许便能知道具体情况。奥尔特曼对此也表示,在 OpenAI 发布新的推理模型之前,他更希望有一个联邦测试框架来指导监控和降低这些模型的风险。

在公开发布 o3 模型之前,OpenAI 也将开放外部研究人员测试 o3 模型的申请流程,申请将于 1 月 10 日截止。

近期,在 OpenAI 首批推理模型 o1 发布之后,一些该公司的主要竞争对手也已纷纷推出了推理模型。在本月早些时候,谷歌就发布了其旗舰模型 Gemini 的新版本,据称其速度是上一代模型的两倍,可以 " 思考、记忆、计划,甚至代表你采取行动 "。Meta 首席执行官马克 · 扎克伯格最近也透露,计划于明年推出 Llama 4。

这些动向表明人工智能领網域的竞争目前正日益激烈,各方都在努力创造能够解决复杂问题的更为智能的模型。

而OpenAI 周五 o3 模型的最新亮相,也为其为期 12 天的直播产品发布会画上了圆满句号。在早前的直播中,这家初创公司推出了更昂贵的新 ChatGPT Pro 订阅选项 ( 每月 200 月 ) ,并正式对外推出了 AI 视频生成模型 Sora Turbo 以及其他新产品。ChatGPT 搜索功能也全面更新,新增地图集成、实时搜索等功能,向所有用户开放。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們