OpenAI满血版o1剧透：数学代码能力再破天花板，已开启测试评估 - 大酷樂

今天小编分享的科学经验：OpenAI满血版o1剧透：数学代码能力再破天花板，已开启测试评估，欢迎阅读。

" 性能远超 o1 预览版，满血版 o1 即将推出 "。

OpenAI 在官网商业化频道下，对满血版 o1 来了一波提前剧透。

视频截图中，满血版 o1 和 GPT-4o、o1-preview（预览版）同台竞技，且在数学 / 编码上遥遥领先。

经透露，OpenAI 将同步发布 GPT 系列和 o1 系列，且正在对满血版 o1 进行基准测试和运行评估。

此外，官方计划在未来几个月内为 o1 系列模型添加更多功能，例如网页浏览、檔案和影像上传等，并支持 ChatGPT 自动选择合适模型。

不过扫到最后，网友们却发现了一个华点：

啥？在 PhD 级别的科学任务上，满血版 o1 竟打不过 o1-preview？

对于这点，我们不妨从OpenAI 首席产品官最近的采访中找找答案，刚好他也谈到了 o1 模型——

满血版 o1 即将推出

OpenAI 于上月无预警发布了传说中的 " 草莓 " 模型：o1 系列。

它是 OpenAI 首个经过强化学习训练的模型，在输出回答之前，会再产生一个很长的思维链，以此增强模型的能力。

o1 系列一共 3 档，满血版因过于强大至今仍未公布。

o1（满血版）：新的大模型天花板，专注于深度思考和逻辑推理

o1-preiview：o1 的早期预览版本，在数学、编码能力上相比 GPT-4o 大幅提升

o1-mini：速度更快、性价比更高，适用于需要推理和无需广泛世界知识的任务

不过就在最近，关于 o1 模型的更多消息释出——

OpenAI 员工在一场研讨会中详细介绍了 o1-preview 模型的最新案例，并提到满血版 o1 即将发布。

一开始，OpenAI 产品营销团队的 Victoria Chernova 确认，公司将同步开发和发布 GPT 和 o1 两个系列的模型，因为它们各自擅长解决不同的问题。

这就像 OpenAI 官方一直提到的 " 范式转变 "，GPT 系列侧重于预测性回答，模式为 " 提问 - 回答 "，而 o1 系列在回答前加入了更多思考。

Victoria Chernova 也提到，很多客户实际上在同时使用GPT 和 o1 两个系列的模型，包括 OpenAI 内部也是如此。

接下来，解决方案工程团队的 Joe Casson 分享了 o1 模型的几个最新应用：战略制定、代码编写，研究分析。

在第一个案例中，他演示了如何用 o1-preview 分析巴黎或其他欧洲城市，以决定下一个市场开拓地。

过程中需要模型考虑市场潜力、市场进入策略、人才招聘等多个方面，最终生成了一份包含执行摘要和电子邮件的报告。

然后他分享了如何用o1-mini从零创建一个带有 Node.js 后端和 React 前端的 Web 应用程式。

他还提到，o1-mini 可以帮助开发者连接到 Azure 数据库等外部服务。

最后，他展示了如何用 o1-preview 帮助制定一份狗狗的最佳饮食计划等。

在展示分享中，他们也提到了人们目前对 o1 模型的一些 " 吐槽 "：比如 o1-preview 非多模态，上下文視窗长度也比 GPT-4o 更短……

对此，OpenAI 计划在未来几个月内为 o1 系列模型添加更多功能，包括网页浏览、檔案和影像上传等，并支持 ChatGPT 自动选择合适的模型。

OpenAI 首席产品官谈 o1 模型

除了上述研讨会，最近还有一场对 OpenAI 首席产品官Kevin Weil的采访。

其中谈到，目前o1 推理模型仅处于 GPT-2 级别，因此它将很快改进。

另外他还分享了在 OpenAI 与其他公司构建产品的不同之处。

最大区别在于，技术基础是不固定的。

以前在我工作过的几乎所有地方，在拥有固定的技术基础之前，都在试图弄清楚如何利用它来构建最好的产品。

而回到一开始的问题，为什么在 PhD 级别的科学任务上，满血版 o1 竟打不过 o1-preview？

也许在于哪怕是细微差距，两者的构建方式也是如此不同。

至于这 0.3 的差距到底有多大，也许即将公布的测试结果将为我们进一步揭晓。

参考链接：

[ 1 ] https://openai.com/business/solving-complex-problems-with-openai-o1-models/

[ 2 ] https://x.com/rohanpaul_ai/status/1847682643166650761

熱門排行

AI电视里的达摩惠惠君 | 2025-04-25
Alphabet Stocks Rise on Q1 Earni 甄正浩 | 2025-04-25
暴跌57%！“燕窝第一股”，业绩大幅下習又夏 | 2025-04-25
曾向茶颜悦色宣战，消失1年多后，这个習又夏 | 2025-04-25
前TVB小花陈凯琳因老公郑嘉颖一句集玲琳 | 2025-04-25
三星官网意外泄露最薄旗舰 Galaxy 郟君昊 | 2025-04-25
当一个艳星决定去做尼姑賁芳蕤 | 2025-04-25
2577亿，今年最大并购又刷新了謝飛揚 | 2025-04-25
家里安装了监控摄像头的人小心！有人集玲琳 | 2025-04-25
亚盛集团：投资5.91亿元建设甜菜生物習又夏 | 2025-04-25
高露现身上海虹桥机场黑色外套点缀亮色爱心装饰俏皮亮眼惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：处理器更新为天玑9200+ 安卓最强芯袁曼雁 | 2023-05-05
“懒癌”发病率上升，定期体检别忽视幸聽楓 | 2023-05-02
宋慧乔获百想视后韩素希发图手动加爱心表情庆祝賁芳蕤 | 2023-05-02
十年了，他们终于要HE！惠惠君 | 2023-05-07
曹操墓，里面都有啥？衛青柏 | 2023-05-02
中央部署经济工作，释放5大信号郜萌運 | 2023-05-02
高德上线手机弯道会车预警功能習又夏 | 2023-05-02
陈自瑶抱病为爱女做蛋糕庆生，王浩信点赞没露面賁芳蕤 | 2023-05-02
等比例长大的童星，李兰迪算一个郟君昊 | 2023-05-02
高端国产车：军车血统，目前电动车越野的“天花板”？謝飛揚 | 2023-05-02
《云襄传》终于抬上来啦，男O女A让人好上头！集玲琳 | 2023-05-02
这些被抓来做实验的流浪狗，最终拯救了无数糖尿病人集玲琳 | 2023-05-02
信用风险释放趋缓，结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望袁曼雁 | 2023-05-02
21家A股游戏公司2022年收入651亿今年“游戏+AI”能否逆风翻盘？衛青柏 | 2023-05-04
与周立波夫妇闹纠纷成老赖，唐爽被司法拘留15日寸飛蘭 | 2023-05-05
普京签署总统令，批准对俄刑法典相关法条的修正案集玲琳 | 2023-05-02
中银证券给予南京银行增持评级袁曼雁 | 2023-05-03
解除资格！停止一切合作佼昌翰 | 2023-05-02
3699起联想小新mini主机上架 13代酷睿标压处理器習又夏 | 2023-05-05
前董事长被免，天山生物全面进入“中植系”时代？股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
疯成这样，怎么还能被全网吹捧？郜萌運 | 2023-05-02
狂吼11次“让一下”！交警咆哮开道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收购美国第一共和银行謝飛揚 | 2023-05-02
台剧赢麻了，又来一部8.9 衛青柏 | 2023-05-02
下降45分，上涨35分！34所自划线院校复试分数线涨幅汇总袁曼雁 | 2023-05-07
事关农村土地承包和农民权益，《农村土地承包合同管理办法》5月1日起施行郟君昊 | 2023-05-02
"三高"已盯上青少年，做好这件事是关键習又夏 | 2023-05-05
五一档没一个能打的集玲琳 | 2023-05-05
恐怖韩剧下神坛，这次胆小可入袁曼雁 | 2023-05-05
这剧是不是用ChatGPT写的呀？惠惠君 | 2023-05-02
200户连夜疏散，原因让人愤怒！“损失超一亿”，官方通报袁曼雁 | 2023-05-03
性骚扰惯犯，滚出娱乐圈謝飛揚 | 2023-05-05
48岁何炅自曝已老花眼，黄磊睡前认老，《向往的生活》证实将停办佼昌翰 | 2023-05-02
一个《长月烬明》倒了，《狐妖》《长相思》《与凤行》…在路上了惠惠君 | 2023-05-02
当年轻人开始不随份子钱袁曼雁 | 2023-05-02
张天爱假期晒“酷”存照卷发披肩穿黑色吊带裙大秀好身材嬴覓晴 | 2023-05-02
毕滢用8年时间成功逼宫？曾被传已婚生子的她，不容小觑幸聽楓 | 2023-05-03
宋慧乔获视后首次晒照，拿奖杯笑容温柔郜萌運 | 2023-05-02