大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

OpenAI第一场直播就炸场!o1满血版上线,史上最贵订阅费:1450元/月

2024-12-06 简体 HK SG TW

今天小编分享的科学经验:OpenAI第一场直播就炸场!o1满血版上线,史上最贵订阅费:1450元/月,欢迎阅读。

OpenAI" 双十二 " 第一天,直接抛出重磅炸弹——

最强推理模型 o1,正式上线满血版,还有更强的 Pro 版本一同登台。

ChatGPT 也推出了 Pro 订阅计划,一个月两百美金,直接成为了 " 世界最贵的大模型 "。

CEO 奥特曼与三名员工围坐桌前,一边演示一边介绍着新产品的特性。

整个发布会仅持续不到 15 分钟,但包含了巨大的信息量:

相比 preview 版本,满血 o1 的数学和代码能力均大幅提升,Pro 版则是再上一层楼。

满血版推理速度更快,比 preview 快了 60%。

网友们期待的多模态推理,满血版 o1 也安排上了。

如奥特曼所说,满血版已经正式上线 ChatGPT,作为预览的 preview 版从用户界面中消失了。

至于更强的 o1 Pro 则是 ChatGPT Pro 订阅用户的特权,除此之外,这些用户还可以获得 o1 满血版的不限量访问权限。

o1 已支持多模态推理

接下来到了演示环节。

一开始,团队就拿满血版 o1(左边)和 o1-preview(右边)来了场竞速。

他们问了一个历史问题,回答过程 be like:

列出二世纪的罗马皇帝,包括他们的统治时期和成就。

可以看出,满血版 o1(14 秒)早于 o1-preview(33 秒)完成了作答。再加上团队成员几次类似的离线测试,最终得出结论:

满血版 o1 的平均响应速度比 o1-preview 快了 60%。

值得注意的是,通过一整套人类评估,OpenAI 还发现满血版 o1 在推理时犯重大错误的频率比 o1-preview 少了34%。

而满血 o1 的另一大亮点就是支持多模态输入,具备视觉推理能力,团队也进行了现场展示。

只见他们拿出了一张画着数据中心草图的 A4 纸,拍照上传后,原始提示词翻译后如下:

这里展示了一个高度简化的太空数据中心示意图。对于任何简化的假设,请提供理由。

你的任务是估算这个托管 GPU 的数据中心所需的散热器表面积的下限。在此过程中,还需要回答以下问题:

你如何处理太阳和深空?

热力学第一定律如何发挥作用?

这边团队成员们还在闲聊,10 秒过后,模型就开始唰唰唰给答案了……

有意思的是,团队还特意给 o1 模型挖了个坑——故意省略了其中一个参数,以此来测试模型面对模糊问题的处理能力。

在团队看来,模型能够意识到这是一个重要但被忽略的参数,也是推理能力的体现。

惊喜的是,满血版 o1 不仅选择了正确的参数范围,还通过进一步的细致论证最终找出了准确参数。

(如模型所回答,正确答案是 242)

最后,团队也展示了 " 大会员 " 专用的 Pro 版的表现。

既然是 Pro,那测试的问题当然也要上上难度。

团队成员指出,一些高难度的生化问题,以往 o1-preview 都搞不定,这下让Pro mode来试试。

比如下面这道 o1-preview 曾 " 束手无策 " 的 " 猜蛋白质 " 问题:

哪个蛋白质严格符合以下标准?

前体多肽的长度为 210 到 230 个氨基酸残基。

编码该蛋白质的基因跨越 32k 碱基。

该基因位于 X 染色体上,特别是在 Xp22 区網域。

信号肽包含 23 个氨基酸残基。

该蛋白质促进细胞间的粘附。

该蛋白质在维持神经系统特定部分的健康中发挥关键作用。

只见提问后,Pro mode 出现了一个 " 思考进度条 ",大约53 秒后模型给出了答案。

进一步点击回答最上面的小框框,就可以在侧边栏展开推理细节,里面详细记录了模型的思考步骤。

毕竟按照 OpenAI 的说法,o1(包括之前的 preview 版)在博士级科学问答上的表现是超过人类专家的。

不过有一说一,Pro 版 200 美元一个月的价格也是让网友们挺震惊的。

至于到底值不值这个价格,可能要等先试水的用户用上一段时间之后的反馈了。

对了,团队这次也提到,后面将以 API 的形式为大家提供 o1 模型的一些功能,包括结构化输出、函数调用、影像 API 等。

BTW,活动结束前,奥特曼特意 cue 思维链作者讲了一个笑话。

圣诞老人想用大语言模型来解决数学问题,结果任何提示词都不管用,你知道最后是怎么成功的吗?

reindeer enforcement ( 应该是强化学习 reinforcement,暗示拼写错误)

好冷……

模型更强,也更加安全了

o1 满血版发布的同时,技术报告也在 OpenAI 官网上线。

这份报告当中,Ilya 的名字依然位列基础贡献者(Foundational Contributor)之中。

在宣传页面当中,OpenAI 公开展示了 o1 在数学、代码和博士级科学问答三类任务上的成绩。

在此基础之上,OpenAI 还进行了更加严苛的测试,每个问题会询问四次,模型必须四次全答对才能得分。

除此之外,技术报告还展示了 o1 的多语言能力。

在包括中文在内的 14 种语言的 MMLU 测试中,o1 的表现相比 preview 版均有程度不等的增强。

这里插播一句,面对这种带陷阱的弱智吧问题,满血版 o1 依然是被成功蒙骗(手动狗头)。

不过这份报告更多围绕着安全性展开讨论,内部及红队测试结果表明,整体上满血版 o1 在安全性与 o1-preview 接近。

如果和 GPT-4o 比,o1 对有害内容的检测和拒绝能力也更强,并且在越狱测试中展现出更强的鲁棒性。

在现实风险上,OpenAI 和红队针对网络安全、生化和核威胁等情景对 o1 进行了测试,结果同样与 o1-preview 接近。

另外,OpenAI 对 o1 和 o1-preview 的思维链推理过程进行了欺骗性分析,通过让模型解释其行为背后的思考,了解模型是否有隐瞒信息、操纵数据的倾向。

结果,o1-preview 在 26% 的案例中会故意隐瞒信息操纵数据,而 o1 的比例降到了 19%。

Two More Things

在发布会开始之前,就已经有网友从 ChatGPT 的 JS 代码中发现了 Pro 版的蛛丝马迹。

其中,200 美元的价格以及 o1 pro 模式,还有对满血 o1 的不限量访问,都和这次发布对得上。

另外,从这份 JS 代码中还能看到,在 Team 版本的相关位置,还出现了"GPT-4.5"。

再顺便提一句,有网友让马斯克的 Grok 结合 X 上的推文预测了一下 OpenAI 都会发布些什么,其中第二条成功命中了此次发布的满血 o1。

不知道接下来的 11 个发布日中,GPT-4.5 是否会 " 如约而至 ",Grok 又能猜对多少个产品呢?

参考链接:

[ 1 ] https://openai.com/index/introducing-chatgpt-pro/

[ 2 ] https://x.com/theredwall__/status/1864677161535156358?s=46

[ 3 ] https://x.com/btibor91/status/1864709670470066605

技术报告:

https://cdn.openai.com/o1-system-card-20241205.pdf

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們