大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

o1完整思维链成OpenAI头号禁忌!问多了等着封号吧

2024-09-15 简体 HK SG TW

今天小编分享的科学经验:o1完整思维链成OpenAI头号禁忌!问多了等着封号吧,欢迎阅读。

警告!不要在 ChatGPT 里问最新 o1 模型是怎么思考的——

只要尝试几次,OpenAI 就会发邮件威胁撤销你的使用资格。

请停止此活动,确保您使用 ChatGPT 时符合我们的使用条款。违反此条款的行为可能导致失去 OpenAI o1 访问权限。

大模型新范式 o1 横空出世不到 24 小时,就已经有不少用户反馈收到这封警告邮件,引起众人不满。

有人反馈只要提示词里带 "reasoning trace"、"show your chain of thought" 等关键词就会收到警告。

甚至完全避免出现关键词,使用其他手段诱导模型绕过限制都会被检测到。

也有人声称自己真的被封号了,为期一周。

这些用户都在试图套话 o1,让他复述出完整的内部思维过程,也就是全部原始 reasoning tokens。

目前,大家在 ChatGPT 界面通过展开按钮能看到的,只是一份对原始思维过程的摘要。

实际上,在 o1 发布时 OpenAI 就给出了隐藏模型完整思维过程的理由。‍‍‍

总结一下:OpenAI 内部需要监测模型的思维过程,因此不能在这些原始 tokens 中加入安全限制,也就不方便让用户看到。

不过这个理由并不是所有人都认可。

有人指出,o1思维过程就是其他模型最好的训练数据,所以 OpenAI 不想这些宝贵数据被别的公司扒走。

也有人认为这说明 o1 真的没有什么护城河,一旦思维过程暴露就很容易被别人复制。

以及 " 这是让我们只需盲目相信 AI 的答案,不用做出任何解释吗?"

对于 o1 模型背后的技术原理,这次透露的相当少,有效信息几乎只有 " 用了强化学习 "。

总之,OpenAI 是越来越不 Open 了。

o1 就是草莓,但并非 GPT-5 ‍‍‍‍‍‍‍

目前可以确定 o1 就是 OpenAI 炒作很久了的" 草莓 ",或者说是用了 " 草莓 " 所代表的方法。

但他可以算作下一代模型 GPT-5 么,还是只是 GPT-4.X?

越来越多的人开始怀疑,它只是基于 GPT-4o 做的工程调整。

知名爆料账号 Flowers(原 Flowers from the future)称,OpenAI 员工内部把 o1 称做 " 带推理的 4o"。

并且他声称很多 OpenAI 员工默默点赞了这条爆料,上面的截图也正是来自 OpenAI 员工。

但马斯克前一阵把推特改版成除了楼主以外其他人无法看到谁点赞了什么,所以目前还无法证实这条消息。

在 OpenAI 开发者账号刚刚举办的 " 有问必答 "(Ask Me Anything)活动中,Flowers 也做了追问。

OpenAI 员工在这里回答了很多问题,但回避了这个点赞很多排在前面的问题。

甚至奥特曼本曼刚刚又出来当谜语人,暗示 " 草莓 " 已经告一段落,下一款代号" 猎户座 "Orion的新模型还在路上。

此前有消息称 " 猎户座 " 是 OpenAI 的下一代新旗舰模型,由 " 草莓 " 也就是 o1 生成的合成数据训练。

而猎户座正是奥特曼口中 " 冬季星座 " 的代表之一。

说回到已发布的 o1,围绕它的另一种批评声音是" 不符合科研规范 "。

例如没有引用之前推理时间计算的相关工作,同时也缺乏与其他公司最先进模型的比较。

针对前一点,有人指出 OpenAI 已经不再是一个研究实验室,应该被视为一家商业公司了。

有时他们仍会假装自己是个研究实验室,目的是招募想要做研究工作的人才。

不过针对后一点,既然 API 发布了,要不要与其他前沿模型比较就由不得你了,很多第三方 Benchmark 已陆续跑出结果。

在 Keras 之父举办的 100 万美金AGI Prize比赛中,o1-preview 和 o1-mini 两个版本在公开测试集上都超过了自家 GPT-4o。

但 o1-preview与隔壁 Claude 3.5-Sonnet 只是打了个平手。

在 o1 着重宣传的代码能力上,开源结对编程工具 aider团队运行了测试,o1 系列也没有取得明显优势。

对于整个代码重写任务,o1-preiview 取得 79.7 分,Claude-3.5-Sonnet 取得 75.2 分,o1 领先 4.5 分。

但对于更实用的代码编辑任务,o1-preview 反而落后于 Claude-3.5-Sonnet,有 2.2 分的差距。

另外 aider 团队提示,如果目前想用 o1 系列替代 Claude 编程,成本上要高很多。

与 OpenAI 有合作关系的"AI 程式员 "Devin团队,已经提前拿到了 o1 访问资格。‍

在他们的测试中,由 o1 系列驱动 Devin 基础版本,与 GPT-4o 相比获得非常大的提升。

不过相比已发布的 Devin 生产版本还是有较大差距,主要是由于 Devin 生产版本在专有数据上进行了训练。

另外根基 Devin 团队分享,o1 在得出正确的解决方案之前通常会回溯并考虑不同的选项,并且不太可能出现幻觉或自信地错误。

使用 o1-preview 时,Devin更有可能正确诊断 bug 的根本原因,而不是解决问题的症状。

在更重视数学和逻辑推理的Livebench榜单中,o1-preview 在代码单项落后的情况下,总分上超过 Claude-3.5-Sonnet 并拉开明显差距。

Livebench 团队分享这还只是初步结果,因为很多测试中还内置了 " 请一步一步地思考 " 等提示词技巧,这并不是使用 o1 的最佳方法。

在中文大模型综合测评基准SuperCLUE 的中文复杂任务高阶推理测试中,o1-preview 的推理能力也大幅领先。

最后总结一下,使用 o1 模型还需要注意的一些地方:

成本非常高,1 百万输出 tokens 就要 60 美元,价格一夜回到 GPT-3 时代

隐藏的 resoning tokens 也是算在输出 tokens 中,看不到,但是要付费‍

大多数任务最好先使用 GPT-4o,发现不够用了再切换 o1,以节省成本。

代码任务仍然优先使用 Claude-3.5-Sonnet

总之围绕 OpenAI 新模型 o1,开发者社区还有很多疑问。

o1 开启了 AI 高阶推理的新范式,但它本身还不算完善,如何发挥他的最大价值还有待探索。

在此背景下,OpenAI 举办的 " 有问必答 " 活动,在 4 个小时内就收到上百条提问。

下面附上对整场活动内容的精选和总结。

OpenAI 员工 " 有问必答 "

首先对于这个突然发布的新模型,很多人好奇为什么 OpenAI 给它取了 o1 这样一个名字?

这是因为在 OpenAI 看了,o1 代表了 AI 能力的一个新的层级,因此对 " 计数器 " 进行了重置,而 o 则代表 OpenAI。

就像 o1 发布时奥特曼说的,可以进行复杂推理的 o1,是一个新范式的开始。

对于其中 preview 和 mini 两个版本号,OpenAI 科学家也确认了网友的一些猜测——

preview 是一个临时版本,正式版将在未来上线(实际上 preview 版本是 o1 的一个早期 checkpoint);而mini 版不保证近期之内会有更新。

配合 OpenAI 成员 Kevin Lu 之前发布的这张图来看,就更加清晰明了了。

与 preview 相比,mini 在某些任务上表现出色,尤其是与代码相关的任务,还可以探索更多的思维链,但世界知识相对少些。

对此,OpenAI 科学家赵盛佳的解释是,mini 是一个高度专门化的模型,只关注少部分的能力,所以可以更深入。

也算是揭晓了之前奥特曼在这个问题上打的一个哑谜。

关于 o1 的运作方式,OpenAI 科学家 Noam Brown 也明确表示,并非是像部分网友认为的模型 +CoT 组成的 " 系统 ",而是一个已经被训练得原生具备生成思维链能力的模型。

不过推理过程中的思维链会被隐藏,并且官方已经明确了没有向用户展示有关 token 的计划。

对此 OpenAI 透露的为数不多的消息是,CoT 的相关 token 是总结性的,且不保证完全和推理过程匹配。

除了推理模式,在这次问答活动中还能够得知,o1 与 GPT-4o 相比可以处理更长的文本,而且未来还会继续增加。

表现上,在 OpenAI 内部的测试中,o1 显现出了哲学推理能力, 可以思考诸如 " 生命是什么?" 之类的哲学问题。

研究人员还使用 o1 创建了一个 GitHub 机器人,能够将代码 ping 给所有者以供审核。

当然对于一些非推理性质的任务,比如创意写作,o1 的表现相比 GPT-4o 提升并不明显,甚至有时还要略逊一筹。

另外综合一些提问来看,对于网友们关心的一些未上线功能,OpenAI 表示正在或有计划研究,但没有明确的上线时间:

暂不支持工具调用,但函数调用、代码解释器都在未来计划之中

未来 API 更新将加入结构化输出、系统提示词、提示词缓存功能

微调也已在计划中

API 用户将可以自行设定对推理时间和 token 消耗的限制

o1 具有多模态能力,瞄准的是 MMMU 等数据集上的 SOTA,之后将实装

性能上,OpenAI 也正在着手降低延迟和推理所需时间。

最后是人们,尤其是 API 用户关心的价格问题,毕竟考虑到将推理过程计入输出 token,o1 的定价还是比较高的。

OpenAI 表示" 将遵循每 1-2 年降价的趋势 ",并且在使用量限制变得更宽松时,批量 API 定价也会上线。

网页 /APP 端的 Plus 用户,目前则是要受到每周 preview30 条 +mini50 条消息的限制。

不过好消息是,就在今天凌晨,由于人们对 o1 实在太热情,导致很多人很快就把额度用完,所以OpenAI 特例把额度重置了一次。

那么你对 o1 还有哪些疑问或期待?欢迎评论区交流。

参考链接:

[ 1 ] https://x.com/SmokeAwayyy/status/1834641370486915417

[ 2 ] https://x.com/flowersslop/status/1834416138400276714

[ 3 ] https://arcprize.org/blog/openai-o1-results-arc-prize

[ 4 ] https://livebench.ai

[ 5 ] https://mp.weixin.qq.com/s/XrgkD4T2XwXhGWuPkYtLMw

[ 6 ] https://x.com/OpenAIDevs/status/1834608585151594537

[ 7 ] https://x.com/btibor91/status/1834686946846597281

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們