大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科技

Open AI新模型o1问世,能像人类一样思考?

2024-09-13 简体 HK SG TW

今天小编分享的科技经验:Open AI新模型o1问世,能像人类一样思考?,欢迎阅读。

本文来自微信公众号:王智远,作者:王智远,原文标题:《Open AI 发布新一代模型 01》,题图来自:AI 生成

凌晨 1 点,我还在追剧。

这时,朋友发来一条消息说:Open AI 发布了新模型,你在电腦上试试看能用吗?哎,大哥,都要睡觉了,这要强制开机,让我起来加班码字啊。‍‍

带着好奇,打开 PC 端 ChatGPT 一看,果然,多出两个模型,分别是 ChatGPT o1-mini 和 o1-preview。

这是什么东东?怎么叫这个名字?这个模型有什么特点?怎么还有两个版本呢?价位如何?难道是此前被传的 " 草莓 " 做出来了?

带着疑惑,熬夜看完官方文档,把内容总结分享给你。

一

为什么叫 o1 呢?官方说:

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1。

我用自带浏览器的翻译功能,翻译出来就是:

这个模型在复杂推理任务上是一个重大的进步,代表了人工智能能力的一个新水平;因此,我们决定重新开始编号,把这一系列模型命名为 OpenAI o1。

袄,原来因为这个模型非常厉害,能做很多复杂的事情,OpenAI 觉得这是一个新的起点,所以把编号重新设为 1,开始一个新的系列。

那么,它为什么会有两个版本呢?官方说:

o1 mini 版是个简化的版本。它在速度、体积和成本方面都做了优化。

这个版本在处理数学、编程推理任务时表现不错,特别适合需要快速处理问题的场合;因为它体积小,成本也低,所以,如果你想快速得到答案,那么 o1 mini 版可能更适合你。

相对 o1 preview 版,是完整版本。

比较擅长解决复杂的问题,比如,无论是科学问题、数学题还是编程,它都能处理得非常好;当然,如果你遇到的问题要广泛的知识或者深刻的理解,那么这个版本更适合你,因为它的推理能力非常强大。

我不信,于是,让国产大模型 Kimi Chat 给我想了一个逻辑数学逻辑题,如下:

假设我有一个农场,里面有鸡和兔子。有一天,我数了数农场里动物的头和脚,发现总共有 35 个头和 94 只脚。请问,农场里各有多少只鸡和兔子?

preview 版的确很强。除了告诉我有 23 只鸡,和 12 只兔子外,还给出了步骤,整个下来,也就不到 2 秒。当然,这种测试用来对付 Chat 肯定是无压力的,如果你有时间,也可以带入工作中的问题,自己体验下。

总的来说,两个版本的主要区别是它们处理任务的能力、速度和成本;o1 mini 版在速度、成本上有优势;preview 版更适合推理。

不过,实际体验下来,没觉得有什么差异,也许我本身要它做的事情,比较简单。

体验完后,仔细一想,这和 GPT-4o、GPT-4omini 有啥区别呢?非要搞出四个模型吗?加上 GPT-4,我电腦上已经有五个模型了。

查了下官方文档,有一篇文章叫《用法学硕士学习推理》(Learning to Reason with LLMs)详细介绍了一切。

他们是这么说的:

在对 OpenAI 的两个 AI 模型—— o1-preview 和 GPT-4o 的实际使用偏好测试中,人类评估者在不知情的情况下,比较了两个模型对复杂问题的回答。

结果显示,在需要大量推理的任务上,比如数据分析、编程和数学问题,大家更喜欢 o1-preview。因为 o1-preview 经过特殊的强化学习训练,所以,在解决这类问题时,推理能力更强,更高效。

但是,在自然语言处理任务上,o1-preview 的表现不如 GPT-4o。这是因为它的训练重点在推理和解决问题的策略上,而不是在语言的流畅度或文本生成的多样性上。

这说明,虽然 o1-preview 在某些领網域很出色,但它并不适合所有类型的任务,尤其是那些专注于自然语言处理的场景。

原来如此。

我又看了看 o1-preview 和 o1 mini 版适合哪些人。官方说,如果你在处理科学、编码、数学等领網域的复杂问题,这些增强的推理能力可能特别有用。

比如:

医疗研究人员可以用 o1 来标注细胞测序数据;物理学家可以生成量子光学所需的复杂数学公式;各个领網域的开发者都可以用 o1 来构建和执行多步的工作流程。

所以,如果你做科学、敲代码、编程、数学方面的工作,用它再好不过了。

二

那么,o1-preview 和 o1 mini 到底做了哪些测试呢?

首先,为了显示 o1 模型在推理方面比 GPT-4o 有多大改进,他们在不同的人体检查和机器学习基准上测试了它。

在 2024 年的 AIME 数学考试中,GPT-4o 平均只解决了 12% 的题目;而 o1 模型单次测试的平均解题率达到了 74%。如果算上 64 次测试的平均得分,能达到 83%;重新从 1000 个样本中排名,平均得分甚至可以达到 93%。

这个成绩不仅让它进入了全美前 500 名,还超过了参加美国数学奥林匹克的分数线。

他们还用一个叫做 GPQA 钻石的难题来测试 o1。这个测试涉及化学、物理和生物学的专业知识。

他们请了一些拥有博士学位的专家来回答这些问题,结果发现,o1 模型的表现超过了人类专家,成为第一个在这个测试中取得这样成绩的模型。

这并不意味着 o1 在所有方面都比博士更厉害,而是说明它在解决某些专业问题上更为熟练。

当然,在其他一些机器学习的测试中,他们也做了大量测试;它在 MMMU 的视觉感知测试中得了 78.2 分,成为第一个能和人类专家竞争的模型;而且,在 57 个 MMLU 子测试中的 54 个项目上,它的表现都优于 GPT-4o。

我好奇地搜索了一下,什么是 MMLU?简单讲,MMLU 像一场大型的综合考试,参加考试的不是人类,而是人工智能模型。

总之,这些测试最终结论是:

OpenAI 的 o1 模型在全球编程比赛 Codeforces 中排名第 89 位,在美国数学奥林匹克(AIME)的资格赛中,进入了全美前 500 名。

在物理、生物学和化学问题的测试中,它的表现甚至超过了博士水平。

因此,o1-preview 和 o1 mini 在解决高难度的推理和专业问题上表现更出色;而 GPT-4o 更适合处理日常的任务。

三

所以,这么强的推理能力怎么实现的?关键有四个方面:

首先,o1 模型用了一种 " 自我对弈强化学习 "(Self-play RL)的方法;这是一种通过模拟环境和自我对抗来提升模型性能的技术。

这种方法中,模型在没有外部指导,通过不断尝试和错误来学习策略和优化决策。

想象一下:

它就像在和自己下棋,一边玩一边学;过程中,不用别人教,自己试试、出错、再试,慢慢就学会了怎样做决策和解决问题。

其次,o1 还模仿了人类的 " 慢思考 "(Slow Thinking);这种思考要时间、努力和逻辑三者结合,就像我们在考试时仔细思考一个难题一样。

通过深思熟虑的方式,o1 先分析问题,然后把它拆开,再推理,再解决;这让它在科学、编程或数学上更精准,更出色。

当然,这一步离不开思维链。

思维链的推理,还用一种独特的方法来监控模型。如果这些思维链是可读的,研发人员就能 " 读懂 " 模型的思考过程。

这对于监测模型是否能操纵用户行为非常有帮助,但是,为了让模型能自由地表达思考,他们不在模型中加入任何与政策、用户偏好相关的硬性规定。

因此,这个模型整合了安全政策和人类价值观,通过在模型的答案中重现思维链中的有用想法,让用户间接了解模型的思考过程。

还有一点,思维链加入了鲁棒性(Robustness)测试。所谓鲁棒性指一个系统、模型或者设备在面对各种意外情况、干扰或者变化时,仍然能够正常工作,不容易出问题。

一辆汽车,无论在高温、低温、下雨还是颠簸的路面上,都能正常行驶,这说明它的鲁棒性很好;在 AI 领網域,鲁棒性指軟體、模型在面对不同的数据输入、错误,甚至恶意攻击时,仍然能保持稳定和准确。

所以,鲁棒性强调的是在各种复杂、多变的环境下,仍然能保持可靠和稳定的性能。

除以上两点,o1 在训练时还用上了数据飞轮(Data Flywheel);它的正确答案会被用来再训练它自己,帮助它变得更聪明。

当然,为支持这些复杂的思考任务,o1 还用上了一些特别优化的算法、架构。这些技术让它更快、更准确地解决问题,提高了它的整体能力。

总之,o1 模型训练关注五个维度:

1. 自我对弈强化学习;2. 模仿人类慢思考;3. 拆解了思维链的过程;4. 在思维链中加入了鲁棒性测试;5. 数据飞轮再强化。

看完官网文档,说白了,我觉得他们让 AI 更像人了。

四

再强大的东西,不商业化肯定不行。那么,o1 模型的成本和使用限制有哪些呢?

o1-preview 的价格是:

每处理一百万个输入要花 15 美元,每处理一百万个输出则是 60 美元;这说明,如果你用这个版本,输入和输出的处理费用会比较高。

真贵啊。这是什么概念?举个例子:

如果你每天和这个模型聊天 100 次,每次输入 1000 个单词,那么一天的费用是 75 美分乘以 100 次,等于 75 美元。按照现在汇率,75 美元约等于 540 人民币。

这样看来,使用这个模型的成本相当于每天花 540 块钱。如果你每天都这么使用,一个月下来的花费就非常可观了,堪比请一个专家了。

而 o1-mini 的价格便宜一些。

每一百万个输入只需 3 美元,每一百万个输出 12 美元。但这个便宜版在功能上可能会有些限制;如果你是 ChatGPT Plus 或 Team 的用户,就可以优先尝试 o1 模型的功能。

对开发者来说,要求就严格多了,只有支付了 1000 美元的五级开发者才能用这个模型,而且每分钟只能调用 20 次。

至于 API 的调用限制,o1-preview 每周只能调用 30 次,o1-mini 每周可以调用 50 次。这种限制是按周来算的,不是按小时或分钟。

功能方面,目前的 o1 模型还不能支持所有的功能,比如理解图片、生成图片、解释代码、网页搜索等。所以,用户现在只能用它来进行基本的对话。

官方还说:

虽然现在 o1 模型成本较高,使用也有限,但随着技术发展和 OpenAI 的不断改进,预计将来会有更多用户能使用到这个模型,成本也可能会降低。

不管怎能说,AI 越来越像人一样 " 深思熟虑 " 了,至于这个模型,谁会付费呢?谁又能为它支付 1000 美金呢?或许,只有大公司、研究机构、有特定需求的专业人士才能承担得起。

那到时候,真就成了花钱请了一个 "AI 专家 ",所以,AI 会替代专家吗?

总结‍

越来越像人的模型。

谁也猜不到,未来的 o1-preview(mini)会发展成什么样,至少,它肯定不会是个普通的 GPT。

它会发展成具身智能吗?有这个可能。随着技术不断进步,o1-preview(mini)很大概率会改变一些行业的运作方式。

本文来自微信公众号:王智远,作者:王智远

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們