大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

OpenAI科学家:现有模型+后训练足以产生黎曼猜想的新证明

2024-12-27 简体 HK SG TW

今天小编分享的科学经验:OpenAI科学家:现有模型+后训练足以产生黎曼猜想的新证明,欢迎阅读。

一个全新的模型能力衡量指标诞生了?!

OpenAI 科学家塞巴斯蒂安・布贝克(Sebastien Bubeck)(下图左)表示:

AI 模型的能力可以用AGI 时间来衡量:

GPT-4 可以完成人类需要几秒或几分钟的任务;o1 可以完成人类需要若干小时完成的任务,也就是可以用 "AGI 小时 " 衡量的任务;明年,模型可能会实现 AGI 日,并在 3 年后实现 AGI 周,能够解决重大的开放问题。

看到AGI 时间这个新概念,网友们也是立即就展开了热烈的讨论。

有人认为,如果模型可以达到人类需要数周或数月才能完成的任务,也就代表它可以将长期推理和计划结合起来,也就和真正的 AGI 差不多了:

不过也有人表示这个说法有点模糊,人腦也很难机械地把任务完成时间限定为几个月、几年:

而反方辩手汤姆 · 麦考伊(Tom Mccoy)则对 LLM 能否解决复杂的开放性问题持怀疑态度。

他表示,语言模型虽令人惊叹,但能力源于训练数据,目前没有证据显示它们可以产生能解决开放问题的新范式。

让两位大佬争论不休的问题,就是最近由世界知名理论计算机科学机构Simons Institute提出的辩题:

当前基于缩放定律的 LLM,能否在未来几年内产生可以解决重大数学难题(如 P ≠ NP、黎曼假设)的证明技术。

持正方观点的塞巴斯蒂安・布贝克是应用数学博士,曾在普林斯顿大学担任助理教授,后在微软研究院任职十年,主导开发了 Phi 系列小语言模型,也是Sparks of AGI(AGI 的火花)论文的重要作者之一。

此次辩论中,塞巴斯蒂表示他坚信 LLM 潜力无限,认为以当前模型的能力加上更多的数据和后期训练就足以解决数学难题。

反方辩手汤姆是认知科学博士,现任耶鲁大学语言学助理教授,

他也是 "Embers of Autoregression(自回归余烬)" 论文的主要作者,文中他深刻剖析了当前 LLM 的局限性。

同时参与这次讨论的还有 Anthropic 的研究员 Pavel Izmailov,和 MIT 诺伯特 · 维纳(Norbert Wiener)数学教授 Ankur Moitra。

在不改变原意的基础上,量子位对本次辩论的主要观点进行了梳理总结,希望能带给你更多的启发和思考。

正方:o1 已展现出自发的涌现模式

塞巴斯蒂安首先用数据回顾了 LLM 最近几年的发展历程,他表示GPT 系列已在多领網域的基准测试上都表现亮眼。

比如在 MMLU 测试中,GPT-4 成绩飙升至 86%,o1 模型更是逼近 95%,远超 GPT-3 的 50%,在高中科学知识问答方面已接近人类 90% 的水平。

在医学诊断领網域,GPT-4 准确率高达 90%,远超人类医生的 75%,有力证明了模型强大的学习与应用能力,且这种提升趋势为解决数学难题奠定基础。

△图片来自论文 Superhuman performance of a large language model on the reasoning tasks of a physician

他进一步指出:

智能发展层级递进显著,GPT-4 只有 AGI 秒级思考能力,而 o1 模型已达 AGI 分钟甚至小时级别。

依此趋势,未来实现AGI 日级、周级思考时长指日可待,可能明年、后年就能达到。

届时,模型将拥有充足时间和能力深入思考复杂数学问题,从而找到解决重大猜想的路径。

同时他还强调了后训练技术的重要性:后训练技术是挖掘模型深层潜力的关键。

从 GPT-3.5 开始,模型就可以实现在后训练过程中提取智能。到了 o1 模型时代,其采用的强化学习等创新训练范式,使模型在复杂任务(比如编程、数学)处理上实现质的飞跃。

尤其是在特定数学问题中,o1 能迅速关联看似不相关的知识概念,自发地涌现出一些新的思路,为解决难题提供新线索。

反方:当前缩放定律依赖数据、存在幻觉,难以产生新思考模式

汤姆则认为,目前 LLM 的发展存在 3 个明显制约:

1.LLM 受训练数据频率限制严重:

在单词计数和排序任务中,数据频率影响清晰可见。如统计单词数量时,对常见长度列表准确率高,罕见长度则大幅下降;排序任务中,对常用的字母正序处理良好,逆序则表现不佳。

这表明模型在面对新证明技术这类低频任务时,缺乏创造性突破的根基,难以跳出训练数据的固有模式。

而且,根据各种测评数据,模型能力与数据量级呈对数关系,未来想要提升模型能力需要新的指数级数据,而目前已有严重数据瓶颈,在未来几年很难迅速突破。

2.长推理过程中的幻觉问题是致命伤:

即使类 o1 模型在多步推理场景下进步显著,但 LLM 仍易生成错误信息。随着数学证明篇幅拉长,极低的错误率也会因累积效应使证明失效。

也就是人们常说的" 薄弱环节会破坏整个推理链条 ",严重阻碍模型解决复杂数学证明的能力。

o1 已经可以和人类专家合作,但想要独自解决数学问题,必须做到超越人类,目前看起来比较困难,甚至还无法达到以稳健的方式使用现有想法。

3.当前缩放方法本质缺陷难破:

基于语言预测的训练模式,使模型在处理数学问题时难以直接触及深度推理和创新思维核心。

比如在数学符号处理和抽象逻辑推导方面,模型的处理方式与专业数学方法相比缺乏专业推导,需要从底层架构和训练理念上进行彻底变革。

随后正方还对反方观点进行了驳斥。

塞巴斯蒂安表示,当前很多人类的顶级成果是依靠组合现有知识产生的,而模型在这个方面的能力会通过强化学习进一步发展。

而且人类在超过 50 页的证明中也经常会出错,未来可以让不同的智能体进行合作互相指正,可以有效减少这一方面的失误。

其他专家:需结合证明验证器、符号空间探索等方式

Anthropic 研究员帕维尔・伊斯梅洛夫也发表了观点,他认为 LLM 在识别数据结构上确有优势,但数学领網域专业性强,需借助强化学习与 Lean 等证明验证器构建有效训练机制。

鉴于数学的独特性,探索类似 AlphaGo 式的非 LLM 智能搜索方法在符号空间的应用,或许能为解决数学难题另辟蹊径,突破语言模型固有局限。

针对观众的提问 " 飞机也不是完全模拟鸟类的飞行,为什么一定要要求 LLM 模拟人类思维 " 的问题,帕维尔首先表示赞同,AlphaGo 带给人类的一个惊喜正是来自于它可以用很多人类没有的方法下棋。

但同时他也指出:

也许以人类的方式做事的唯一理由是,如果我们关心的是试图理解证明、并提取一些定义之类的东西,那么我们希望它至少是类人或人类可读的。但我认为如果我们关心的是证明能力,比如能够证明事物,那么不一定要以类人的方式。

MIT 诺伯特 · 维纳数学教授安库尔・莫伊特拉(Ankur Moitra)也发表了自己的看法。

他也赞同重大数学问题的解决绝非简单的能力堆叠:

我们关心数学难题,关心的不只是具体的证明细节,更希望可以在证明的过程中产生可以引发数学体系变革的新想法。

他认为当前 LLM 虽在部分任务取得进展,但与解决如黎曼假设这类问题所需的深度和创新性仍相距甚远。

安库尔还提议,未来模型发展或许应聚焦于知识在模型中的有效表示、数学家与模型间的高效协作模式等关键层面,探索新的突破方向。

现场还进行了一次不记名投票,可以看到正反方的观点基本还是持平的~

感兴趣的朋友可以查看完整视频和论文。

参考链接:

[ 1 ] 辩论完整视频:https://www.youtube.com/live/H3TnTxVKIOQ

[ 2 ] Sebastien Bubeck 撰写的论文 Sparks of AGI:https://arxiv.org/abs/2303.12712

[ 3 ] Tom McCoy 撰写的论文 Embers of Autoregression:https://arxiv.org/abs/2309.13638

—  完  —

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們