大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

OpenAI科學家:現有模型+後訓練足以產生黎曼猜想的新證明

2024-12-27 简体 HK SG TW

今天小編分享的科學經驗:OpenAI科學家:現有模型+後訓練足以產生黎曼猜想的新證明,歡迎閲讀。

一個全新的模型能力衡量指标誕生了?!

OpenAI 科學家塞巴斯蒂安・布貝克(Sebastien Bubeck)(下圖左)表示:

AI 模型的能力可以用AGI 時間來衡量:

GPT-4 可以完成人類需要幾秒或幾分鍾的任務;o1 可以完成人類需要若幹小時完成的任務,也就是可以用 "AGI 小時 " 衡量的任務;明年,模型可能會實現 AGI 日,并在 3 年後實現 AGI 周,能夠解決重大的開放問題。

看到AGI 時間這個新概念,網友們也是立即就展開了熱烈的讨論。

有人認為,如果模型可以達到人類需要數周或數月才能完成的任務,也就代表它可以将長期推理和計劃結合起來,也就和真正的 AGI 差不多了:

不過也有人表示這個説法有點模糊,人腦也很難機械地把任務完成時間限定為幾個月、幾年:

而反方辯手湯姆 · 麥考伊(Tom Mccoy)則對 LLM 能否解決復雜的開放性問題持懷疑态度。

他表示,語言模型雖令人驚嘆,但能力源于訓練數據,目前沒有證據顯示它們可以產生能解決開放問題的新範式。

讓兩位大佬争論不休的問題,就是最近由世界知名理論計算機科學機構Simons Institute提出的辯題:

當前基于縮放定律的 LLM,能否在未來幾年内產生可以解決重大數學難題(如 P ≠ NP、黎曼假設)的證明技術。

持正方觀點的塞巴斯蒂安・布貝克是應用數學博士,曾在普林斯頓大學擔任助理教授,後在微軟研究院任職十年,主導開發了 Phi 系列小語言模型,也是Sparks of AGI(AGI 的火花)論文的重要作者之一。

此次辯論中,塞巴斯蒂表示他堅信 LLM 潛力無限,認為以當前模型的能力加上更多的數據和後期訓練就足以解決數學難題。

反方辯手湯姆是認知科學博士,現任耶魯大學語言學助理教授,

他也是 "Embers of Autoregression(自回歸餘燼)" 論文的主要作者,文中他深刻剖析了當前 LLM 的局限性。

同時參與這次讨論的還有 Anthropic 的研究員 Pavel Izmailov,和 MIT 諾伯特 · 維納(Norbert Wiener)數學教授 Ankur Moitra。

在不改變原意的基礎上,量子位對本次辯論的主要觀點進行了梳理總結,希望能帶給你更多的啓發和思考。

正方:o1 已展現出自發的湧現模式

塞巴斯蒂安首先用數據回顧了 LLM 最近幾年的發展歷程,他表示GPT 系列已在多領網域的基準測試上都表現亮眼。

比如在 MMLU 測試中,GPT-4 成績飙升至 86%,o1 模型更是逼近 95%,遠超 GPT-3 的 50%,在高中科學知識問答方面已接近人類 90% 的水平。

在醫學診斷領網域,GPT-4 準确率高達 90%,遠超人類醫生的 75%,有力證明了模型強大的學習與應用能力,且這種提升趨勢為解決數學難題奠定基礎。

△圖片來自論文 Superhuman performance of a large language model on the reasoning tasks of a physician

他進一步指出:

智能發展層級遞進顯著,GPT-4 只有 AGI 秒級思考能力,而 o1 模型已達 AGI 分鍾甚至小時級别。

依此趨勢,未來實現AGI 日級、周級思考時長指日可待,可能明年、後年就能達到。

屆時,模型将擁有充足時間和能力深入思考復雜數學問題,從而找到解決重大猜想的路徑。

同時他還強調了後訓練技術的重要性:後訓練技術是挖掘模型深層潛力的關鍵。

從 GPT-3.5 開始,模型就可以實現在後訓練過程中提取智能。到了 o1 模型時代,其采用的強化學習等創新訓練範式,使模型在復雜任務(比如編程、數學)處理上實現質的飛躍。

尤其是在特定數學問題中,o1 能迅速關聯看似不相關的知識概念,自發地湧現出一些新的思路,為解決難題提供新線索。

反方:當前縮放定律依賴數據、存在幻覺,難以產生新思考模式

湯姆則認為,目前 LLM 的發展存在 3 個明顯制約:

1.LLM 受訓練數據頻率限制嚴重:

在單詞計數和排序任務中,數據頻率影響清晰可見。如統計單詞數量時,對常見長度列表準确率高,罕見長度則大幅下降;排序任務中,對常用的字母正序處理良好,逆序則表現不佳。

這表明模型在面對新證明技術這類低頻任務時,缺乏創造性突破的根基,難以跳出訓練數據的固有模式。

而且,根據各種測評數據,模型能力與數據量級呈對數關系,未來想要提升模型能力需要新的指數級數據,而目前已有嚴重數據瓶頸,在未來幾年很難迅速突破。

2.長推理過程中的幻覺問題是致命傷:

即使類 o1 模型在多步推理場景下進步顯著,但 LLM 仍易生成錯誤信息。随着數學證明篇幅拉長,極低的錯誤率也會因累積效應使證明失效。

也就是人們常説的" 薄弱環節會破壞整個推理鏈條 ",嚴重阻礙模型解決復雜數學證明的能力。

o1 已經可以和人類專家合作,但想要獨自解決數學問題,必須做到超越人類,目前看起來比較困難,甚至還無法達到以穩健的方式使用現有想法。

3.當前縮放方法本質缺陷難破:

基于語言預測的訓練模式,使模型在處理數學問題時難以直接觸及深度推理和創新思維核心。

比如在數學符号處理和抽象邏輯推導方面,模型的處理方式與專業數學方法相比缺乏專業推導,需要從底層架構和訓練理念上進行徹底變革。

随後正方還對反方觀點進行了駁斥。

塞巴斯蒂安表示,當前很多人類的頂級成果是依靠組合現有知識產生的,而模型在這個方面的能力會通過強化學習進一步發展。

而且人類在超過 50 頁的證明中也經常會出錯,未來可以讓不同的智能體進行合作互相指正,可以有效減少這一方面的失誤。

其他專家:需結合證明驗證器、符号空間探索等方式

Anthropic 研究員帕維爾・伊斯梅洛夫也發表了觀點,他認為 LLM 在識别數據結構上确有優勢,但數學領網域專業性強,需借助強化學習與 Lean 等證明驗證器構建有效訓練機制。

鑑于數學的獨特性,探索類似 AlphaGo 式的非 LLM 智能搜索方法在符号空間的應用,或許能為解決數學難題另辟蹊徑,突破語言模型固有局限。

針對觀眾的提問 " 飛機也不是完全模拟鳥類的飛行,為什麼一定要要求 LLM 模拟人類思維 " 的問題,帕維爾首先表示贊同,AlphaGo 帶給人類的一個驚喜正是來自于它可以用很多人類沒有的方法下棋。

但同時他也指出:

也許以人類的方式做事的唯一理由是,如果我們關心的是試圖理解證明、并提取一些定義之類的東西,那麼我們希望它至少是類人或人類可讀的。但我認為如果我們關心的是證明能力,比如能夠證明事物,那麼不一定要以類人的方式。

MIT 諾伯特 · 維納數學教授安庫爾・莫伊特拉(Ankur Moitra)也發表了自己的看法。

他也贊同重大數學問題的解決絕非簡單的能力堆疊:

我們關心數學難題,關心的不只是具體的證明細節,更希望可以在證明的過程中產生可以引發數學體系變革的新想法。

他認為當前 LLM 雖在部分任務取得進展,但與解決如黎曼假設這類問題所需的深度和創新性仍相距甚遠。

安庫爾還提議,未來模型發展或許應聚焦于知識在模型中的有效表示、數學家與模型間的高效協作模式等關鍵層面,探索新的突破方向。

現場還進行了一次不記名投票,可以看到正反方的觀點基本還是持平的~

感興趣的朋友可以查看完整視頻和論文。

參考鏈接:

[ 1 ] 辯論完整視頻:https://www.youtube.com/live/H3TnTxVKIOQ

[ 2 ] Sebastien Bubeck 撰寫的論文 Sparks of AGI:https://arxiv.org/abs/2303.12712

[ 3 ] Tom McCoy 撰寫的論文 Embers of Autoregression:https://arxiv.org/abs/2309.13638

—  完  —

點這裏關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們