大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

o1方法性能無上限!姚班馬騰宇等數學證明:推理token夠多,就能解決任意問題

2024-09-17 简体 HK SG TW

今天小編分享的科學經驗:o1方法性能無上限!姚班馬騰宇等數學證明:推理token夠多,就能解決任意問題,歡迎閲讀。

OpenAI 用 o1 開啓推理算力 Scaling Law,能走多遠?

數學證明來了:沒有上限。

斯隆獎得主馬騰宇以及 Google Brain 推理團隊創建者 Denny Zhou 聯手證明,只要思維鏈足夠長,Transformer 就可以解決任何問題!

通過數學方法,他們證明了 Transformer 有能力模拟任意多項式大小的數字電路,論文已入選 ICLR 2024。

用網友的話來説,CoT 的集成縮小了 Transformer 與圖靈機之間的差距,為 Transformer 實現圖靈完備提供了可能。

這意味着,神經網絡理論上可以高效解決復雜問題。

再説得直白些的話:Compute is all you need!

CoT 讓 Transformer 運行更高效

首先需要説明的是," 可以解決任何問題 " 是一個通俗化的表述,嚴格來説,論文的核心結論是思維鏈(CoT)能夠顯著提升 Transformer 的表達能力。

作者首先通過理論分析,提出對于固定深度、多項式寬度、常數精度的 Transformer 模型,如果不使用 CoT,其表達能力将受限于 AC0 問題類别。(AC0 是一類可以在并行計算中高效解決的問題,但不包括需要復雜序列化計算的問題。)

在固定指數位的情況下,固定深度、對數精度的 Transformer 模型即使引入了正确的舍入操作,其表達能力也僅限于 TC0 問題類别。

但當引入 CoT 時,固定深度、常數精度的 Transformer 模型就能夠解決任何由大小為 T 的布爾電路解決的問題。

這表明 CoT 顯著擴展了模型的表達能力,使其能夠處理更復雜的問題。

為了驗證理論分析,論文在四個核心問題上進行了實驗,考慮了基礎(base)、CoT 和提示(hint)三種不同的訓練設定:

模運算(Modular Addition):并行計算問題,論文展示了 CoT 如何提高模型在這個問題上的準确性;

置換群組合(Permutation Composition):需要序列化計算的問題,論文證明了 CoT 在解決這類問題上的有效性;

迭代平方(Iterated Squaring):典型的序列化計算問題,論文展示了 CoT 如何使模型能夠有效地解決這類問題;

電路值問題(Circuit Value Problem):這是一個 P 完全問題,論文證明了即使是在模型深度較低的情況下,CoT 也能使模型能夠解決這類問題。

首先在可并行的模運算問題上,輸入是若幹個模 7 的數,輸出是它們的模 7 和。

實驗結果表明,所有設定下的 Transformer 都能夠學習模加;但在較長序列(如 n=16)上,CoT 的優勢更加明顯。

這説明即使是可并行問題,CoT 也能帶來一定的效率提升。

在内在串行的置換群復合任務上,輸入是 S_5 置換群中的若幹個置換,輸出是它們的復合結果。

結果,CoT 提高了低深度模型的準确性——

不使用 CoT 的 Transformer 即使深度較大也難以學習該任務(準确率約 20%),而使用 CoT 後即使是 1 層 Transformer 也能輕松學習(準确率 100%)。

對于迭代平方任務,輸入是一個質數 p、一個整數 r 和若幹個 "^2" 符号,輸出是 r^ ( 2^k ) mod p。

實驗結果與置換群復合任務相似:不使用 CoT 時。即使 16 層 Transformer 也難以學習;而使用 CoT 後。1 層 Transformer 就能完美求解。

這再次驗證了理論分析,即迭代平方是内在串行的,需要 CoT 來提供必要的計算能力。

最後的電路值問題,輸入是一個随機布爾電路的描述,輸出是電路的最終輸出值。

實驗結果表明,在基準設定下,4 層 Transformer 的準确率約為 50%,8 層約為 90%,16 層接近 100%;

而使用 CoT 後,1 層 Transformer 就能達到接近 100% 的準确率。

這驗證了理論結果,即 CoT 賦予了 Transformer 任意電路的模拟能力,使其能夠解決電路值問題這一 P 完全問題。

CoT+Transformer 模拟門電路

除了上述實驗,作者還對以下結論進行了理論證明:

對于任意一個可以用多項式大小的布爾電路計算的函數,都存在一個僅有常數層數的 Transformer,可以通過足夠多步數的思維鏈(CoT)來模拟電路的計算過程,從而計算出這個函數。

證明的思路是先将布爾電路視為一系列邏輯門的組合,然後利用 Transformer 中的位置編碼為每個邏輯門及其狀态分配一個獨特的表示,進而通過逐步計算來模拟整個電路的執行過程。

這個證明的關鍵,在于利用 CoT 來逐步模拟電路中每個門的計算。

具體而言,對于一個有 T ( n ) 個門的電路,作者設計了一個 4T ( n ) 個 token 的輸入序列。

這個序列包含了電路的完整描述,每個門用 4 個連續的 token 表示:門類型、兩個輸入門的索引和當前門的索引,并用輸入序列中的第一個 token 指示了電路的輸入值。

然後,作者構造了一個常數深度的 Transformer,這個 Transformer 的嵌入維度只需要 O ( log n ) ,就足以對 T ( n ) 個門進行編碼。

在第一層,Transformer 讀取輸入序列,并将電路的描述信息存儲到其位置嵌入中。

接下來是關鍵的 CoT 步驟。Transformer 逐步生成 4T ( n ) 個 token 的思維鏈,每 4 個 token 對應電路中的一個門。

對于第 i 個門 ,Transformer 執行以下操作:

利用注意力機制獲取兩個輸入門的計算結果:如果輸入門是電路的輸入,可以直接從輸入序列中讀取;如果輸入門是前面計算過的中間結果,則可以從思維鏈的對應位置讀取。

根據門的類型(與、或、非等),用前饋網絡計算當前門的輸出。

将當前門的輸出寫回到思維鏈中,作為後續門的輸入。

通過這一過程,Transformer 逐步模拟了電路中每一個門的計算,并将中間結果存儲在思維鏈中。在生成完整個思維鏈後,最後一個門的輸出就對應了電路的最終輸出。

也就是説,通過将電路 " 展開 " 為一個長度為 O ( T ( n ) ) 的思維鏈,即使固有深度很淺,Transformer 也可以逐步執行電路中的計算。

在此基礎上,作者進一步證明,具有 O ( T ( n ) ) 長度 CoT 的常數深度 Transformer,可以模拟任意 T ( n ) 大小的電路,因此其計算能力等價于多項式大小電路。

理論打通了,實際可行嗎?

能夠模拟電路的計算過程,意味着 CoT+Transformer 能夠解決可計算問題。

同時,這也説明只要有足夠的 CoT 思考時間,大模型不需要擴展尺寸也能解決復雜問題。

有專業人士用一篇長文解釋了 CoT 和圖靈完備性之間的關系:

如果沒有 CoT,Transformer 僅限于執行 AC0 復雜度類中的可并行任務;

CoT 推理從根本上改變了這一格局,它使 Transformer 能夠通過中間推理 token 處理串行計算,從而增加計算深度并允許模型模拟 AC0 以外的更深層次的電路。

這一進步将 Transformer 帶入了 P/poly 領網域,即多項式大小電路可以解決的問題類型。

理論上,只要有足夠的 CoT 步驟,Transformer 就可以模拟多項式大小電路可以執行的任何計算,從而縮小了 Transformer 與圖靈機之間的差距。

但實際限制仍然存在,例如有限的上下文視窗和計算資源。要充分利用這一潛力,需要仔細的模型設計和優化。

還有人把這項成果和 OpenAI 的 " 草莓 ",也就是爆火的超強模型 o1 聯系到了一起——

草莓同樣也是思考的時間越長,準确性越高,按照這個思路,只要有好的模型,就能解決人類面臨的一系列難題。

甚至有人表示,如果這項研究是真的,那麼 AGI 就已經在到來的路上了……

不過也有人認為,這只是一個理論性的結果,距離實際應用還存在很大差距。

即使抛開理論與實際條件的不同,時間和成本問題就是一個重要的限制因素。

而且實驗的一個假設是模型權重被正确設定,但實際模型的訓練很難達到這一程度。

還有人指出,這種模拟門電路運算,并不是大模型實際學習和工作的方式。

換言之,如何将實際問題用布爾電路表示,是 Transformer 從能解決運算問題到能夠解決實際問題的一個關鍵。

但現實中,諸如 " 如何治療癌症 " 這樣的問題,很難以電路的形式去描述。

雖然距離實際應用還有一系列問題要解決,但這項研究至少揭開了 CoT 的巨大潛力。

作者簡介

本論文一共有四名作者,全部都是華人。

按署名順序,第一位作者為清華姚班校友李志遠,是馬騰宇已畢業的博士生,現為芝加哥豐田技術學院(TTIC)的終身教授助理教授。

第二位作者是Hong Liu,也是馬騰宇的博士生,現在在讀,本科就讀于清華,曾獲得特等獎學金及優秀畢業生榮譽。

第三位是 Google Brain 推理團隊創建者Denny Zhou,中科院博士,2017 年加入 Google 前在微軟擔任了 11 年的高級研究員。

最後是 2021 年斯隆獎得主、斯坦福大學助理教授馬騰宇,他是姚班校友、陳丹琦的同班同學。

論文地址:

https://arxiv.org/abs/2402.12875

參考鏈接:

[ 1 ] https://x.com/denny_zhou/status/1835761801453306089

[ 2 ] https://www.reddit.com/r/singularity/comments/1fiemv4/denny_zhou_founded_lead_reasoning_team_at_google/

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們