大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

開源Llama版o1來了,3B小模型反超80B,逆向工程復現OpenAI新Scaling Law

2024-12-17 简体 HK SG TW

今天小編分享的科學經驗:開源Llama版o1來了,3B小模型反超80B,逆向工程復現OpenAI新Scaling Law,歡迎閱讀。

o1 完整版公開僅 10 天,Scaling Law 新範式就被逆向工程復現了!

Hugging Face 官方發文,開源了擴展測試時計算的方法。

用在小小小模型 Llama 1B 上,數學分數直接超過 8 倍大的模型,也超過了計算機科學博士生的平均分數(40%)。

那麼用在 Llama 3B 上呢?進步幅度更大,甚至能和 20 幾倍大的 70B 模型媲美。

雖然 OpenAI o1 的配方完全保密,沒有發布實現細節或代碼,但團隊基于 DeepMind 公布的研究結果,完成了自己的實驗。

在 DeepMind 研究的基礎上,Hugging Face 團隊做出如下改進:

多樣化驗證器樹搜索(Diverse Verifier Tree Search),一種簡單而有效的方法,可以提高多樣性和更高性能,特别是在算力預算充足的情況下。

開源輕量級工具包 Search and Learn,與推理框架 vLLM 配合,快速構建搜索策略

測試時計算擴展策略

目前擴展測試時計算主要有兩種策略:自我優化和搜索。

在自我優化中,模型識别和糾正後續迭代中的錯誤來迭代優化自己的輸出或 " 想法 "。

團隊認為雖然此策略對某些任務有效,但通常要求模型具有内置的自我優化機制,這可能會限制其适用性。

搜索方法側重于生成多個候選答案并使用驗證器選擇最佳答案。

搜索策略更靈活,可以适應問題的難度。Hugging Face 的研究主要聚焦于搜索方法,因為實用且可擴展。

其中驗證器可以是任何東西,從硬編碼到可學習的獎勵模型,這裡将重點介紹可學習的驗證器。

具體來說,研究涉及三種搜索策略:

Best-of-N

為每個問題生成多個響應,并使用獎勵模型為每個候選答案分配分數。選擇分數最高的答案(或加權變體),這種方法強調答案質量而不是頻率。

Beam search

一種探索解決方案空間的系統搜索方法,通常與過程獎勵模型 (PRM) 相結合,以優化解決問題中中間步驟的采樣和評估。與在最終答案上產生單個分數的傳統獎勵模型不同,PRM 提供一系列分數,推理過程的每個步驟分配一個分數。這種提供精細反饋的能力使 PRM 非常适合大模型。

多樣化的驗證器樹搜索 ( DVTS )

新開發的 Beam search 變體,它将初始 Beam 拆分為獨立的子樹,然後使用 PRM 做貪婪擴展。這種方法可以提高解決方案的多樣性和整體性能,尤其是在測試時算力預算較大的情況下。

實驗設定:3 種搜索策略 PK

首先将數學問題提供給大模型,生成 N 個中間步驟。

每個步驟都由 PRM 評分,估計每個步驟最終能得出正确答案的概率。

給定的搜索策略使用這些步驟和 PRM 分數,來選擇應該進一步探索哪些方向,生成下一輪中間步驟。

搜索策略終止後,PRM 将對最終候選解決方案進行排名,以生成最終答案。

為了比較各種搜索策略,研究中使用了以下開放模型和數據集:

語言模型,Llama-3.2-1B-Instruct作為主要實驗對象,因為輕量級模型可以快速迭代,并且在數學基準測試中性能不飽和

流程獎勵模型,使用了Llama3.1-8B-PRM-Deepseek-Data,與語言模型同屬一個系列,且在測試中給出了更好的結果。

數據集,使用 MATH 基準測試的子集MATH-500,該子集由 OpenAI 發布,數學問題橫跨 7 個科目,對人類和大多數模型來說都有挑戰性。

實驗結果:動态分配策略達到最優

首先,多數投票策略比貪婪解碼基線有顯著改進,收益在大約 N=64 後趨于穩定。

團隊認為,之所以出現這種限制,是因為多數投票難以解決需要細致入微推理的問題,或者解決幾個答案錯到一塊去的任務。

獎勵模型加入後的策略,表現均有提高。

Best-of-N策略分為兩種變體,原版(Vanilla)不考慮答案之間的一致性,加權版(Weighted)匯總所有結果相同的答案,并選擇總分數最高的。

結果發現加權版始終優于原版,特别是在算力預算大的時候更明顯,因為确保了頻率較低但質量較高的答案也能獲選。

Beam Search策略終于讓 1B 模型表現開始高于 8B。

但 Beam Search 并不是萬金油方法,在簡單的問題上表現反而不如 Best-of-N。

團隊通過查看結果樹,發現如果一個中間步驟獲得了高分,那麼整個樹就會坍塌到這一步,影響了後續答案的多樣性。

最終,DVTS方法改進了答案的多樣性,該方法與 Beam Search 相比有以下不同之處:

對于給定的 Beam 寬度(M)和生成數量 N,初始 Beam 集設定為 N/M 個獨立子樹

對于每個子樹,選擇 PRM 分數最高的步驟

生成 M 個新的下一步,繼續選擇分數最高的

重復這個過程,直到生成 EOS token 後終止,或達到最大深度

在對問題難度細分後,發現 DVTS 方法在 N 比較大時增強了對簡單 / 中等難度問題的性能。

而 Beam Search 在 N 比較小時仍然表現最好。

最終基于問題難度動态分配策略的方法可以取得最佳成績。

最後團隊提出,未來這項技術還有更多值得探索的地方:

更強大的驗證器,提高其穩健性和泛化能力至關重要。

最終目标是實現自我驗證,目前在實踐中仍然難以實現,需要更細致的策略。

在生成過程中加入明确的中間步驟或 " 想法 " ,通過将結構化推理整合到搜索過程中,可以在復雜任務中獲得更好的性能。

搜索方法可以用于合成數據,創建高質量的訓練數據集

開放的流程獎勵模型目前數量較少,是開源社區可以做出重大貢獻的領網域

目前的方法在數學和代碼等領網域表現出色,這些問題本質上是可驗證的,如何将這些技術擴展到結構性較差或評判标準主觀的任務,仍是一個重大挑戰。

評論區有網友表示,這種方法更适合本地部署,而不是 API 調用,因為調用 256 次 3B 模型和過程獎勵模型,通常會比調用一次 70B 模型更貴。

也有人建議在 Qwen 系列模型上嘗試,以及指路天工 Skywork 發布了兩個基于 Qwen 的 PRM 模型

開源代碼:

https://github.com/huggingface/search-and-learn

參考鏈接:

[ 1 ] https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute

[ 2 ] https://x.com/_lewtun/status/1868703456602865880

—  完  —

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們