大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

北交開源o1代碼版!強化學習+蒙特卡洛樹搜索,源代碼、精選數據集以及衍生模型通通開源

2024-12-09 简体 HK SG TW

今天小編分享的科學經驗:北交開源o1代碼版!強化學習+蒙特卡洛樹搜索,源代碼、精選數據集以及衍生模型通通開源,歡迎閱讀。

北京交通大學研究團隊悄默聲推出了一版 o1,而且所有源代碼、精選數據集以及衍生模型都開源!

名為O1-CODER,專注于編碼任務。

團隊認為編碼是一個需要 System-2 思維方式的典型任務,涉及謹慎、邏輯、一步步的問題解決過程。

而他們的策略是将強化學習(RL)與蒙特卡洛樹搜索(MCTS)相結合,讓模型能夠不斷生成推理數據,提升其 System-2 能力。

實驗中,團隊有以下幾點關鍵發現:

當推理正确時,基于偽代碼的推理顯著提升了代碼生成質量

将監督微調(SFT)與直接偏好優化(DPO)相結合能夠提升測試用例生成效果

自我對弈強化學習為推理和代碼生成創造了持續改進的循環機制

具體來說,團隊采用了測試用例生成器,在經過 DPO 後達到 89.2% 的通過率,相比初始微調後的 80.8% 有顯著提升;Qwen2.5-Coder-7B 采用偽代碼方法實現了 74.9% 的平均采樣通過率,提升了 25.6%。

網友直呼很需要這樣的模型。

O1-CODER,究竟長啥樣?

六步,逐步優化 o1

應用于代碼生成的自我對弈強化學習面臨兩大挑戰:

結果評估,即如何評判生成代碼的質量。與圍棋等任務不同,評估代碼需要在測試環境中運行并驗證。

定義思考和搜索行為,即确定過程獎勵的對象和粒度。

對于第一個挑戰,團隊提出訓練一個測試用例生成器(TCG),根據問題和标準代碼自動生成測試用例,為強化學習提供标準化的代碼測試環境和結果獎勵。

對于第二個挑戰,他們采取 "先思考後行動" 的方式:先通過詳細的偽代碼思考問題,再基于偽代碼生成最終的可執行代碼。

這種方式的優勢在于适應性(同一偽代碼可對應不同的具體實現)和可控粒度(通過調整偽代碼的細節程度控制推理 / 搜索行為的粒度)。

具體來說,研究團隊提出了一個包含六個步驟的框架:

訓練測試用例生成器(TCG),為代碼測試提供标準化的環境

利用 MCTS 生成包含推理過程的代碼數據

迭代微調策略模型,先生成偽代碼,再生成完整代碼

基于推理過程數據初始化過程獎勵模型(PRM)

在 TCG 提供的結果獎勵和 PRM 提供的過程獎勵的雙重引導下,通過強化學習和 MCTS 更新策略模型

利用優化後的策略模型生成新的推理數據,返回第 4 步迭代訓練

兩階段訓練測試用例生成器

在實驗部分,研究人員詳細介紹了測試用例生成器的訓練過程。

分為兩個階段:監督微調(SFT)和直接偏好優化(DPO)。

SFT 階段的主要目标是确保生成器的輸出符合預定義格式,以便準确解析和提取生成的測試用例。訓練數據來自 TACO 數據集。

DPO 階段的目标是引導模型生成符合特定偏好的測試用例,進一步提高生成器的性能和可靠性。

這裡采用了帶有人工構建樣本對的 DPO 方法,構建了一個偏好數據集。

實驗表明,SFT 階段過後,TCG 在标準代碼上生成的測試用例通過率達到 80.8%,DPO 階段進一步提升至 89.2%,大幅改善了生成器產出可靠測試用例的能力。

偽代碼推理,引導模型進行深度推理

特别值得一提的是,研究者引入了基于偽代碼的提示方法,将其作為引導模型進行深度推理的 " 認知工具 "。

他們為此定義了三個關鍵行為:

使用偽代碼定義算法結構:勾勒主要函數的結構和接口,把握任務的整體框架

細化偽代碼:逐步明确每個函數的具體步驟、邏輯和操作

從偽代碼生成代碼:将偽代碼的結構和邏輯精準翻譯為可執行代碼

在 MBPP 數據集上進行的初步實驗表明,盡管整體通過率(Pass@1)有所下降,但Average Sampling Pass Rate(ASPR)顯著提高。

表明結合偽代碼顯著改善了推理過程的質量,特别是在細化通向正确輸出的路徑方面。這為後續的自監督微調和強化學習提供了良好的起點。

自我對弈 + 強化學習

研究人員詳細描述了如何使用蒙特卡洛樹搜索(MCTS)來構建步驟級别的過程獎勵數據。

這個過程涉及到為每個問題形成一個推理路徑,該路徑由一系列推理步驟組成,并最終產生一個可執行的代碼。在 MCTS 的路徑探索中,使用偽代碼提示策略來引導推理過程。當達到終端節點時,就形成了一個完整的偽代碼推理路徑。

終端節點的獎勵值是基于兩個關鍵指标計算的:編譯成功率(compile)和測試用例通過率(pass)。

這些指标被用來評估生成的代碼的質量和正确性。

獎勵值被反向傳播到路徑上的所有前序節點,為每個步驟分配一個獎勵值。通過這種方式,構建了推理過程數據集,為策略模型的初始化和訓練提供了基礎。

過程獎勵模型(PRM)的任務是為當前步驟分配一個獎勵值,以估計其對最終答案的貢獻。

在數據合成過程中使用的樹搜索方法可以組織成點式(point-wise)和成對式(pair-wise)兩種數據格式。

基于這些經過驗證的正确推理解,策略模型得到初始化。

接下來,過程獎勵模型(PRM)開始發揮作用,評估每一步推理對最終答案的貢獻。在測試用例生成器(TCG)提供的結果獎勵和 PRM 提供的過程獎勵的雙重引導下,策略模型通過強化學習不斷改進。

更新後的策略模型被用來生成新的推理數據,補充到現有數據集中,形成自我對弈的閉環。這個數據生成 - 獎勵建模 - 策略優化的迭代循環,确保了系統推理能力的持續提升。

論文鏈接:https://arxiv.org/pdf/2412.00154

參考鏈接:https://x.com/rohanpaul_ai/status/1864488583744377271?s=46&t=iTysI4vQLQqCNJjSmBODPw

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們