Llama版o1來了，來自上海AI Lab，強化學習代碼已開源，基于AlphaGo Zero範式

今天小編分享的科學經驗：Llama版o1來了，來自上海AI Lab，強化學習代碼已開源，基于AlphaGo Zero範式，歡迎閱讀。

復刻 OpenAI o1推理大模型，開源界傳來最新進展：

LLaMA 版 o1項目剛剛發布，來自上海 AI Lab團隊。

簡介中明确：使用了蒙特卡洛樹搜索，Self-Play 強化學習，PPO，以及 AlphaGo Zero 的雙重策略範式（先驗策略 + 價值評估）。

在 2024 年 6 月，o1 發布之前，團隊就開始探索蒙特卡洛樹搜索提高大模型數學能力，積累了一些關注。

這次最新開源代碼，也在開發者社區引起熱議。

OpenAI o1 系列發布後，團隊開始更新算法，專注于數學奧賽問題，作為 OpenAI 草莓項目的開源版本。

10 月初，團隊上傳新論文，使用成對優化（不直接給出絕對分數，而是比較兩個答案的相對優劣）提高 Llama 模型數學奧賽能力。

在最難的 AIME2024 基準測試 30 道題中，原版 LLaMA-3.1-8B-Instruct 做對 2 道，優化後做對 8 道，超過了除 o1-preview 和 o1-mini 之外的其他商業閉源方案。

10 月底，團隊宣布在基于 AlphaGo Zero 架構復刻 OpenAI o1 的努力中取得了重大進展：

已成功使模型在學習過程中通過與搜索樹互動獲得高級思維能力，無需人工标注。

不到一周時間，項目便開源了。

LLaMA 版 o1 最新進展

目前已開源内容包括：預訓練數據集、預訓練模型、強化學習訓練代碼。

OpenLongCoT-Pretrain 數據集，包含 10 萬 + 條長思維鏈數據。

每條數據包含一個完整的數學問題推理過程，包含思考内容和評分結果。

例如一個幾何問題，包含了問題描述、圖形坐标、計算過程和結論推導等完整的推理鏈路，以及對各個推理步驟的批評和驗證内容，對推理過程進行評價和指導。

在此數據集繼續預訓練後，模型可讀取和輸出類似 o1 的長思維鏈過程。

預訓練代碼尚未發布，目前推薦使用 LLaMaFactory 代替。

有意思的是雖然項目名為 LLaMA-O1，但目前官方給的預訓練模型基于谷歌 Gemma 2。

目前在預訓練模型基礎上，可以繼續進行強化學習訓練，從代碼中可以看出訓練過程如下：

使用蒙特卡洛樹搜索進行自我對弈 ( self-play ) 以生成經驗

将經驗存儲在優先經驗回放緩衝區中

從緩衝區采樣批次數據進行訓練

更新模型參數和經驗優先級

論文中也給出了訓練過程的圖示。

同時訓練代碼中使用了以下關鍵技術點：

使用 LoRA 進行參數高效微調

使用 PPO 算法作為策略優化方法

實現了 GAE ( Generalized Advantage Estimation ) 算法用于計算優勢函數

使用優先經驗回放提高訓練效率

最後，LLaMA-O1 代碼發布在名為SimpleBerry的 GitHub 賬号下，并沒有特别簡介，還比較神秘。

其他與 SimpleBerry 有關的賬号和官網中，只能看出性質是一個研究實驗室，也并未透露更多研究方向信息。

其他 o1 復刻項目進展

除 LLaMA-O1 之外，另一個公開進展的 o1 復刻項目O1-Journey來自上交大團隊。

團隊在十月初發布了第一份進展報告，其中介紹了創新 Journey Learning 範式，以及第一個成功将搜索和學習整合到數學推理中的模型。

O1-Journey 核心開發團隊主要由上交大大三、大四大學生，以及上交大 GAIR 實驗室（生成式人工智能研究實驗室）的一年級博士生組成。

指導教師包括上交大副教授劉鵬飛，姚班校友、斯隆獎得主李遠志等。

LLaMA-O1：

https://github.com/SimpleBerry/LLaMA-O1

相關論文：

https://arxiv.org/abs/2406.07394

https://arxiv.org/abs/2410.02884

O1-Journey：

https://github.com/GAIR-NLP/O1-Journey/