今天小編分享的科學經驗:砍掉99%采樣成本!騰訊AI Lab提出大模型無監督訓練新技術,歡迎閲讀。
只要微調模型生成的前 8-32 個詞,就能讓大模型推理能力達到和傳統監督訓練一樣的水平?
騰訊 AI Lab 與香港中文大學(深圳)合作開展了一項新研究,提出了這樣一種名為無監督前綴微調(UPFT)的方法。
UPFT 大大降低了訓練模型的數據生產成本,能夠将訓練時間縮短約 75%,并将采樣成本降低約 99%。
團隊研究發現,關鍵的正确推理信号,全都藏在模型的 " 前幾步 " 裏,将這種現象稱為 " 推理前序自一致性 "。
基于這一發現,團隊嘗試僅微調模型生成的前 8-32 個詞,結果其推理能力果真可達到與傳統監督訓練相當的水平。
UPFT 不僅降低了大模型的訓練耗時和采樣成本,在減少訓練序列長度和内存消耗方面也展示了顯著優勢,訓練序列長度縮減了 82.6-94.7%。
突破大模型訓練算力瓶頸
數據生產是訓練大模型(LLM)過程中的一大難題,尤其是算力成本的快速攀升給研究和應用帶來了巨大挑戰。
傳統方法在讓模型學會推理時,通常采用生成大量候選解,然後從中篩選出正确的推理路徑進行訓練的方式。
這種策略看似直接,但實際操作中卻面臨諸多困難。
以數學解題為例,上述方法通常需要為每道題目生成 16 個候選解,再從中篩選出正确的完整推理鏈。
這種方式對算力的需求極大——每次訓練迭代,模型需要進行數十次采樣,GPU 算力消耗呈現快速增長的趨勢。
單次數據生產可能消耗數百萬 token 的算力資源,而當題目難度增加時,所需的采樣量和算力開銷還會進一步提升。
這種高成本的訓練方式,不僅效率較低,也成為技術落地的一大障礙。
在小規模實驗中,這種方法尚可勉強支撐,但若面對百萬級題庫,算力成本的壓力将變得難以承受。
研究團隊發現,與其讓模型進行大量盲目采樣,不如将重點放在識别真正重要的正确推理信号上。
這種更有針對性的策略不僅能夠提升效率,還能顯著降低算力開銷。接下來,我們将進一步探讨他們的核心發現和解決方案。
找到 AI 解題的關鍵信号
在 AI 解決數學問題的過程中,人們或許會認為它具備某種 " 随機應變 " 的能力,但事實果真如此嗎?
通過一系列嚴謹的實驗,研究者們揭示了一個令人驚訝的現象:
AI 在解題時,真正決定正确答案的推理信号,可能早已隐藏在其推理路徑的 " 前幾步 " 之中。
這一現象被研究者稱為" 推理前序自一致性 "。
具體而言,無論 AI 在後續的推理過程中如何 " 發散思維 ",其推理路徑的開端幾乎呈現出高度一致的模式。
這一發現不僅揭示了 AI 解題的底層邏輯,也為優化訓練策略提供了全新的視角。
以一個典型實驗為例,研究者讓模型針對某道數學題生成了 8 個不同的解題方案(标記為 A1 至 A8)。
盡管這些方案的最終答案可能千差萬别,但令人意外的是,前 32 個詞的内容幾乎完全相同。
這一現象表明,AI 推理過程中的關鍵信号似乎集中在推理的起點部分,而後續的 " 發散 " 更多是表象。
△讓模型針對同一問題,随機生成 8 次解答
為了進一步探明這一現象的本質,研究團隊分别使用通用型模型(Llama-3.1-8B-Instruct)和數學專精模型(Qwen2.5-Math-7B-Instruct)進行了實驗。
研究者讓這兩款模型針對一系列數學題目生成了多達 1000 條解題方案,并對這些推理路徑進行了詳細分析。
實驗結果表明,有大量的獨立推理路徑共享相同的推理前序。
并且随着前綴長度的增加,每種推理前序所對應的平均推理路徑數量逐漸減少,AI 生成的解題方案開始呈現出 " 分化 " 的趨勢。
這一發現為 " 推理前序自一致性 " 提供了強有力的證據,也進一步證實了關鍵推理信号集中在推理起點的假設。
△前序長度和推理路徑數量的關系
既然不同的推理路徑可能共享相同的推理前序,那麼一個關鍵問題随之而來——
究竟需要多長的前序長度,才能有效區分正确與錯誤的推理路徑?
為了回答這一問題,研究團隊設計了專門的實驗,分别從正确和錯誤的推理路徑中提取樣本,并針對這些路徑的前序部分進行了大規模采樣分析。
實驗結果下圖所示,研究者發現了一個重要的臨界點:
只有當前序長度超過某個臨界長度時,正确路徑與錯誤路徑之間的差異才開始顯現,并能夠被有效區分。
這一發現表明,前序長度在推理路徑的分化中起着至關重要的作用,而這個臨界長度則為後續優化模型推理策略提供了一個重要的參考标準。
△正确和錯誤在開頭部分很難區分從貝葉斯視角看問題:覆蓋範圍與準确性的平衡
為了更深入地理解這一問題,研究團隊引入了一種基于貝葉斯框架的科學視角,來重新審視訓練過程。
簡單來説,貝葉斯框架是一種概率推理的方法,它幫助我們理解模型在面對一個問題時,如何通過不同的推理路徑得出正确答案的可能性。
在這一框架下,模型的表現可以被分解為兩個關鍵因素:推理路徑的 " 覆蓋範圍 " 和 " 準确性 "。
覆蓋範圍指的是模型在面對一個問題時,能夠探索到多少種不同的解題思路。
用貝葉斯的語言來説,這相當于模型在生成推理路徑時的 " 先驗分布 " ——即模型能夠覆蓋的解題思路越廣泛,它找到正确答案的可能性就越高。
準确性指的是在某一條具體的推理路徑上,模型最終得出正确答案的可能性。
在貝葉斯框架中,這可以看作是 " 條件概率 " ——即給定某條推理路徑,模型得出正确答案的概率越高,這條路徑的質量就越好。
傳統的 " 拒絕微調 " 策略雖然在保證準确性方面表現不錯——因為它只選擇了那些最終答案正确的推理路徑——但卻忽略了覆蓋範圍的重要性。
換句話説,這種方法過于 " 挑剔 ",只關注了 " 正确答案 ",而沒有充分利用那些可能包含寶貴解題思路但最終答案錯誤的推理路徑。
這種 " 只選一個正确答案 " 的做法,實際上限制了模型的學習潛力。
△平衡數據準确性和數據覆蓋程度
基于上述分析,研究者們提出了一種新方法,試圖找到一個平衡點,既能保證答案準确,又能探索更多解題思路。
他們發現,解題路徑的前半部分(稱為 " 前綴 ")往往包含了多種可能的解題思路,而後半部分則更決定最終答案是否正确。
因此,他們提出只訓練模型生成前綴部分,既能覆蓋更多解題思路,又能減少計算成本。
具體來説,他們讓模型生成解題路徑的前半部分,并用這些前綴來訓練模型,從而在效率和效果之間找到更好的平衡。
研究人員将這種方法命名為無監督前綴微調(Unsupervised Prefix Finetuning, UPFT ) 。
對于每道題目,他們只生成一條推理路徑,而不是像傳統方法那樣生成多達 16 條。
同時,他們對生成的内容進行了優化:對于 10% 的題目,生成完整的解題路徑;而對于剩下的 90%,只生成解題路徑的前半部分(即前幾個關鍵步驟)。
這種方式既節省了計算資源,又能讓模型接觸到多樣化的解題思路。
1/10 采樣成本取得更優性能
為了驗證 UPFT 方法的有效性,研究團隊測試了以下兩種場景:
對于沒有标準答案的數據進行無監督采樣:每個問題僅采樣一個解決方案,不進行過濾。
對于有标準答案的數據進行有監督采樣:傳統方法每題采樣 16 個解決方案,通過正确答案篩選正确解決方案。
在實驗設定上,研究團隊使用了通用模型(Llama-3.1-8B-Instruct)和數學專用模型(Qwen2.5-Math-7B-Instruct),以及目前十分火熱的 R1 類型的長思維鏈模型(DeepSeek-R1-Distill-Qwen-7B)。
測試選擇了多個具有挑戰性的推理基準測試,包括 GSM8K(數學推理)、Math500(復雜數學題)、AIME2024(數學競賽題)和 GPQA(綜合科學推理)。
結果,UPFT 在性能和成本上都展現了顯著優勢,提升性能的同時減少了訓練 token 數量。
UPFT 提高無監督上限
結果表明,與傳統的監督微調(SFT)相比,UPFT 在多個方面表現出色:
在使用 U-Hard 數據集時,Qwen2.5-Math-7B-Instruct 的 UPFT 準确率達到了 54.5%,而 SFT 僅為 51.3%。
對于 DeepSeek-R1-Distill-Qwen-7B,UPFT 達到了 61.6% 的準确率,而 SFT 為 56.4%。
△UPFT 和傳統 SFT 方法的無監督對比實驗結果
在更具挑戰性的任務(例如 AIME2024 和 GPQA)中,UPFT 的表現更為突出。
在 AIME2024 上,Qwen2.5-Math-7B-Instruct 的 UPFT 準确率為 26.6%,相比之下,SFT 為 16.7%。對于 DeepSeek-R1,UPFT 達到了 50.0%,而 SFT 為 36.7%。
在 GPQA 科學推理任務中,UPFT 同樣表現優異,超越了 SFT。
在效率方面,UPFT 展示出了極大的優勢。UPFT 顯著減少了訓練序列長度,縮減了 82.6-94.7%。
在 U-Hard 上的平均 token 數為 68.2,而 SFT 需要 393.3 個 token,内存消耗大幅降低。在 DeepSeek-R1-Distill 模型上僅用 561 個标記就優于 SFT 的 3440 個标記,顯示了其極高的效率。
UPFT 超越有監督 SFT 性能
為了進一步探究 UPFT 的效率極限,研究團隊對比了需要進行大量采樣的傳統方法,即需要标籤驗證來過濾掉正确解決方案,來突出 UPFT 的效率優勢。
結果顯示,在 Qwen2.5-Math-7B-Instruct 上,UPFT 和瘋狂刷題的 RFT 準确率打平(52.6%),但 UPFT只用 1.2% 的采樣 token(0.6M vs 51.7M)。
同時 UPFT 在 DeepSeek-R1-Distill-Qwen-7B 上飙到 58.7%,比 RFT 高 1.5 個點,采樣 token 的花費卻只需要 RFT 的 1%,訓練 token 花費僅為 RFT 的 25%。
在基座模型 Llama-3.1-8B-Instruct 上,UPFT 得分 38.3%,跟 V-STaR 并肩。但是在增加了标籤過濾後的 UPFT 性能超過 RFT,得分 38.8%,展示出 UPFT 與現有方法的兼容性。
△UPFT 在有監督場景下仍然打敗了傳統 SFT 以及 V-STaR 方法 UPFT 對前綴長度比較魯棒
為了揭秘前綴長度對模型性能影響,研究團隊展開了進一步的實驗。
研究者們通過實驗發現,不同模型在解題路徑前半部分的長度(即 " 前綴 " 長度)對準确性的影響比較魯棒。
以 Llama-3.1-8B-Instruct 模型為例,當解題路徑的前半部分包含 8 個 token 時,模型的準确率逐漸提升至 52.0% 然後逐漸下降, 對于 Qwen2.5-Math-7B-Instruct 模型的表現則有所不同, 其性能在前 32 個 token 處均緩慢提高。
這表明,不同模型對解題路徑前半部分的依賴程度存在差異,研究者們據此可以針對不同模型設計更合适的訓練策略。
△訓練的推理前綴長度和對應模型性能
總之,這項研究為大語言模型的高效、低成本訓練開辟了新路徑。
未來,研究團隊計劃繼續探索 UPFT 的潛力,進一步優化模型訓練效率,并探索與現有方法的兼容性。
作者簡介
本文的通訊作者為塗兆鵬,騰訊專家研究員,研究方向為深度學習和大模型,在國際頂級期刊和會議上發表學術論文一百餘篇,引用超過 9000 次。擔任 SCI 期刊 NeuroComputing 副主編,多次擔任 ACL、EMNLP、ICLR 等國際頂級會議領網域主席。
第一作者為香港中文大學(深圳)博士生冀轲,騰訊 AI Lab 高級研究員徐嘉豪,梁添,劉秋志。
論文地址:
https://arxiv.org/abs/2503.02875
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
一鍵關注 點亮星标
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!