1行代碼改進大模型訓練，Llama訓練速度提升至1.47倍，全華人團隊出品 - 大酷樂

今天小編分享的科學經驗：1行代碼改進大模型訓練，Llama訓練速度提升至1.47倍，全華人團隊出品，歡迎閲讀。

只要改一行代碼，就能讓大模型訓練效率提升至 1.47 倍。

擁有得州大學奧斯汀分校背景四名華人學者，提出了大模型訓練優化器 Cautious Optimizers。

在提速的同時，Cautious 能夠保證訓練效果不出現損失，而且語言和視覺模型都适用。

該優化器以哈密頓量和下降動力學為理論基礎，在加速的同時不影響收斂特性。

作者在 600M 到 1B 不同參數規模的 Llama 模型上進行了試驗，獲得了最高 47% 的加速率。

該研究相關代碼已經開源，在 GitHub 上有使用方法的詳細講解。

一行代碼改進大模型訓練

Cautious Optimizers 在 PyTorch 當中增加的一行代碼，核心思路是引入實現一種掩蔽機制，從而避免參數更新的方向與當前梯度方向相悖。

因為這兩個方向一旦不一致，就有可能導致損失函數暫時增加，造成收斂速度的減緩。

不過作者并未在方向不一致的來源問題上過度糾結，而是引入了一種判斷機制，在參數更新之前增加一步計算，從而過濾掉方向不一致的情形。

這也正是上面代碼的直接作用。

△GD：梯度下降，GDM：帶動量的梯度下降，C-GDM：本項目

具體來説，加入的兩行代會對 u 和 g 兩個向量求内積，u 向量對應優化器給出的參數更新方向，而 g 向量對應當前時刻的梯度方向。

作者設計了一個對齊掩碼函數 ϕ，當 u 和 g 的内積小于 0 時（即方向不一致），ϕ 的輸出為 0 向量；當内積大于等于 0 時，ϕ 的輸出為全 1 向量。

而一旦 ϕ 為零向量時，w_t 計算式中含 u 的項也會變為零向量，導致此項更新被跳過。

這樣就可以判斷參數更新和梯度方向是否一致，如果不一致則不會用于參數更新，避免了訓練過程中損失函數的回升。

訓練效率提升 47%

為了評估 Cautious Optimizers 的具體效果，作者分别在語言模型 Llama 和視覺模型 MAE 上進行了試驗。

作者選取了 60M、100M、350M 和 1B 四種參數規模的 Llama 模型，在 C4 語料庫上進行預訓練。

優化器選用了 AdamW 和 Lion，以及它們對應的 Cautious 版本 :C-AdamW 和 C-Lion，每個實驗中進行 1 萬步迭代。

結果 C-AdamW 和 C-Lion 在所有規模上都表現出明顯的收斂加速效果。

尤其是在 1B 規模上，相比原版的 AdamW 和 Lion，它們的樣本效率分别提高了 47% 和 28%，這表明 Cautious Optimizer 能有效減少訓練震蕩，使收斂更平穩高效。

并且，Cautious Optimizer 在所有情況下都取得了更低的困惑度，印證了其出色的泛化性能。

為了評估模型的實際效果，研究者在語句匹配、文本藴含、情感分類等 6 個 GLUE 下遊任務上測試了 AdamW 和 C-AdamW 優化後 1B 模型的表現 ,

結果表明，C-AdamW 的平均得分比 AdamW 高出 2%，在大多數任務上都取得了進步，説明 Cautious 跳過部分參數更新的方式不會引起模型性能下降。

對于視覺模型，作者以 ViT 為骨幹網絡，在 ImageNet-1K 數據集上預訓練了 MAE 模型。

由于視覺任務的特殊性，訓練過程采用了随機遮擋影像塊并重建的範式，因此優化目标是最小化重建誤差，而非通常的分類損失。

作者對比了 AdamW 和 C-AdamW 的表現，即訓練 50 輪後的最終重建誤差，結果 C-AdamW 的誤差為 0.5926，低于 AdamW 的 0.6085。

一作曾在一周内復刻 o1

本項目是由四名華人學者共同打造的。

第一作者 Kaizhao Liang，是 AI 推理加速服務商 SambaNova 公司的一名高級 ML 工程師。

在 o1 模型發布一周内，該公司就推出了一個類似 o1 模型思考過程的開源平替，主要作者正是 Liang。

其他三名作者是得州大學奧斯汀分校 CS 助理教授 Qiang Liu，以及他的兩名博士生，Lizhang Chen 和 Bo Liu。

此外，Liang 的人工智能碩士學位也是從該校獲得。

論文地址：

https://arxiv.org/abs/2411.16085

GitHub：

https://github.com/kyleliang919/C-Optim

— 完 —

「MEET2025 智能未來大會」

火熱報名中

定檔 12 月 11 日！李開復博士、周志華教授、智源研究院王仲遠院長都來量子位MEET2025 智能未來大會探讨行業破局之道了！

最新嘉賓陣容在此，觀眾報名通道已開啓！歡迎來到 MEET 智能未來大會，期待與您一起預見智能科技新未來

左右滑動查看最新嘉賓陣容

點這裏關注我，記得标星哦～

一鍵三連「點贊」、「分享」和「在看」

科技前沿進展日日相見 ~

>