大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

1行代碼改進大模型訓練,Llama訓練速度提升至1.47倍,全華人團隊出品

2024-11-27 简体 HK SG TW

今天小編分享的科學經驗:1行代碼改進大模型訓練,Llama訓練速度提升至1.47倍,全華人團隊出品,歡迎閱讀。

只要改一行代碼,就能讓大模型訓練效率提升至 1.47 倍。

擁有得州大學奧斯汀分校背景四名華人學者,提出了大模型訓練優化器 Cautious Optimizers。

在提速的同時,Cautious 能夠保證訓練效果不出現損失,而且語言和視覺模型都适用。

該優化器以哈密頓量和下降動力學為理論基礎,在加速的同時不影響收斂特性。

作者在 600M 到 1B 不同參數規模的 Llama 模型上進行了試驗,獲得了最高 47% 的加速率。

該研究相關代碼已經開源,在 GitHub 上有使用方法的詳細講解。

一行代碼改進大模型訓練

Cautious Optimizers 在 PyTorch 當中增加的一行代碼,核心思路是引入實現一種掩蔽機制,從而避免參數更新的方向與當前梯度方向相悖。

因為這兩個方向一旦不一致,就有可能導致損失函數暫時增加,造成收斂速度的減緩。

不過作者并未在方向不一致的來源問題上過度糾結,而是引入了一種判斷機制,在參數更新之前增加一步計算,從而過濾掉方向不一致的情形。

這也正是上面代碼的直接作用。

△GD:梯度下降,GDM:帶動量的梯度下降,C-GDM:本項目

具體來說,加入的兩行代會對 u 和 g 兩個向量求内積,u 向量對應優化器給出的參數更新方向,而 g 向量對應當前時刻的梯度方向。

作者設計了一個對齊掩碼函數 ϕ,當 u 和 g 的内積小于 0 時(即方向不一致),ϕ 的輸出為 0 向量;當内積大于等于 0 時,ϕ 的輸出為全 1 向量。

而一旦 ϕ 為零向量時,w_t 計算式中含 u 的項也會變為零向量,導致此項更新被跳過。

這樣就可以判斷參數更新和梯度方向是否一致,如果不一致則不會用于參數更新,避免了訓練過程中損失函數的回升。

訓練效率提升 47%

為了評估 Cautious Optimizers 的具體效果,作者分别在語言模型 Llama 和視覺模型 MAE 上進行了試驗。

作者選取了 60M、100M、350M 和 1B 四種參數規模的 Llama 模型,在 C4 語料庫上進行預訓練。

優化器選用了 AdamW 和 Lion,以及它們對應的 Cautious 版本 :C-AdamW 和 C-Lion,每個實驗中進行 1 萬步迭代。

結果 C-AdamW 和 C-Lion 在所有規模上都表現出明顯的收斂加速效果。

尤其是在 1B 規模上,相比原版的 AdamW 和 Lion,它們的樣本效率分别提高了 47% 和 28%,這表明 Cautious Optimizer 能有效減少訓練震蕩,使收斂更平穩高效。

并且,Cautious Optimizer 在所有情況下都取得了更低的困惑度,印證了其出色的泛化性能。

為了評估模型的實際效果,研究者在語句匹配、文本蘊含、情感分類等 6 個 GLUE 下遊任務上測試了 AdamW 和 C-AdamW 優化後 1B 模型的表現 ,

結果表明,C-AdamW 的平均得分比 AdamW 高出 2%,在大多數任務上都取得了進步,說明 Cautious 跳過部分參數更新的方式不會引起模型性能下降。

對于視覺模型,作者以 ViT 為骨幹網絡,在 ImageNet-1K 數據集上預訓練了 MAE 模型。

由于視覺任務的特殊性,訓練過程采用了随機遮擋影像塊并重建的範式,因此優化目标是最小化重建誤差,而非通常的分類損失。

作者對比了 AdamW 和 C-AdamW 的表現,即訓練 50 輪後的最終重建誤差,結果 C-AdamW 的誤差為 0.5926,低于 AdamW 的 0.6085。

一作曾在一周内復刻 o1

本項目是由四名華人學者共同打造的。

第一作者 Kaizhao Liang,是 AI 推理加速服務商 SambaNova 公司的一名高級 ML 工程師。

在 o1 模型發布一周内,該公司就推出了一個類似 o1 模型思考過程的開源平替,主要作者正是 Liang。

其他三名作者是得州大學奧斯汀分校 CS 助理教授 Qiang Liu,以及他的兩名博士生,Lizhang Chen 和 Bo Liu。

此外,Liang 的人工智能碩士學位也是從該校獲得。

論文地址:

https://arxiv.org/abs/2411.16085

GitHub:

https://github.com/kyleliang919/C-Optim

—  完  —

「MEET2025 智能未來大會」

火熱報名中

定檔 12 月 11 日!李開復博士、周志華教授、智源研究院王仲遠院長都來量子位MEET2025 智能未來大會探讨行業破局之道了!

最新嘉賓陣容在此,觀眾報名通道已開啟!歡迎來到 MEET 智能未來大會,期待與您一起預見智能科技新未來  

左右滑動查看最新嘉賓陣容

點這裡關注我,記得标星哦~

一鍵三連「點贊」、「分享」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們