大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

今日最熱論文:Scaling Law後繼乏力,量化也不管用,AI大佬齊刷刷附議

2024-11-15 简体 HK SG TW

今天小編分享的科學經驗:今日最熱論文:Scaling Law後繼乏力,量化也不管用,AI大佬齊刷刷附議,歡迎閱讀。

幾十萬人關注,一發表即被行業大佬評為 " 這是很長時間以來最重要的論文 "。

哈佛、斯坦福、MIT 等團隊的一項研究表明:訓練的 token 越多,需要的精度就越高。

例如,Llama-3 在不同數據量下(圓形 8B、三角形 70B、星星 405B),随着數據集大小的增加,計算最優的精度也會增加。

換句話就是,對于大規模的訓練任務,低精度的量化可能不再足夠有效。

按照結論,對 Scaling Law 的遵循意味着我們需要保持更高精度,然而一直以來,人們通常會選擇量化(将連續值或多精度值轉換為較低精度)來節省計算資源。

一旦結論成立,GPU 的設計和功能可能也需要相應調整,因為傳統上,GPU 的性能提升部分依賴于對低精度計算的優化。

正如艾倫 AI 研究所科學家所指出的:

這是很長時間以來最重要的論文。它用強有力的證據表明,我們正在達到量化的極限。論文得出的結論對整個領網域以及 GPU 的未來有着廣泛的影響。

與此同時,研究得出了兩個重要結論:

如果量化是在後訓練階段進行的,那麼更多的預訓練數據最終可能反而有害;

在高(BF16)和下一代(FP4)精度下進行預訓練可能都是次優的設計選擇;

這也引來 OpenAI 員工大贊特贊:

将非常酷地看到如何 SOTA 量化方案(mxfp,Pw ≠ Pkv ≠ Pa 等)推動前沿;在我看來,将一半的計算預算用于一次大規模運行以檢查模型是否适用于大模型是值得的。

提出 " 精度感知 "Scaling Laws

一上來,研究就指出,當前擴展的焦點主要放在了模型規模、數據量上,忽視了對精度的關注。

而事實上,随着模型進一步應用落地,低精度量化正在成為新的範式。

深度學習正朝着更低精度的方向發展。

當前的前沿模型(如 Llama-3 系列)在 BF16 中進行訓練,并且大家都在努力将預訓練範式轉移到 FP8,甚至下一代硬體将支持 FP4;

因此,研究想要搞清:

精度、參數和數據之間的權衡是什麼?它們在預訓練和推理方面如何比較?

具體而言,團隊研究了在預訓練和後訓練 ,随着數據和參數的變化,精度對損失的影響如何變化。

同時,為了精确測量相關變化,團隊專門提出了" 精度感知(precision-aware)"的 Scaling Laws,以預測和優化不同精度下的語言模型訓練和推理。

先說結論。下圖展示了兩個主要的實驗結果:

在較低精度下訓練模型(例如 INT3 和 INT4)會導致較高的損失;

在推理時使用較低精度會導致性能下降;

具體而言,左側圖表展示了在不同精度下訓練模型的效果。

其中縱軸表示最終的驗證損失(Val Loss),橫軸表示不同的模型規模(Model Size),從 30M 到 220M 參數。不同的顏色代表了不同的訓練精度,從 INT3 到 INT6,以及沒有後訓練量化(No PTQ)。

研究發現,在較低精度下訓練模型(例如 INT3 和 INT4)會導致較高的損失,而随着精度的提高,損失會減少;同時,随着模型規模的增加,損失也會減少。

另外,右側圖表展示了在不同精度下進行推理時的模型性能。

其中橫軸表示了推理時的權重精度(Final Val Loss)。

結果顯示,在推理時使用較低精度(例如 INT3 和 INT4)會導致性能下降,即損失的增加;而随着精度的提高,損失會逐漸減少,接近沒有進行後訓練量化的模型性能。

上述發現也解釋了為什麼 Llama-3 難以量化?

要知道,Llama-3 發布後,它因 " 超 15T Token 數據上的超大規模預訓練 " 而聞名,不過人們後來發現,Llama-3 低比特量化性能下降顯著。

這可能正如研究提到的,模型在預訓練階段看到的數據越多,對量化的敏感性就越高。

與此同時,研究還發現了:

後訓練量化(PTQ,即訓練完成後對模型進行量化)引起的性能退化随着模型訓練數據量的增加而增加。

換句話說,在大量數據上訓練的模型,如果在推理時進行低精度的 PTQ,可能會導致性能顯著下降。

接下來,團隊提出利用 " 精度感知 "Scaling Laws 來預測模型在不同精度下的性能,并指出:

在較低精度下進行訓練可以減少模型的 " 有效參數數量(effective parameter count)",從而預測在低精度下訓練和後訓練量化產生的額外損失。

其中包含兩個關鍵公式,它們構成了一個統一的理論框架,用于預測不同精度下訓練和推理的性能。

訓練後量化(PTQ)引起的損失退化預測公式:

考慮訓練精度的模型損失預測公式:

統一預訓練與後訓練的精度預測

BTW,研究最終将後訓練量化和預訓練量化的影響統一起來,以此實現:

預測在任何精度組合下的預訓練和後訓練損失

相關公式如下:

同時,為了驗證預測的準确性,研究對超過 465 次預訓練運行的數據進行拟合,并在高達 1.7 億參數、訓練了高達 260 億個 token 的模型上進行了驗證。

并在過程中提出了以下幾點建議:

需要衡量精度與性能,在資源有限的情況下,可以考慮使用較低的精度來訓練更大的模型;

需要衡量精度與參數,在低精度下訓練時,可以考慮增加模型的規模(即參數數量),因為研究表明這樣做可能是計算上最優的;

需要優化數據量,通過數據增強、選擇性數據采樣等技術提高數據使用率,并在預訓練時應避免使用過多的數據,特别是在模型需要後期量化的情況下。

不過,這項研究目前也存在一定局限性,比如作者自述使用了一個固定的模型架構來控制變量。

這意味着,相關結果可能不适用于經過架構調整的低精度訓練模型,因為架構的變化可能會影響模型對精度變化的敏感性。

最後,有網友還想得更遠。提出一旦量化失敗,還有 3 條路可以考慮:

擴展數據中心

轉向更小的專業模型

知識蒸餾

你怎麼看?

論文:

https://arxiv.org/abs/2411.04330

參考鏈接:

[ 1 ] https://x.com/Tim_Dettmers/status/1856338240099221674

[ 2 ] https://x.com/Tanishq97836660/status/1856045600355352753

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們