大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

十億參數,一鍵瘦身!「模型減重」神器讓大模型狂掉3/4

2023-08-04 简体 HK SG TW

今天小編分享的科學經驗:十億參數,一鍵瘦身!「模型減重」神器讓大模型狂掉3/4,歡迎閱讀。

本文介紹了可提升大語言模型的訓練後量化表現的增強型 SmoothQuant 技術,說明了這項技術的用法,并證明了其在準确率方面的優勢。此方法已整合至英特爾 ®  Neural Compressor [ 1 ] 中。

英特爾 ®  Neural Compressor 是一個包含量化、剪枝(稀疏性)、蒸餾(知識提煉)和神經架構搜索等多種常用模型壓縮技術的開源 Python 庫。

目前,諸如 TensorFlow、英特爾 ®  Extension for TensorFlow [ 2 ] 、PyTorch、英特爾 ®  Extension for PyTorch [ 3 ] 、ONNX Runtime 和 MXNet 等主流框架,都能與之兼容。

英特爾 ®  Neural Compressor 已經支持多款英特爾 ®  架構的硬體,比如英特爾 ®  至強 ®  可擴展處理器 [ 4 ] 、英特爾 ®  至強 ®  CPU Max 系列 [ 5 ] 、英特爾 ®  數據中心 GPU Flex   系列 [ 6 ] 和英特爾 ®  數據中心 GPU Max 系列 [ 7 ] 。本文涉及的實驗基于第四代英特 ®  至強 ®  可擴展處理器 [ 8 ] 進行。

大語言模型

大語言模型 ( Large Language Model, LLM ) 需基于海量數據集進行訓練,可能擁有數十億權重參數。

其先進的網絡結構和龐大的參數量,使它們能夠很好地應對自然語言本身的復雜性。

完成訓練後的大語言模型,可針對各種下遊的自然語言處理 ( NLP ) 和自然語言生成 ( NLG ) 任務進行調優,讓其更适合對話式聊天機器人(如 ChatGPT)、機器翻譯、文本分類、欺詐檢測和情感分析等任務場景。

大語言模型部署面臨的挑戰

大語言模型在執行自然語言處理和自然語言生成任務方面表現出色,但其訓練和部署頗為復雜,主要面臨以下挑戰:

AI 與内存牆瓶頸問題 [ 9 ] :算力每兩年提高 3.1 倍,内存帶寬卻只提高 1.4 倍;

網絡帶寬挑戰:訓練大語言模型需要采用分布式系統,這對網絡帶寬提出了較高要求;

系統資源有限:訓練後的模型往往會部署在算力和内存資源均有限的系統上。

因此,采用訓練後量化的方法來為大語言模型瘦身,對于實現低時延推理至關重要。

大語言模型的量化

量化是一種常見的壓縮操作,可以減少模型占用的内存空間,提高推理性能。

采用量化方法可以降低大語言模型部署的難度。具體來說,量化是将浮點矩陣轉換為整數矩陣:

其中 X_fp32、S 和 Z 分别為輸入矩陣、比例因子和整數零點。

有關每通道 ( per-channel ) 量化策略雖然可能會減少量化損失,但不能用于激活值量化的原因,請參看 SmoothQuant 相關文檔 [ 10 ] 。

不過,激活值量化誤差損失卻是導致模型量化準确率下降的重要因素。

為此,人們提出了很多方法來降低激活值量化損失,例如:SPIQ [ 11 ] 、Outlier Suppression [ 12 ] 和 SmoothQuant [ 13 ] 。

這三種方法思路相似,即把激活值量化的難度轉移到權重量化上,只是三者在轉移難度的多少上有所不同。

增強型 SmoothQuant

SmoothQuant 引入了一個超參數 α 作為平滑因子來計算每個通道的量化比例因子,并平衡激活值和權重的量化難度。

其中 j 是輸入通道索引。

對于 OPT 和 BLOOM 等大多數模型來說,α =0.5 是一個能夠較好實現權重和激活值量化難度分割的平衡值。模型的激活異常值越大,就越需要使用更大的 α 值來将更多的量化難度轉移到權重上。

原始的 SmoothQuant 旨在通過針對整個模型使用一個固定值 α 來分割權重和激活值的量化難度。

然而,由于激活異常值的分布不僅在不同模型之間存在差異,而且在同一模型的不同層之間也不盡相同。

因此,本文推薦使用英特爾 ®  Neural Compressor 的自動調優能力,逐層獲取最佳 α 值。

相關方法包括以下五個主要步驟(偽代碼如下所示):

通過特殊的回調函數 register_forward_hook 捕獲 ( hook ) 模型各層的輸入和輸出值。

根據用戶定義的 α 範圍和步長生成一個 α 值列表。

根據給定的 α 值重新計算平滑因子并調整參數(權重值和激活值)。

對權重執行每通道量化與反量化 ( quantization_dequantization ) ,對輸入值執行每張量 ( per-tensor ) 量化與反量化,以預測與給定 α 值對應的每層輸出值。

計算相對實際輸出值的均方損失,将調整後的參數恢復回來,并保存每層的最佳 α 值。

本文提出的方法支持用多個标準(如最小值、最大值和平均值)來确定 Transformer 塊的輸入層歸一化 ( LayerNorm ) 操作的 α 值。

實驗發現,将 α 範圍設為 [ 0.3, 0.7 ] ,步長設為 0.05,對大多數模型來說都能達到很好的平衡。

這一方法有兩個顯著特點:一是全自動化,二是比原始方法支持的融合模式多。

下圖提供了在 BLOOM-1b7 模型上執行 SmoothQuant α 值自動調優的樣例代碼:

△啟用增強型 SmoothQuant 的樣例代碼

用戶只需傳遞一個模型名稱 ( model_name ) 和一個數據加載器。值得注意的是,模型分析主要依靠的是 Torch JIT。用戶可以在加載 Hugging Face [ 15 ] 模型時将 torchscript 設定為 True,或将 return_dict 設定為 False。

更多信息請參閱英特爾 ®  Neural Compressor 文檔 [ 15 ] 。

結果

本文提出的增強型 SmoothQuant 的主要優勢在于提高了準确率。

經過對多種主流大語言模型的評估,具備自動調優能力的 INT8 SmoothQuant 最後一個詞元 ( last-token ) 的預測準确率要高于原始 INT8 SmoothQuant 和 FP32 基線方法。詳見下圖:

△FP32 基線方法、INT8(啟用和不啟用 SmoothQuant)以及 INT8(啟用本文提出的增強型 SmoothQuant)的準确率對比

從上圖可以看出,在 OPT-1.3b 和 BLOOM-1b7 模型上,本文提出的增強型 SmoothQuant 的準确率比默認的 SmoothQuant 分别高 5.4% 和 1.6%。

量化後的模型也縮小到 FP32 模型的四分之一,大大減少了内存占用空間,從而有效地提升大模型在英特爾 ®  平台上的推理性能。

更全面的結果請見 GitHub 存儲庫 [ 16 ] 。同時,也歡迎您創建拉取請求或就 GitHub 問題 [ 17 ] 發表評論。期待聽到您的反饋意見和建議。

了解更多内容,請點擊文末【閱讀原文】。

作者:

英特爾公司人工智能資深架構師沈海豪、英特爾公司人工智能資深軟體工程師程文華、英特爾公司人工智能軟體工程師陸崟彤、何欣、郭恒、王暢、王夢妮,他們都在從事模型量化及壓縮的研究與優化工作。

參考鏈接:

[ 1 ] 英特爾 ® Neural Compressor:

https://www.intel.cn/content/www/cn/zh/developer/tools/oneapi/neural-compressor.html

[ 2 ] 英特爾 ® Extension for TensorFlow:

https://www.intel.cn/content/www/cn/zh/developer/tools/oneapi/optimization-for-tensorflow.html

[ 3 ] 英特爾 ® Extension for PyTorch:

https://www.intel.cn/content/www/cn/zh/developer/tools/oneapi/optimization-for-pytorch.html

[ 4 ] 英特爾 ® 至強 ® 可擴展處理器 :

https://www.intel.cn/content/www/cn/zh/products/details/processors/xeon/scalable.html

[ 5 ] 英特爾 ® 至強 ® CPU Max 系列 :

https://www.intel.cn/content/www/cn/zh/products/details/processors/xeon/max-series.html

[ 6 ] 英特爾 ® 數據中心 GPU Flex 系列 :

https://www.intel.cn/content/www/cn/zh/products/details/discrete-gpus/data-center-gpu/flex-series.html

[ 7 ] 英特爾 ® 數據中心 GPU Max 系列 :

https://www.intel.cn/content/www/cn/zh/products/details/discrete-gpus/data-center-gpu/max-series.html

[ 8 ] 第四代英特 ® 至強 ® 可擴展處理器 :

https://www.intel.cn/content/www/cn/zh/events/accelerate-with-xeon.html

[ 9 ] AI 與内存牆 :

https://medium.com/riselab/ai-and-memory-wall-2cb4265cb0b8

[ 10 ] SmoothQuant 相關文檔 :

https://github.com/intel/neural-compressor/blob/master/docs/source/smooth_quant.md

[ 11 ] SPIQ:

https://arxiv.org/abs/2203.14642

[ 12 ] Outlier Suppression:

https://arxiv.org/abs/2209.13325

[ 13 ] SmoothQuant:

https://arxiv.org/abs/2211.10438

[ 14 ] Hugging Face 模型 :

https://huggingface.co/models

[ 15 ] 英特爾 ® Neural Compressor 文檔 :

[ 16 ] GitHub 存儲庫 :

[ 17 ] GitHub 問題 :

https://github.com/intel/neural-compressor/issues

* 本文系量子位獲授權刊載,觀點僅為作者所有。

—  完  —

量子位  QbitAI

վ ' ᴗ ' ի 追蹤 AI 技術和產品新動态

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們