大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

Llama 3低比特量化性能下降顯著!全面評估結果來了

2024-04-29 简体 HK SG TW

今天小編分享的科學經驗:Llama 3低比特量化性能下降顯著!全面評估結果來了,歡迎閱讀。

QHT 投稿

量子位 | 公眾号 QbitAI

大模型力大磚飛,讓 LLaMA3 演繹出了新高度:

超 15T Token 數據上的超大規模預訓練,既實現了令人印象深刻的性能提升,也因遠超 Chinchilla 推薦量再次引爆開源社區讨論。

與此同時,在實際應用層面上,另一個熱點話題也浮出水面:

資源有限場景下,LLaMA3 的量化表現又會如何?

香港大學、北京航空航天大學、蘇黎世聯邦理工學院聯合推出了一項實證研究,全面揭示了 LLaMA3 的低比特量化性能。

研究人員使用現有的 10 種訓練後量化和 LoRA 微調方法,評估了 LLaMA3 在 1-8 比特和各種評估數據集上的結果。他們發現:

盡管性能令人印象深刻,LLaMA3 在低比特量化下仍然遭受了不可忽視的退化,特别是在超低位寬上。

項目已在 GitHub 上開源,量化模型也已登陸 HuggingFace。

具體來看實證結果。

軌道 1:訓練後量化

表 1 和表 2 中分别提供了 LLaMA3-8B 和 LLaMA3-70B 在 8 種不同的 PTQ 方法下的低比特性能表現,覆蓋了從 1 比特到 8 比特的廣泛比特寬度。

1. 低比特權重

其中,Round-To-Nearest ( RTN ) 是一種基本的舍入量化方法。

GPTQ 是當前最有效率和有效的僅限權重的量化方法之一,它利用量化中的誤差補償。但在 2-3 比特下,當量化 LLaMA3 時,GPTQ 會導致嚴重的準确性崩潰。

AWQ 采用異常通道抑制方法來降低權重量化的難度,而 QuIP 通過優化矩陣計算來确保權重和 Hessian 之間的不一致性。它們都能保持 LLaMA3 在 3 比特時的能力,甚至将 2 比特量化推向有希望的水平。

2. 超低比特權重

最近出現的二值化 LLM 量化方法實現了超低比特寬度 LLM 權重壓縮。

PB-LLM 采用混合精度量化策略,保留一小部分重要權重的全精度,同時将大部分權重量化為 1 比特。

DB-LLM 通過雙重二值化權重分割實現高效的 LLM 壓縮,并提出偏差感知蒸餾策略以進一步增強 2 比特 LLM 性能。

BiLLM 通過顯著權重的殘差逼近和非顯著權重的分組量化,進一步将 LLM 量化邊界推低至 1.1 比特。這些為超低比特寬度專門設計的 LLM 量化方法可以實現更高精度的量化 LLaMA3-8B,在⩽ 2 比特時遠遠超過如 GPTQ、AWQ 和 QuIP 等方法,在 2 比特(甚至在某些情況下 3 比特)下的表現。

3. 低比特量化激活

還通過 SmoothQuant 對量化激活進行了 LLaMA3 評估,SmoothQuant 将量化難度從激活轉移到權重,以平滑激活異常值。評估顯示,SmoothQuant 可以在 8 比特和 6 比特的權重和激活下保留 LLaMA3 的準确性,但在 4 比特時面臨崩潰。

軌道 2:LoRA 微調量化

在 MMLU 數據集上,對于 LoRA-FT 量化下的 LLaMA3-8B,最顯著的觀察是,在 Alpaca 數據集上低秩微調不僅不能補償量化引入的錯誤,甚至使性能下降更加嚴重。

具體來說,各種 LoRA-FT 量化方法在 4 比特下獲得的量化 LLaMA3 性能,比沒有使用 LoRA-FT 的 4 比特對應版本要差。這與 LLaMA1 和 LLaMA2 上的類似現象形成鮮明對比,在 LLAMA1 和 LLAMA2 中,4 比特低秩微調量化版本甚至能輕松超過 MMLU 上的原始 FP16 對應版本。

根據直觀分析,這一現象的主要原因是由于 LLaMA3 強大的性能得益于其大規模的預訓練,這意味着原始模型量化後的性能損失不能通過在一小部分低秩參數數據上進行微調來補償(這可以被視為原始模型的一個子集)。

盡管量化導致的顯著下降不能通過微調來補償,但 4 比特 LoRA-FT 量化的 LLaMA3-8B 在各種量化方法下顯著優于 LLaMA1-7B 和 LLaMA2-7B。例如,使用 QLoRA 方法,4 比特 LLaMA3-8B 的平均準确率為 57.0(FP16: 64.8),超過 4 比特 LLaMA1-7B 的 38.4(FP16: 34.6)18.6,超過 4 比特 LLaMA2-7B 的 43.9(FP16: 45.5)13.1。這表明在 LLaMA3 時代需要一種新的 LoRA-FT 量化範式。

在 CommonSenseQA 基準測試中也出現了類似的現象。與沒有使用 LoRA-FT 的 4 比特對應版本相比,使用 QLoRA 和 IR-QLoRA 微調的模型性能也有所下降(例如,QLoRA 平均下降 2.8% vs IR-QLoRA 平均下降 2.4%)。這進一步展示了在 LLaMA3 中使用高質量數據集的優勢,而且通用數據集 Alpaca 并沒有對模型在其他任務中的性能作出貢獻。

結論

這篇論文全面評估了 LLaMA3 在各種低比特量化技術(包括訓練後量化和 LoRA 微調量化)中的性能。

此研究發現表明,盡管 LLaMA3 在量化後仍然展現出優越的性能,但與量化相關的性能下降是顯著的,甚至在許多情況下可以導致更大的下降。

這一發現突顯了在資源受限環境中部署 LLaMA3 可能面臨的潛在挑戰,并強調了在低比特量化背景下增長和改進的充足空間。通過解決低比特量化引起的性能下降,預期後續的量化範式将使 LLMs 在較低的計算成本下實現更強的能力,最終推動代表性的生成式人工智能達到新的高度。

論文鏈接:

https://arxiv.org/abs/2404.14047

項目鏈接:

https://github.com/Macaronlin/LLaMA3-Quantization

https://huggingface.co/LLMQ

—  完  —

投稿請發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們