大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

清華開源混合精度推理系統MixQ,實現大模型近無損量化并提升推理吞吐

2024-10-22 简体 HK SG TW

今天小編分享的科學經驗:清華開源混合精度推理系統MixQ,實現大模型近無損量化并提升推理吞吐,歡迎閲讀。

一鍵部署 LLM 混合精度推理,端到端吞吐比 AWQ 最大提升 6 倍!

清華大學計算機系 PACMAN 實驗室發布開源混合精度推理系統——MixQ。

MixQ 支持 8 比特和 4 比特混合精度推理,可實現近無損的量化部署并提升推理的吞吐。

△圖 1 MixQ 吞吐與已有開源工作比較

MixQ 同時量化權重和激活,使用低精度張量核心(INT8/INT4 Tensor Core)實現推理加速;同時,MixQ 提取激活中少量的離群值,使用高精度張量核心(FP16 Tensor Core)保持推理準确性,通過系統優化掩蓋高精度訪存開銷。

不僅保持推理的準确性,而且通過使用低精度算力有效提升吞吐,充分發揮硬體計算潛力(圖 1)。

同時,研究團隊提供了基于 VLLM 和 Tensorrt-LLM 的混合精度推理,用户可以方便地一鍵部署模型。

△圖 2 使用 VLLM 一鍵部署 4 比特和 8 比特混合精度量化并推理

MixQ 已支持多個主流大模型 LLaMA3,Qwen2,Baichuan2,ChatGLM 等。據了解,目前 MixQ 開源技術已被清程極智等 AI 行業公司應用在實際產品中。

該工作同時于高性能計算領網域頂級國際會議 SC ’ 24 發表,第一作者清華大學博士後陳逸東、通訊作者為翟季冬教授。

研究背景:已有量化技術總結

量化的主要技術路線有兩條,第一條是權重量化。

權重量化的理論加速比是 16/ 量化的比特數。例如,将模型壓縮成為 4bit,那麼理論加速比為 16/4=4 倍。

然而,當服務商面臨大量的用户同時訪問時,權重量化的系統吞吐會低于 FP16 的吞吐,其主要原因是權重量化計算過程中将低精度權重恢復成 FP16 然後計算,這導致權重量化并不使用低精度算力,當場景表現為 compute bound 的時候,性能較低。

△圖 3 用户請求多權重量化吞吐低于 FP16

第二條技術路線是量化權重和激活,使用低精度的張量核心來提升系統的吞吐。

直接将激活量化為低比特可能會出現較大的精度損失。其原因在于激活矩陣中存在離群值(圖 4)。

一個有效的方法是 SmoothQuant,主要思想是通過平滑激活矩陣來降低量化激活的誤差。

△圖 4 激活矩陣中存在離群值

混合精度量化則是一類全新的量化方法,該方案先做了一個矩陣分解,對絕大部分權重和激活用低比特存儲,将離群值用 FP16 存儲,分别做矩陣乘法。

△圖 5 混合精度量化示意圖

混合精度量化的一個優勢就是可以實現近乎無損精度的量化。使用混合精度量化的 LlaMA 模型在 MMLU 20 個領網域上的數據集進行推理準确率測試表明,采用 8bit 混合精度量化後的準确率下降不到 0.1%:

△圖 6 混合精度量化分類準确率

不過,此前已有的混合精度量化的系統的性能普遍不高,主要瓶頸在針對離群點進行查找、訪存和計算的開銷占比大。

以混合精度庫 Bitsandbytes 為例,實測試表明,Bitsandbytes 在用户請求數量為 512 時僅有 1.08 倍的加速。

△圖 7 Bitsandbytes 的在 LLaMA70B 上的 Kernel 性能測試

△圖 8 Atomic operator 是混合精度推理系統的瓶頸之一

那麼,如何優化對離群點的查找、訪存和計算的開銷呢?

MixQ 的解決方案

MixQ 的核心思想是基于離群點的局部性對混合精度的計算圖做等價變換,使得變換後的混合精度的計算圖可以避免離群點查找的額外開銷;在此基礎上,通過圖層融合和設計高效的混合精度數據結構降低訪存開銷;最後通過 CUTLASS 生成高性能的混合精度算子,達到提升系統性能的效果。

MixQ 的設計基于以下的觀察:

離群點的局部性。對 LLM 的激活矩陣分析發現,在不同的 decode 階段的離群點的分布是有規律的。

如圖 9,紅色的點表示的是第一次出現的離群點,綠色的點表示的是重復出現的離群點,随着 decode 的進行,多數離群點出現在了固定的 channel。

△圖 9 decode 階段離群點的分布規律

因此,研究人員得到一個重要的結論:在大部分的 decode 階段是不需要重復檢測離群點的,也就是説我們可以避免檢查離群點的開銷。

剩下的問題是,如何知道哪些時候不需要重復檢查離群點呢?這個答案就隐藏在量化系數中。

在量化的過程中需要對矩陣進行 amax 的操作。因此,通過 amax 得到的結果可以判斷矩陣中是否存在離群點。如 amax 的值大于阈值,那矩陣中存在離群點。反之則不存在。

更重要的是,amax 操作可以和前一個操作融合。這樣不僅以極低的代價檢測離群點的存在,還通過對圖層進行融合來降低量化的開銷。

基于以上的分析,MixQ 的設計使用了三個關鍵技術:

一是對計算圖的等價變換。

針對混合精度的計算邏輯進行了等價變換以後,通過計算激活矩陣的 amax 的值,避免了檢測離群點的開銷。

△圖 10 優化混合精度的計算邏輯

二是設計混合精度數據結構。

MixQ 将離群點 " 拼接 " 成了一個新的矩陣。這一方法相較于 ATOM 采用的重排列(reorder)具有更低的開銷。

△圖 11 MixQ:order-reserved 數據結構

三是使用 CUTLASS 編寫高性能的混合精度的算子,這一關鍵技術的實現依賴于 NVIDIA 提供的高性能矩陣乘法模板 CUTLASS 3.x。

MixQ 在寄存器中反量化低精度的計算結果并與高精度的結果進行相加。

△圖 12 融合 dequantize、scale 和 add 操作

下面來看 MixQ 的實驗結果,以 LLaMA 70B 為例。

在準确率表現方面,MixQ 的準确率和 Bitsandbytes 一致。

△圖 13 MixQ 的推理精度

在性能表現方面,MixQ 8bit kernel 是 Bitsandbytes 的 1.9 倍。

MixQ 4bit Kernel 的性能達 724TFLOPs,是 FP16 的 3.13 倍。

△圖 14 MixQ Kernel 性能

端到端測試下,MixQ 在 batch=512 相對 Bitsandbytes 和 AWQ 加速 1.78 和 6 倍。

△圖 15 多 batch 測試;上:MIXQ 的推理輸出(19.21it/s);下:FP16 的推理輸出 (13.56it/s)

項目地址:

[ 1 ] https://github.com/Qcompiler/MixQ_Tensorrt_LLM

[ 2 ] https://github.com/Qcompiler/MIXQ

[ 3 ] https://github.com/Qcompiler/vllm-mixed-precision

—  完  —

投稿請發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點這裏關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們