大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

80G顯存塞50個7B大模型!清華&OpenBMB開源增量壓縮新算法,顯存節省8倍

2024-11-29 简体 HK SG TW

今天小編分享的科學經驗:80G顯存塞50個7B大模型!清華&OpenBMB開源增量壓縮新算法,顯存節省8倍,歡迎閱讀。

最新模型增量壓縮技術,一個80G 的 A100 GPU能夠輕松加載多達50 個 7B 模型,節省顯存約 8 倍,同時模型性能幾乎與壓縮前的微調模型相當。

清華大學 NLP 實驗室攜手 OpenBMB 開源社區、北京大學和上海财經大學的研究團隊,提出Delta-CoMe。

這項技術的核心在于利用主幹模型與任務專用模型之間參數增量(即 Delta)的特點進行壓縮,從而實現存儲開銷和部署成本的大幅降低。不僅有助于解決資源瓶頸問題,更為多任務處理和模型部署開辟新的可能。

具體而言,Delta-CoMe 将低秩分解和低比特量化技術相結合,充分利用 Delta 參數的低秩特性,提出了一種全新的混合精度壓縮方法。這種方法不僅能夠實現接近無損的任務性能,還能顯著提升推理效率。

Delta-CoMe 方法介紹

微調是增強預訓練模型的重要手段,不同任務往往需要不同的微調方式。例如 Luo et al. [ 1 ] 提出 RLEIF 通過 Evove-instruction 來增強模型數學推理能力;Wei et al. [ 2 ] 利用 Code snnipet 合成高質量的指令數據來增加模型的代碼能力。然而,這些方法通常依賴高質量數據,并需要精心設計的策略才能實現顯著的效果。

在一些場景中往往需要具有不同能力的 LLM 同時處理問題,例如多租戶場景,多任務場景以及端側場景等等。一種自然的解決方案是部署單個通用模型作為主幹,配合多個具有專有能力的 Delta。

以 Bitdelta [ 3 ] 為例,它通過将模型的 Delta 壓縮到 1-bit,有效保留了模型在問答等場景中的能力。盡管該壓縮方法在存儲和推理效率上表現出色,其在更復雜的任務(如數學推理和代碼生成)上仍存在明顯的能力瓶頸。

針對這一挑戰,THUNLP 實驗室聯合北京大學和上海财經大學提出 Delta-CoMe。這一方法結合低秩分解和低比特量化技術,不僅顯著提升了模型在復雜任務上的表現,還兼顧了壓縮效率和實際應用需求,為模型的高效部署提供了一種新思路。

與前人的方法相比,Delta-CoMe 方法的優點在于:

結合低秩與低比特量化,利用了 Delta 低秩的特點,并發現低秩分解後的 Delta 是長尾分布的;之後采用混合精度量化進一步壓縮

性能幾乎無損,相比于 BitDelta 等方法,在 Math, Code, Multi-modal 等復雜任務上,性能與壓縮前的微調模型表現基本接近

推理速度提升,為混合精度量化實現了 Triton kernel 算子,對比 Pytorch 的實現方式,帶來近 3 倍的推理速度提升

超過 Delta-tuning,支持多精度 Backbone,Delta-CoMe 在效果上顯著優于 LoRA 微調,并可以用在多種精度的 Backbone 上

具體而言,Delta-CoMe 首先采用 SVD 進行低秩分解,Delta 具有低秩性,經過低秩分解之後,其特征值呈現出長尾分布的規律,僅有少數較大奇異值對應的奇異向量對最終的結果貢獻較大。

一個自然的想法,我們可以根據奇異值的大小進行混合精度量化,将較大的奇異值對應的奇異向量用較高精度表示,而較小的奇異值對應的奇異向量用較低精度表示。

實驗結果

多個開源模型和 Benchmark 的實驗驗證了該方法的有效性。

使用 Llama-2 作為主幹模型,在數學、代碼、對話、多模态等多個任務中進行實驗,Delta-CoMe 展現出平均幾乎無損的性能。下面分别是 7B 模型和 13B 模型的實驗效果。

此外,還在 Mistral、Llama-3 等其它主幹模型上對不同的壓縮方法進行了驗證。

為了提升混合精度量化的計算效率,實現一個 Triton Kernel,相比于 Pytorch 的實現方式,推理速度提升了約 3 倍。

實驗結果表明,使用一塊 80G 的 A100 GPU 可以加載 50 個 7B 模型。

最後,還比較了 Delta-Tuning 和 Delta-Compression 的效果差異(Delta-Tuning 指的是通過訓練部分參數進行微調,Delta-Compression 指的是先進行全參數微調,再将微調帶來的模型參數增量進行壓縮)。其中 Delta-Tuning 采用的是 LoRA。Delta-CoMe 對比 LoRA 在相同的存儲開銷下,性能顯著提升。

Delta-CoMe 通過結合低秩分解和低比特量化,不僅實現了大幅度的存儲壓縮,還在復雜任務如數學推理、代碼生成和多模态任務上維持了與壓縮前模型相當的性能表現。相比于傳統的微調方法,Delta-CoMe 展現出了更高的靈活性,尤其在多租戶和多任務場景中具有顯著的應用價值。此外,借助 Triton kernel 的優化,推理速度得到了顯著提升,使得部署大規模模型成為可能。未來,這一方法的潛力不僅在于進一步優化模型存儲和推理速度,也有望在更廣泛的實際應用中推動大語言模型的普及和高效運作。

參考文獻

[ 1 ] Yu, L., Jiang, W., Shi, H., Jincheng, Y., Liu, Z., Zhang, Y., Kwok, J., Li, Z., Weller, A., and Liu, W.Metamath: Bootstrap your own mathematical questions for large language models. In The Twelfth International Conference on Learning Representations, 2023.

[ 2 ] Luo, Z., Xu, C., Zhao, P., Sun, Q., Geng, X., Hu, W., Tao, C., Ma, J., Lin, Q., and Jiang, D. Wizardcoder: Empowering code large language models with evol-instruct. arXiv preprint arXiv:2306.08568, 2023b

[ 3 ] Liu, J., Xiao, G., Li, K., Lee, J. D., Han, S., Dao, T., and Cai, T. Bitdelta: Your fine-tune may only be worth one bit. arXiv preprint arXiv:2402.10193, 2024b.

Paper 鏈接:https://arxiv.org/abs/2406.08903

Github 鏈接:https://github.com/thunlp/Delta-CoMe

—  完  —

投稿請發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們