大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

老顯卡福音!美團開源首發INT8無損滿血版DeepSeek R1

2025-03-04 简体 HK SG TW

今天小編分享的科學經驗:老顯卡福音!美團開源首發INT8無損滿血版DeepSeek R1,歡迎閱讀。

滿血版 DeepSeek R1 部署A100,基于 INT8 量化,相比 BF16 實現50% 吞吐提升!

美團搜推機器學習團隊最新開源,實現對 DeepSeek R1 模型基本無損的 INT8 精度量化。

要知道,DeepSeek R1 原生版本的模型權重為 FP8 數據格式,對 GPU 芯片類型有嚴格限制,僅能被英偉達新型 GPU 支持(如 Ada、Hopper 架構芯片),其他型号 GPU(如 A100)無法直接部署。

目前,量化代碼已經合入到了開源 LLM 推理框架 SGLang,量化模型已經發布到了 Hugging Face 社區,方便用戶使用。

INT8: 友好的 " 平替 "

根據 DeepSeek 最新發布的技術報告,V3/R1 突破性的訓練成本控制主要依托 FP8 精度訓練方案。FP8 是一種典型的模型量化技術,相較于業界常用的 BF16 精度,FP8 精度通過将數據位寬減半顯著降低了單次計算開銷,但也會帶來一定的精度損失。

在實踐中,DeepSeek R1 采用了混合精度訓練機制有效緩解了精度損失問題。

為了繼續保持高吞吐性能,美團技術團隊選擇了和 FP8 精度等位寬的 INT8 精度。同時,INT8 精度被廣泛硬體原生支持,基于 INT8 精度可以極大拓展 DeepSeek 模型的硬體部署範圍。以硬體友好的 INT8 精度為中心,美團技術團隊開始探索 FP8" 平替 " 的落地方案。

量化技術的探索

具體來說,分塊量化(Block-wise Quantization)是 DeepSeek V3/R1 降低量化損失的關鍵技術之一。分塊量化通過對權重矩陣的細粒度切分,将量化操作的範圍控制在 [ 128, 128 ] 的矩陣内,減少了分布分散的出現概率,從而很好地控制了每次量化過程中的損失。

美團技術團隊延續了 DeepSeek 訓練的量化策略,同樣在 [ 128, 128 ] 的矩陣内進行分塊量化操作,保證訓練和推理的一致性。在量化目标的選型上,INT8 的優勢在于其與 FP8 享有相同的位寬,且大部分硬體都對 INT8 的數據計算原生支持。

在實踐中,由于 DeepSeek 官方并沒有提供半精度浮點型(BF16)的權重,因此首先需要将原生的 FP8 模型權重反量化成 BF16,再分塊量化成 INT8 類型。另外在推理過程中,為了匹配權重的分塊量化,激活值采用在線逐 token-group 的量化方式,即每個 token 的嵌入向量分為多個組,逐組進行量化。分塊量化的激活值和權重的乘法過程如下左圖所示。

除了上述的分塊量化外,美團技術團隊還探索了更高效的通道量化(Channel-wise Quantization),即權重的每列為一組進行量化。

通道量化在執行完 INT8 的矩陣乘法後,只需進行一次反量化計算,計算開銷更低。在具體實踐中,同樣地先将原生 FP8 的模型權重反量化成 BF16,之後逐通道量化成 INT8 類型。同時,對激活值采用在線逐 token 量化,最大程度地減少 activation 的量化損失。通道量化的激活值和權重的乘法過程如下右圖所示。

目前,兩種 INT8 量化權重均已開源到 Hugging Face。

INT8 量化模型精度

分别應用上述的兩種量化方法,對開源的 DeepSeek R1 模型進行了 INT8 量化處理,并在 GSM8K 和 MMLU 兩個數據集上對量化後的模型進行了精度評估。評估結果如下表所示,相比基線的 BF16 和 FP8 模型,兩種 INT8 量化模型的精度基本無損。

注:表中的精度結果是多次測試的均值。

INT8 量化模型推理吞吐

在知名開源推理框架 SGLang 上,對上述兩種 INT8 量化方法進行了推理支持,并進行了推理吞吐評估。SGLang 是當前 SOTA 的開源 LLM 推理框架,在 DeepSeek 系列模型上有着最優的推理性能,被業界廣泛使用。

在 A100 GPU 上對兩種 INT8 模型和 BF16 模型進行推理吞吐評估。得益于更低的顯存要求,INT8 量化模型僅需要 16 張 A100 GPU 即可推理,但是 BF16 模型需要 32 張 A100 GPU。為了比較的公平性,統一在 32 張 A100 GPU 上進行吞吐測試。結果如下表所示,分塊量化的 INT8 推理相比 BF16 可以提升 33% 的吞吐;通道量化的 INT8 推理可以進一步達到 50% 的吞吐提升。

INT8 量化模型部署

以雙節點各 8 張 A100 GPU 為例,開發者需要在雙部署節點安裝最新版本的 SGLang,然後分别執行下面命令:

# 分塊量化 INT8 推理 # 主節點 python3 -m sglang.launch_server --model meituan/DeepSeek-R1-Block-INT8 --tp 16 --dist-init-addr HEAD_IP:5000 --nnodes 2 --node-rank 0 --trust-remote --enable-torch-compile --torch-compile-max-bs 8# 副節點 python3 -m sglang.launch_server --model meituan/DeepSeek-R1-Block-INT8 --tp 16 --dist-init-addr HEAD_IP:5000 --nnodes 2 --node-rank 1 --trust-remote --enable-torch-compile --torch-compile-max-bs 8

# 通道量化 INT8 推理 # 主節點 python3 -m sglang.launch_server --model meituan/DeepSeek-R1-Channel-INT8 --tp 16 --dist-init-addr HEAD_IP:5000 --nnodes 2 --node-rank 0 --trust-remote --enable-torch-compile --torch-compile-max-bs 8 --quantization w8a8_int8# 副節點 python3 -m sglang.launch_server --model meituan/DeepSeek-R1-Channel-INT8 --tp 16 --dist-init-addr HEAD_IP:5000 --nnodes 2 --node-rank 1 --trust-remote --enable-torch-compile --torch-compile-max-bs 8 --quantization w8a8_int8

下面是一些有趣的 case:

深度思考能力展示

這裡以 curl 為例發送一條請求:

curl -X POST 'http://HEAD_IP:5000/v1/chat/completions' --header 'Content-Type: application/json' -d '{ "model": "deepseek-r1",      "messages": [ {"role": "user","content": " 下列選項中,找出與眾不同的一個:1. 鋁 2. 錫 3. 鋼 4. 鐵 5. 銅 " } ] }'

在 INT8 R1 的回答中(由于篇幅限制省略部分内容),能看到其風格獨特的反思:

不過,我需要确認這一點是否正确。比如,有沒有可能其他選項中也有合金?比如,錫有時候會和其他金屬混合使用,但錫本身是純金屬。同樣,鋁、鐵、銅都是純金屬。所以鋼作為合金,應該是一個關鍵的不同點。另外,可以考慮其他屬性,比如它們的用途、物理性質或化學性質。例如,導電性:銀是最好的導體,但這裡沒有銀,而銅的導電性也很好,鋁也不錯,鐵和鋼的導電性相對差一些。但這樣分類的話,可能難以确定哪一個不同。……不過回到最初的分類,鋼是唯一的合金,而其他都是純金屬,這一點可能更為基礎。因此答案應該是 3. 鋼。不過需要再驗證一下這個結論是否正确。

最終答案也是正确的:

答案:3. 鋼

模拟海量小球運動

參考其他 LLM 測試的 prompts 作為輸入,對比 INT8(上)和 FP8(下)輸出代碼的運行效果,INT8 完全不遜于 FP8。

write a script for 100 bouncing balls within a sphere, make sure to handle collision detection properly. make the sphere slowly rotate. make sure balls stays within the sphere. implement it in p5.js

總結與展望

綜上,研究團隊在 DeepSeek R1 上進行了 INT8 量化技術的探索,并基于 SGLang 框架進行了推理能力的支持,在保證量化後模型精度的前提下,讓 DeepSeek R1 可以在如 A100 等老型号 GPU 上進行部署,并且提升了推理吞吐。我們希望開源的代碼和權重可以讓更多用戶和業務方受益,也歡迎大家積極交流相關技術,共同建設、回饋開源社區。

交流郵箱:[email protected]

參考文獻

[ 1 ] 技術報告:Liu A, Feng B, Xue B, et al. Deepseek-v3 technical report [ J ] . arXiv preprint arXiv:2412.19437, 2024.

[ 2 ] Hugging Face:https://huggingface.co/meituan/DeepSeek-R1-Block-INT8,https://huggingface.co/meituan/DeepSeek-R1-Channel-INT8

[ 3 ] 推理支持:Block-wise INT8 DeepSeek R1 支持(https://github.com/sgl-project/sglang/pull/3730)、Channel-wise INT8 DeepSeek R1 支持(https://github.com/sgl-project/sglang/pull/3888)

[ 4 ] 其他 LLM 測試:https://qwenlm.github.io/blog/qwq-max-preview/

—  完  —

學術投稿請于工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

一鍵關注 點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們