大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

DeepSeek-R1秘籍輕松遷移,最低只需原始數據0.3%

2025-02-25 简体 HK SG TW

今天小編分享的科學經驗:DeepSeek-R1秘籍輕松遷移,最低只需原始數據0.3%,歡迎閲讀。

DeepSeek-R1 背後關鍵——多頭潛在注意力機制(MLA),現在也能輕松移植到其他模型了!

而且只需原始數據的 0.3%~0.6%。

這項研究由復旦大學、華東師範大學、上海 AI Lab 等聯合提出,復旦教授邱錫鵬(Moss 大模型項目負責人)也在作者名單之列。

他們提出了MHA2MLA這種數據高效的微調方法,使基于 MHA(多頭注意力)的大語言模型(LLMs)能夠順利轉換到 MLA 架構。

以 Llama2-7B 為例,MHA2MLA 在降低推理成本(如減少 KV 緩存大小 92.19%)的同時,能将性能損失控制在較小範圍(如 LongBench 性能僅下降 0.5%)。

具體咋回事,下面我們接着看。

掌握 DeepSeek 核心秘訣

多頭注意力 MHA(Multi-Head Attention)是 Transformer 架構中的一個核心組件,允許模型同時關注輸入的不同部分,每個注意力頭都獨立地學習輸入序列中的不同特征。

然而,随着序列長度的增長,鍵值(Key-Value,KV)緩存的大小也會線性增加,這給模型帶來了顯著的内存負擔。

為了解決 MHA 在高計算成本和 KV 緩存方面的局限性,DeepSeek 突破性地引入了多頭潛在注意力機制 MLA。

簡單説,MLA 最大創新之處在于:

利用低秩聯合壓縮鍵值技術,減少了推理時的 KV 緩存,從而在保持性能的同時顯著降低内存占用。

這一技術也被視為 DeepSeek-V3、DeepSeek-R1 等當紅炸子雞模型背後的關鍵。

而現在,為了進一步降低其他 LLMs 的推理成本,研究人員開發了一種能将采用 MHA 的模型快速适配 MLA 架構的方法——MHA2MLA。

這一數據微調方法包含兩個關鍵部分:

partial-RoPE,即從對注意力分數貢獻較小的查詢和鍵的維度中移除旋轉位置嵌入(RoPE);

低秩近似,基于預訓練的鍵和值參數引入聯合奇異值分解(SVD)近似。

先説第一個。Transformer 架構中,RoPE(旋轉位置編碼,Rotary Position Embedding )   通過旋轉操作将位置信息融入查詢向量 Q 和鍵向量 K ,幫助模型捕捉序列位置關系。

但研究發現,在計算注意力分數時,并非所有維度的 RoPE 對結果貢獻相同。

換句話説,即使去除那些對注意力分數影響較小的部分維度的 RoPE,理論上不會對模型理解上下文的能力造成關鍵影響。

基于此,研究人員通過計算敏感度指标來确定哪些維度的 RoPE 貢獻較小。

具體而言,對于每個維度,計算 RoPE 變化時注意力分數的變化程度。一旦變化程度低于特定阈值的維度,即被判定為對注意力分數貢獻小。在後續計算中,這些維度将不再應用 RoPE。

最終實驗證明,partial-RoPE 這一策略在不顯著影響模型性能的前提下,減少了計算量。

再説低秩近似策略。

該方法基于預訓練的鍵和值參數,引入聯合奇異值分解(SVD)近似。

SVD 是一種矩陣分解技術,通過對鍵值矩陣進行 SVD 分解,可以用低秩矩陣近似原始矩陣,從而減少參數數量。

具體實現中,研究人員首先提取預訓練模型中的鍵和值參數矩陣,對這些矩陣進行聯合 SVD 分解;然後根據模型的性能和壓縮需求,構建低秩近似矩陣,用這些低秩近似矩陣替代原始的鍵值矩陣參與後續計算。

最終結果顯示,此舉有效降低了模型推理時的計算量和内存占用。

性能幾乎不變,将 Llama2 KV 緩存減少 90% 以上

實驗環節也驗證了 MHA2MLA 方法的有效性。

能在顯著降低推理成本的同時,保持甚至提升模型性能。

研究人員選取了用 MHA 或 GQA 預先訓練的不同規模(135M-7B)的 LLMs,然後設定了對照組。

一組是基于傳統 MHA 的原始模型,用于直接對比 MHA2MLA 方法在相同任務和數據集上的性能表現;另一組是采用分組查詢注意力(GQA)的模型,GQA 作為 MHA 的變體,在一定程度上優化了計算成本,将其與 MHA2MLA 對比,能更清晰地展現 MHA2MLA 的優勢。

在評估其常識性推理能力的六個基準測試中,研究發現:

與原始 LLMs 性能相比,四個基礎模型的性能變化極小,135M 模型性能下降 0.25%,360M、1B7 和 7B 模型分别有 0.03% 、0.03% 和 0.37% 的性能提升或保持。

這表明微調數據未顯著影響原模型性能,MHA2MLA 能有效實現架構遷移,而且微調數據僅需預訓練數據的 0.3%-0.6%。

甚至,較大模型在轉換到 MLA 架構時性能下降更少,這説明這一方法對規模更大的模型更有效。

此外,在長文本生成能力評估中,以 LongBench 為基準,MHA2MLA 相比訓練後量化方法,在壓縮率和精度平衡上表現出色。

當 dkv=16 時,MHA2MLA 可實現 87.5% 的壓縮率,精度損失僅 3%;與 4-bit 量化結合後,壓縮率可達 92.19%(dkv=64 + Int4HQQ)和 96.87%(dkv=16 + Int4HQQ),精度損失分别為 -0.5% 和 -3.2%,優于所有 2-bit 量化的基線模型。

這也反映了 MHA2MLA 方法能夠與量化技術良好兼容。

綜合以上實驗,可以看到以 Llama2-7B 為例,MHA2MLA 在降低推理成本(如減少 KV 緩存大小 92.19%)的同時,能将性能損失控制在較小範圍(如 LongBench 性能僅下降 0.5%)。

不過,論文也提到了研究局限性。

受計算資源限制,未在更大、更多樣化的開源大語言模型上驗證 MHA2MLA;且由于 Deepseek 未開源 MLA 的張量并行推理框架,難以探索大于 7B 的模型。

下一步,研究人員計劃在更多模型上進行驗證。

感興趣的童鞋可以查看原論文 ~

論文:

https://arxiv.org/abs/2502.14837

代碼:

https://github.com/JT-Ushio/MHA2MLA

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們