大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

DeepSeek-R1秘籍轻松迁移,最低只需原始数据0.3%

2025-02-25 简体 HK SG TW

今天小编分享的科学经验:DeepSeek-R1秘籍轻松迁移,最低只需原始数据0.3%,欢迎阅读。

DeepSeek-R1 背后关键——多头潜在注意力机制(MLA),现在也能轻松移植到其他模型了!

而且只需原始数据的 0.3%~0.6%。

这项研究由复旦大学、华东师范大学、上海 AI Lab 等联合提出,复旦教授邱锡鹏(Moss 大模型项目负责人)也在作者名单之列。

他们提出了MHA2MLA这种数据高效的微调方法,使基于 MHA(多头注意力)的大语言模型(LLMs)能够顺利转换到 MLA 架构。

以 Llama2-7B 为例,MHA2MLA 在降低推理成本(如减少 KV 缓存大小 92.19%)的同时,能将性能损失控制在较小范围(如 LongBench 性能仅下降 0.5%)。

具体咋回事,下面我们接着看。

掌握 DeepSeek 核心秘诀

多头注意力 MHA(Multi-Head Attention)是 Transformer 架构中的一个核心组件,允许模型同时关注输入的不同部分,每个注意力头都独立地学习输入序列中的不同特征。

然而,随着序列长度的增长,键值(Key-Value,KV)缓存的大小也会线性增加,这给模型带来了显著的内存负担。

为了解决 MHA 在高计算成本和 KV 缓存方面的局限性,DeepSeek 突破性地引入了多头潜在注意力机制 MLA。

简单说,MLA 最大创新之处在于:

利用低秩联合压缩键值技术,减少了推理时的 KV 缓存,从而在保持性能的同时显著降低内存占用。

这一技术也被视为 DeepSeek-V3、DeepSeek-R1 等当红炸子鸡模型背后的关键。

而现在,为了进一步降低其他 LLMs 的推理成本,研究人员开发了一种能将采用 MHA 的模型快速适配 MLA 架构的方法——MHA2MLA。

这一数据微调方法包含两个关键部分:

partial-RoPE,即从对注意力分数贡献较小的查询和键的维度中移除旋转位置嵌入(RoPE);

低秩近似,基于预训练的键和值参数引入联合奇异值分解(SVD)近似。

先说第一个。Transformer 架构中,RoPE(旋转位置编码,Rotary Position Embedding )   通过旋转操作将位置信息融入查询向量 Q 和键向量 K ,帮助模型捕捉序列位置关系。

但研究发现,在计算注意力分数时,并非所有维度的 RoPE 对结果贡献相同。

换句话说,即使去除那些对注意力分数影响较小的部分维度的 RoPE,理论上不会对模型理解上下文的能力造成关键影响。

基于此,研究人员通过计算敏感度指标来确定哪些维度的 RoPE 贡献较小。

具体而言,对于每个维度,计算 RoPE 变化时注意力分数的变化程度。一旦变化程度低于特定阈值的维度,即被判定为对注意力分数贡献小。在后续计算中,这些维度将不再应用 RoPE。

最终实验证明,partial-RoPE 这一策略在不显著影响模型性能的前提下,减少了计算量。

再说低秩近似策略。

该方法基于预训练的键和值参数,引入联合奇异值分解(SVD)近似。

SVD 是一种矩阵分解技术,通过对键值矩阵进行 SVD 分解,可以用低秩矩阵近似原始矩阵,从而减少参数数量。

具体实现中,研究人员首先提取预训练模型中的键和值参数矩阵,对这些矩阵进行联合 SVD 分解;然后根据模型的性能和压缩需求,构建低秩近似矩阵,用这些低秩近似矩阵替代原始的键值矩阵参与后续计算。

最终结果显示,此举有效降低了模型推理时的计算量和内存占用。

性能几乎不变,将 Llama2 KV 缓存减少 90% 以上

实验环节也验证了 MHA2MLA 方法的有效性。

能在显著降低推理成本的同时,保持甚至提升模型性能。

研究人员选取了用 MHA 或 GQA 预先训练的不同规模(135M-7B)的 LLMs,然后設定了对照组。

一组是基于传统 MHA 的原始模型,用于直接对比 MHA2MLA 方法在相同任务和数据集上的性能表现;另一组是采用分组查询注意力(GQA)的模型,GQA 作为 MHA 的变体,在一定程度上优化了计算成本,将其与 MHA2MLA 对比,能更清晰地展现 MHA2MLA 的优势。

在评估其常识性推理能力的六个基准测试中,研究发现:

与原始 LLMs 性能相比,四个基础模型的性能变化极小,135M 模型性能下降 0.25%,360M、1B7 和 7B 模型分别有 0.03% 、0.03% 和 0.37% 的性能提升或保持。

这表明微调数据未显著影响原模型性能,MHA2MLA 能有效实现架构迁移,而且微调数据仅需预训练数据的 0.3%-0.6%。

甚至,较大模型在转换到 MLA 架构时性能下降更少,这说明这一方法对规模更大的模型更有效。

此外,在长文本生成能力评估中,以 LongBench 为基准,MHA2MLA 相比训练后量化方法,在压缩率和精度平衡上表现出色。

当 dkv=16 时,MHA2MLA 可实现 87.5% 的压缩率,精度损失仅 3%;与 4-bit 量化结合后,压缩率可达 92.19%(dkv=64 + Int4HQQ)和 96.87%(dkv=16 + Int4HQQ),精度损失分别为 -0.5% 和 -3.2%,优于所有 2-bit 量化的基线模型。

这也反映了 MHA2MLA 方法能够与量化技术良好兼容。

综合以上实验,可以看到以 Llama2-7B 为例,MHA2MLA 在降低推理成本(如减少 KV 缓存大小 92.19%)的同时,能将性能损失控制在较小范围(如 LongBench 性能仅下降 0.5%)。

不过,论文也提到了研究局限性。

受计算资源限制,未在更大、更多样化的开源大语言模型上验证 MHA2MLA;且由于 Deepseek 未开源 MLA 的张量并行推理框架,难以探索大于 7B 的模型。

下一步,研究人员计划在更多模型上进行验证。

感兴趣的童鞋可以查看原论文 ~

论文:

https://arxiv.org/abs/2502.14837

代码:

https://github.com/JT-Ushio/MHA2MLA

熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們