大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破大模型推理门槛

2025-02-13 简体 HK SG TW

今天小编分享的科学经验:4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破大模型推理门槛,欢迎阅读。

DeepSeek-R1 火遍海内外,但推理伺服器频频宕机,专享版按 GPU 小时计费的天价成本更让中小团队望而却步。

而市面上所谓 " 本地部署 " 方案,多为参数量缩水 90% 的蒸馏版,背后原因是 671B 参数的 MoE 架构对显存要求极高——即便用 8 卡 A100 也难以负荷。因此,想在本地小规模硬體上跑真正的 DeepSeek-R1,被认为基本不可能。

但就在近期,清华大学 KVCache.AI 团队联合趋境科技发布的KTransformers开源项目公布更新:

支持 24G 显存在本地运行 DeepSeek-R1、V3 的 671B 满血版。预处理速度最高达到286 tokens/s,推理生成速度最高能达到14 tokens/s。

其实早在 DeepSeek-V2 时代,这个项目就因 " 专家解除安裝 " 技术而备受关注——它支持了 236B 的大模型在仅有 24GB 显存的消费级显卡上流畅运行,把显存需求砍到 10 分之一。

△HuggingFace 的开源负责人的点赞

随着 DeepSeek-R1 的发布,社区的需求迅速激增,在 GitHub 盖起上百楼的 issue,呼吁对其进行支持。

版本更新发布后,不少开发者也纷纷用自己的 3090 显卡和 200GB 内存进行实测,借助与 Unsloth 优化的组合,Q2_K_XL 模型的推理速度已达到 9.1 tokens/s,真正实现了千亿级模型的 " 家庭化 "。

此外,KTransformers 团队还公布了 v0.3 预览版的性能指标,将通过整合 Intel AMX 指令集,CPU 预填充速度最高至 286 tokens/s,相比 llama.cpp 快了近 28 倍。对于那些需要处理上万级 Token 上下文的长序列任务(比如大规模代码库分析)来说,相当于能够从 " 分钟级等待 " 瞬间迈入 " 秒级响应 ",彻底释放 CPU 的算力潜能。

另外,KTransformers 还提供了兼容 Hugginface Transformers 的 API 与 ChatGPT 式 Web 界面,极大降低了上手难度。同时,其基于 YAML 的 " 模板注入框架 " 能够灵活切换量化策略、内核替换等多种优化方式。

目前,KTransformers 在 localLLaMa 社区持续位居热榜第一,有上百条开发者的讨论。

项目背后的技术细节,团队也给出了详细介绍。

利用 MoE 架构的稀疏性

DeepSeek-R1/V3 均采用了 MoE(混合专家)架构,这种架构的核心是将模型中的任务分配给不同的专家模块,每个专家模块专注于处理特定类型的任务。MoE 结构的模型具有很强的稀疏性,在执行推理任务的时候,每次只会激活其中一部分的模型参数。

因此,MoE 架构需要大量的存储空间,但是并不需要很多的计算资源。

基于此,团队采用了 GPU/CPU 的异构计算划分策略:仅将非 Shared 部分的稀疏 MoE 矩阵放在 CPU/DRAM 上并使用 llamafile 提供的高速算子处理,剩余稠密部分放在 GPU 上使用 Marlin 算子处理。

在这样的情况下,同样使用 4bit 量化,GPU 上的参数只需要 24GB 的显存环境,这样的消耗只需要一张 4090 就能满足。

此外通过这样的组合,还能够大幅度提升整个推理的性能,达到 286 token/s 的预填充和 14 token/s 的生成速度,比 llama.cpp 快 28 倍。

具体到技术实现中,团队采用了基于计算强度的 offload 策略、高性能的 CPU 和 GPU 算子、CUDA Graph 加速的多种方式来加速推理速度。

基于计算强度的 offload 策略

在 Attention 的核心,DeepSeek 引入了一种新的 MLA 算子,它能够充分利用显卡算力,能够很大程度提升效率。然而,MLA 运算符在官方开源的 v2 版本中,是将 MLA 展开成 MHA 进行的计算,这个过程不仅扩大了 KV cache 大小,还降低了推理性能。

为了真正发挥 MLA 的性能,在 KTransformers 推理框架中,团队将矩阵直接吸收到 q_proj 和 out_proj 权重中。因此,压缩表示不需要解压缩来计算 Attention。

这种调整显著减少了 KV 缓存大小,并增加了该运算符的算术强度,这非常显著地优化了 GPU 计算能力的利用率。

在计算中,MLA 和 Expert 的计算强度相差数千倍。因此,团队通过计算强度来决定划分策略,优先将计算强度高的放入 GPU(MLA > Shared Expert > Routed Expert),直到 GPU 放不下为止。

引入 CPU 和 GPU 的高性能算子

在 CPU 算子中,团队使用 llamafile 作为 CPU 内核,使用 expert 并行和其他优化,组成高性能算子框架 CPUInfer。此外增加多线程、任务调度、负载均衡、NUMA 感知等优化。

在 GPU 算子的使用上,团队引入 Marlin 算子作为 GPU 计算的内核,它能够非常高效地进行量化后的矩阵计算,和 torch 这些计算量化后的矩阵乘法的库相比,使用 Marlin 算子完成在 GPU 上面的计算大概可以达到 3.87 倍的理想加速效果。

CUDA Graph 的改进和优化

为了平衡推理性能和框架本身的易用性 / 可扩展性,基于 Python 构建 KTransformers 框架,同时使用 CUDA Graph 降低 Python 调用开销是一个必然的选择。

KTransformers 中使用 CUDA Graph 过程中尽可能地减少了 CPU/GPU 通讯造成的断点,在 CUDA Graph 中掺杂和 CPU 异构算子通讯,最终实现一次 decode 仅有一个完整的 CUDA Graph 调用的结果。

灵活高效的推理实验平台

值得关注的是,KTransformers 不止是一个固定的推理框架,也不只能推理 DeepSeek 的模型,它可以兼容各式各样的 MoE 模型和算子,能够集成各种各样的算子,做各种组合的测试。

此外还同时提供了 Windows、Linux 的平台的支持,方便运行。

当大模型不断往上卷,KTransformers 用异构计算打开一条新的推理路径。基于此,科研工作者无需巨额预算也能够探索模型本质。

GitHub 地址:https://github.com/kvcache-ai/ktransformers

具体技术细节指路:https://zhuanlan.zhihu.com/p/714877271

* 本文系量子位获授权刊载,观点仅为原作者所有。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們