大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

清華團隊突破算力難題:4090顯卡單槍匹馬就能跑“滿血版”DeepSeek-R1!有用户稱整套方案成本不到7萬元,直降95%以上

2025-02-16 简体 HK SG TW

今天小編分享的科技經驗:清華團隊突破算力難題:4090顯卡單槍匹馬就能跑“滿血版”DeepSeek-R1!有用户稱整套方案成本不到7萬元,直降95%以上,歡迎閲讀。

随着大規模語言模型(LLMs)的不斷發展,模型規模和復雜性急劇提升,其部署和推理常常需要巨大的計算資源,這對個人研究者和小型團隊帶來了挑戰。

2 月 10 日,清華大學 KVCache.AI 團隊聯合趨境科技發布的 KTransformers 開源項目公布更新:一塊 24G 顯存的 4090D 就可以在本地運行 DeepSeek-R1、V3 的 671B" 滿血版 "。預處理速度最高達到 286 tokens/s,推理生成速度最高能達到 14 tokens/s。

KTransformers 通過優化本地機器上的 LLM 部署,幫助解決資源限制問題。該框架采用了異構計算、先進量化技術、稀疏注意力機制等多種創新手段,提升了模型的計算效率,并具備處理長上下文序列的能力。

KTransformers 的更新發布後,不少開發者也紛紛用自己的設備進行測試。他們驚喜地發現,本地運行完全沒有問題,甚至顯存消耗比 github 裏的技術文檔中提到的顯存消耗還要少,實際内存占用約 380G,顯存占用約 14G。

另外,有用户對方案成本進行分項分析後稱,只要不到 7 萬元就能實現 R1 模型的本地運行,與 A100/H100 伺服器動辄 200 萬元的價格相比,便宜了 95% 以上。

清華團隊突破算力難題:24G 顯存即可運行 R1 和 V3 的 671B" 滿血版 "

之前,671B 參數的 MoE 架構大模型 DeepSeek-R1 經常出現推理伺服器高負荷宕機的現象,而如果選擇其他雲服務商提供的專屬版雲伺服器則需按 GPU 小時計費。這一高昂成本讓中小團隊無力承擔,而市面上的 " 本地部署 " 方案多為參數量大幅縮水的蒸餾版。

但 KTransformers 開源項目近期的更新,成功打破了大模型推理算力門檻:支持 24G 顯存在本地運行 DeepSeek-R1、V3 的 671B" 滿血版 "。

早在 DeepSeek-V2 時代,這一項目就因 " 專家解除安裝 " 技術出名了,因為它支持 236B 參數的大模型在僅有 24GB 顯存的消費級顯卡上流暢運行,把顯存需求砍到十分之一。

KTransformers 開源項目重點關注的就是在資源有限的情況下進行大模型的本地部署。一名 Ktransformers 開發團隊成員表示:" 項目在創始之初就已經讨論過項目的場景和目标,我們所針對的是中小型用户的場景,用領網域的話講,就是低并發 + 超低顯存的場景。而顯存目前的成本已經和 CPU 的内存不是一個數量級了,對于中小用户内存可能完全不缺,但是找一個顯存很大的顯卡卻很難。"

圖片來源:知乎

KTransformers 的原理大致為将參數較少、計算比較復雜的 MLA 注意力放在 GPU 上進行計算,而參數大的、計算比較輕松的 FNN(MOE)則放到 CPU 上去計算。

MoE 結構的模型具有很強的稀疏性,在執行推理任務的時候,每次只會激活其中一部分的模型參數。因此,MoE 架構需要大量的存儲空間,但并不需要很多的計算資源。在這樣的情況下,同樣使用 4bit 量化,只需要一個 4090 GPU 就可以滿足這個參數需求。

此外,KTransformers 團隊還公布了 v0.3 預覽版的性能指标,将通過整合英特爾的 AMX 指令集,CPU 預填充速度最高至 286 tokens/s,相比 llama.cpp 快了近 28 倍。對于需要處理上萬級 Token 上下文的長序列任務來説,相當于能夠從 " 分鍾級等待 " 瞬間邁入 " 秒級響應 ",徹底釋放 CPU 的算力潛能。

用户:成本相比 A100/H100 伺服器可直降 95% 以上

KTransformers 的更新發布後,不少開發者也紛紛在自己的設備上進行測試。他們驚喜地發現,本地運行完全沒有問題,顯存消耗甚至比 github 裏的技術文檔中提到的還要少,實際内存占用約 380G,顯存占用約 14G。

圖片來源:哔哩哔哩

有 B 站 up 主實測發現,本地部署的速度可以達到約 6-8 tokens/s,與硅基流動免費版速度差不多(但硅基流動有上下文關聯數、輸出數限制等因素)。

還有用户規劃出了這套方案的成本:

CPU:Gold 6454S 兩顆價格 1w4 左右(QS 版)

主機板:技嘉 ms73 價格 6500 元以内(雙路主機板一共 16 個 DDR5 RDIMM 接口)

内存:單根 64G 的 RDIMM DDR5 伺服器内存要 1800 元總共 1T 需要 3w 元左右

顯卡:低檔 4060Ti 16G,大概 3999 元。更加建議 4090 24G,因為可以增加上下文長度。

該用户總結稱,整體成本 7 萬元不到,相比于 A100/H100 伺服器動辄 200 萬元的價格,便宜了 95% 以上。就算是租用伺服器每小時也得花費數千元。

當然,這一本地方案還是有着諸多的限制,比如推理速度并不能和高價的伺服器成本相提并論,并且只能給單人服務,而伺服器可以同時滿足幾十個用户的需求。目前整體方案也依賴于英特爾的 AMX 指令集,其他品牌的 CPU 暫時還無法進行這些操作。并且這一方案主要是針對于 DeepSeek 的 MOE 模型,其他主流模型的運行可能并不理想。

有用户認為,短期來看,KTransformers 可能刺激消費級顯卡(如 4090)的需求,尤其是高顯存型号。但内存漲價的可能性較低,因為其核心創新在于優化顯存利用率,而非直接增加内存消耗。但對于英偉達的影響并不會太大,因為這一技術歸根結底還是對于現有資源的優化而非颠覆硬體需求。

免責聲明:本文内容與數據僅供參考,不構成投資建議,使用前請核實。據此操作,風險自擔。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們