大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

梁文鋒親自挂名,DeepSeek 最新論文丢出注意力新機制,推理速度直線提升 11 倍

2025-02-24 简体 HK SG TW

今天小編分享的科技經驗:梁文鋒親自挂名,DeepSeek 最新論文丢出注意力新機制,推理速度直線提升 11 倍,歡迎閲讀。

2 月 18 日,馬斯克發布 Grok 3 的熱度還沒過去,梁文鋒就作為 co-authors 帶着 DeepSeek 研究團隊殺了回來。

公布新研究的推文發布不到 3 個小時,就帶來了三十多萬的浏覽量,火爆程度不遜 OpenAI。

而這次 DeepSeek 團隊最新的研究論文更是重磅,論文中介紹了一種全新的,可用于超快速的長上下文訓練與推理的注意力機制 —— NSA,值得一提的是,NSA 還具有與硬體對齊的特點,十足的硬體友好。

論文中提到的 NSA 核心組成主要包括三點:分别是動态分層稀疏策略、粗粒度的 token 壓縮以及細粒度的 token 選擇。有了這三點核心技術的加持,就能夠在有效降低預訓練成本的情況下,同時顯著提升推理速度,特别是在解碼階段實現了高達 11.6 倍的提升。

更讓人感到眼前一亮的是,DeepSeek 創始人兼 CEO 梁文鋒這次也出現在了合著名單之中,不僅親自上陣,還親自提交了論文。

看熱鬧不嫌事大的網友甚至還借此調侃奧特曼:DeepSeek 又發了一篇很強的新論文了哦!

DeepSeek 填補了稀疏注意力機制存在的缺陷

随着 AI 領網域的不斷發展,長上下文建模能力的關鍵性日益凸顯,尤其在現實世界的應用中有着廣泛需求,比如深度推理、代碼庫級代碼生成和多輪自主代理系統。就比如 DeepSeek 自家的 R1 模型就是突破了這個技術,使其能夠處理整個代碼庫、長篇文檔,并保持成千上萬 token 的對話連貫性,同時也能在長距離依賴的情境下進行復雜推理。

但序列越來越長,傳統的注意力機制就開始因為太過復雜成為了造成運行延遲的最大因素。理論分析顯示,使用 softmax 架構的注意力計算在解碼 64k 長度的上下文時,幾乎占據了總延遲的 70-80%,傳統注意力機制存在明顯缺陷,提升速度成了一件非常重要的事情。

并且自然的實現高效長上下文建模的方法是利用 softmax 注意力的固有稀疏性,選擇性地計算關鍵的 query-key 對,從而大幅降低計算開銷,并保持模型性能。

近年來,相關研究在這一方向取得了進展,提出了如 KV 緩存淘汰、塊狀 KV 緩存選擇,以及基于采樣、聚類或哈希的選擇方法等策略。盡管這些方法展示了很大的潛力,但現有的稀疏注意力技術在實際部署時種仍未能達到預期效果。并且大部分研究主要集中于推理階段,缺乏對訓練階段有效支持,因此并不能充分發揮稀疏模式的優勢。

為實現更高效的稀疏注意力,DeepSeek 研究團隊提出了一種原生可訓練的稀疏注意力架構 NSA,這個架構的核心内容是通過動态分層稀疏策略,結合粗粒度的 token 壓縮和細粒度的 token 選擇,從而保留全局上下文感知能力和局部精确性。

同時 NSA 通過精妙的算法設計和針對現代硬體的優化,實現在計算速度上的顯著提升,并支持端到端訓練,既提高了推理效率,又減少了預訓練計算量,同時保持了模型性能。

除此之外,新研究還通過使用 Triton,開發了與硬體高度兼容的稀疏注意力内核。

DeepSeek 的優化策略則是采用不同的查詢分組方法,并通過以下特性實現接近最優的計算強度平衡:

1、組内數據加載:每次内循環加載該組所有頭的查詢及其共享的稀疏 KV 塊索引。

2、共享 KV 加載:内循環中連續加載 KV 塊,減少内存加載的開銷。

3、網格循環調度:由于内循環長度在不同查詢塊間幾乎相同,将查詢 / 輸出循環與 Triton 的網格調度器結合,簡化并優化了内核的執行。

DeepSeek:NSA 已在多面碾壓全注意力

在對 NSA 進行技術評估時,研究人員分别從通用基準性能、長文本基準性能、思維鏈推理性能三個角度,分别将 NSA 與全注意力基線和 SOTA 稀疏注意力方法進行比較。

測試中 NSA 的預訓練損失曲線相比全注意力基線呈現出更加穩定和平滑的下降趨勢,且始終優于全注意力模型。

除此之外,為了驗證 NSA 在實際訓練和推理中的效果,DeepSeek 研究團隊采用了當前領先的 LLM 常用實踐,選擇了一個結合分組查詢注意力(GQA)和混合專家(MoE)架構的模型作為樣本,該模型的總參數量為 27B,其中 3B 為活躍參數。

在這個基礎上,DeepSeek 對 NSA、全注意力和其他注意力機制分别進行了評估。結果顯示,盡管 NSA 采用了稀疏性,但其整體性能仍然優于所有基線模型,包括全注意力模型,并且在 9 項評測指标中有 7 項表現最好。

另外,在長上下文任務中, NSA 在 64k 上下文的 " 大海撈針 " 測試中表現出了極高的檢索精度。這歸功于其分層稀疏注意力設計,通過粗粒度的 token 壓縮實現了高效的全局上下文掃描,同時通過細粒度的選擇性标記來保留關鍵的信息,從而有效平衡了全局感知與局部精确度。

同時研究團隊還在 LongBench 基準上,也對 NSA 進行了評估。最終 NSA 以最高平均分 0.469,優于其他所有基準。

在思維鏈推理性能評估方面,研究人員通過從 DeepSeek-R1 進行知識蒸餾,并借助 100 億條 32k 長度的數學推理軌迹進行了監督微調(SFT)。

最後用 AIME 24 基準來評估所生成的兩個模型 Full Attention-R(全注意力基準模型)和 NSA-R(稀疏變體模型)的表現。

在 8k 上下文設定下,NSA-R 的準确率超過了 Full Attention-R,差距為 0.075。即使在 16k 上下文環境中,NSA-R 仍然保持着這一優勢,準确率高出 0.054。

NSA 驗證清華姚班早期論文

值得一提的是,論文末尾提到的處理復雜數學問題的示例,再次驗證了兩年前清華大學姚班一篇論文中的結論。

由于 Transformer 架構在注意力機制上的局限,處理復雜數學問題時,tokens 數量過多常常會導致性能下降,特别是在任務復雜度較高時。

DeepSeek 的最新研究通過優化問題理解和答案生成,将所需的 tokens 數量減少至 2275,從而成功得出了正确答案。而與之對比的基線方法,盡管消耗了 9392 個 tokens,最終卻得出了錯誤的答案。這一顯著的提升展示了新方法在效率和準确性上的優勢。

清華大學姚班的那篇論文探讨了在 Transformer 架構下,模型在計算兩個四位數乘法(例如 1234 × 5678 )時的表現。研究發現,GPT-4 在處理三位數乘法時的準确率為 59%,然而當任務變為四位數乘法時,準确率卻驟降至 4%。這一現象揭示了在面對更復雜計算時,Transformer 架構的推理能力受到顯著限制。

這些研究結果表明,盡管 Transformer 架構在某些任務中表現出色,但在處理復雜推理任務,尤其是需要大量信息處理時,仍然存在瓶頸。

關于 DeepSeek 論文結尾的復雜數學題,雷峰網也用 GPT o3-mini 進行了解讀,最終呈現的解題過程比 DeepSeek 論文中給出的解題過程要長出 2 倍之多。

由此可見,大模型的發展就是一個不斷推陳出新的過程。

而反觀 DeepSeek,未來的研究可能會更加專注于如何優化模型在長文本和代碼庫分析中的表現,以進一步提升其推理能力和實用性。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們