大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 财經

梁文鋒、楊植麟論文“撞車”,直指算法優化,挑戰ChatGPT核心機制

2025-02-20 简体 HK SG TW

今天小編分享的财經經驗:梁文鋒、楊植麟論文“撞車”,直指算法優化,挑戰ChatGPT核心機制,歡迎閱讀。

每經記者 嶽楚鵬 每經編輯 蘭素英

梁文鋒 圖片來源:視覺中國

北京時間 2 月 18 日,在馬斯克還在慶祝 Grok 3 模型正式發布的時候,DeepSeek 官方在社交平台 X 上發布了一篇純技術論文,主要是關于原生稀疏注意力(Native Sparse Attention,下稱 NSA),直指 ChatGPT 等頂尖大模型背後的 Transformer 架構最核心的注意力機制。

通過這一技術,DeepSeek 不僅能将大語言模型處理 64k 長文本的速度最高提升 11.6 倍,更在通用基準測試中實現了對傳統全注意力模型(Full Attention models)的性能反超。

值得注意的是,這篇論文是由 DeepSeek 創始人梁文鋒親自提交的,而且他也是作者之一。而就在 DeepSeek 發表這篇技術論文的同一天,月之暗面創始人楊植麟也 " 挂帥 " 發布了最新論文,主題同樣圍繞長文的算法優化。

月之暗面提出的新方法叫塊注意力混合(Mixture of Block Attention,下稱 MoBA)。這項方法沒有完全脫離現在最主流的全注意力機制,而是設計了一套可以自由切換的方式,讓這些模型可以在全注意力和稀疏注意力機制之間切換,給已有的全注意力模型更多的适配空間。

談及 DeepSeek 的 NSA 機制,風投公司 RAI Digital 聯合創始人薩義德 · 戈蘇斯對《每日經濟新聞》記者解釋稱,與馬斯克所追求的 " 大力出奇迹 " 不同,DeepSeek 的新技術更強調通過算法優化來提升長文處理效率。他提到,NSA 不會專注每個單詞,而是嘗試通過只關注重要的單詞來提升效率。

DeepSeek 發布新論文,梁文鋒參與并提交

北京時間 2 月 18 日,DeepSeek 官方在 X 上發布新論文,介紹了一種新的算法優化方式——原生稀疏注意力(NSA)。

據 DeepSeek 介紹,NSA 專為長文本訓練與推理設計,能利用動态分層稀疏策略等方法,通過針對現代硬體的優化設計,顯著優化傳統 AI 模型在訓練和推理過程中的表現,特别是提升長上下文的推理能力,在保證性能的同時提升了推理速度,并有效降低了預訓練成本。

圖片來源:X

通過這一技術,DeepSeek 不僅能将大語言模型處理 64k 長文本的速度最高提升 11.6 倍,更在通用基準測試中實現了對傳統全注意力模型的性能反超。

圖片來源:DeepSeek 的 X 賬号

值得注意的是,DeepSeek 創始人梁文鋒也出現在了論文作者的行列當中,在作者排名中位列倒數第二,并且也是他親自提交至預印本網站上的。

圖片來源:arXiv

論文的第一作者是 DeepSeek 的實習生袁景陽,他于 2022 年在北大獲得了學士學位,目前在北大的 Anker Embodied AI 實驗室繼續攻讀研究生學位。他也是 DeepSeek-V3 報告的主要作者之一,并參與了 DeepSeek-R1 的研究工作。

月之暗面再次 " 撞車 "DeepSeek

無獨有偶,在 DeepSeek 發論文的當天,月之暗面創始人楊植麟也親自 " 挂帥 " 發表了一篇論文,同樣直指算法優化。

楊植麟 圖片來源:視覺中國

圖片來源:月之暗面

該公司提出的新方法叫塊注意力混合(MoBA)。顧名思義,這一方法也運用了将詞變成塊的方法。不過,該方法沒有完全脫離現在最主流的全注意力機制,而是設計了一套可以自由切換的方式,讓這些模型可以在全注意力和稀疏注意力機制之間切換,給已有的全注意力模型更多的适配空間。

根據論文,MoBA 的計算復雜度随着上下文長度增加而優勢明顯。在 1M token 的測試中,MoBA 比全注意力快了 6.5 倍;到 10M token 時,則提速 16 倍。而且,它已經在 Kimi 的產品中使用,用來處理日常用戶們的超長上下文的處理需求。

而這也并不是是 DeepSeek 和月之暗面第一次 " 撞車 " 了,上一次是在 DeepSeek 推理模型 R1 和月之暗面推理模型 Kimi 1.5 發布時。

MoBA 論文主要作者章明星教授笑稱," 有種‘掌中,亦一火字’的感覺(不讨論誰是孔明,誰說周郎)。" 他同時也感慨:" 大模型這套架構最神奇的一點我感覺就是它似乎自己就指出了前進的路線,讓不同的人從不同的角度得出了相似的前進方向。"

DeepSeek 新方法背後的三大技術

談及 DeepSeek 的新方法,風投公司 RAI Digital 聯合創始人薩義德 · 戈蘇斯告訴每經記者,這是 AI 模型處理超長文本的新方法,比傳統方法更快、更高效。

像 ChatGPT 這樣的大型語言模型,都使用一種叫 " 注意力 "(Attention)機制的方法來處理文本,2017 年谷歌研究員推出的論文《Attention Is All You Need》被認為是現在所有大模型的基石。

戈蘇斯進一步向每經記者解釋道:"想象一下你正在讀一本書。要理解一個句子,你不僅要看當前的單詞,還要回憶起前面句子中的相關單詞,以理解所有内容。AI 使用注意力做類似的事情,這有助于它确定哪些詞是重要的,以及它們彼此之間的關系。傳統注意力機制(全注意力)會查看文本中的每個單詞,并将其與其他每個單詞進行比較。這對于短文本來說很好,但是當文本很長時(比如整本書或一份長的法律檔案),這個過程就會變得太慢,而且在計算機上運行成本太高。

而 DeepSeek 論文中提到的稀疏注意力機制不會專注每個單詞,而是嘗試通過只關注重要的單詞來提升效率,就像是只讀摘要而不是整本書一樣。

戈蘇斯對每經記者介紹說:" 為了做好這一點,NSA 引入了一種新方法來過濾不重要的單詞,同時仍保留足夠的上下文來理解完整含義。

它使用三種主要技術來實現這一點:

壓縮:NSA 不會查看每個單詞,而是将單詞分組為 " 塊 ",并為每個塊創建摘要。可以将其想象成将一個段落變成一個簡短的摘要。

選擇:模型從文本中挑選出最應該關注的重要單詞。就像在學習時,只突出顯示教科書中的關鍵句子一樣。

滑動視窗:盡管 NSA 總結并選擇了單詞,但它仍然會查看附近的單詞,以确保不會錯過細小但重要的細節。想象一下閱讀一本書——人們不會只是從一頁跳到下一頁而不浏覽附近的句子。

DeepSeek 認為,三部分策略使 NSA 速度更快,同時理解含義的能力與傳統方法一樣好(甚至更好)。"

圖片來源:DeepSeek

有網友稱,這是在教會 AI 學會 " 聰明的偷懶 ",像人類一樣聰明地分配注意力,從而讓長文的處理又快又準,不再是一個 " 死讀書的呆子 "。雖然犧牲了一定的準确率,但是極大提升了效率,人腦就是這麼幹的。

戈蘇斯還表示,DeepSeek 這次不僅是單純的算法進步,它還對現有的計算機硬體進行了優化,以便 GPU 可以實現有效處理。

有科技媒體指出,DeepSeek 此次使用了 Triton 框架,而非英偉達專用庫,這或許暗示了其在模型研發階段已考慮适配更多類型的計算卡,為未來的開源和廣泛應用奠定了基礎。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們