今天小編分享的科技經驗:楊植麟和梁文鋒,論文撞車了,歡迎閲讀。
1
在馬斯克發布了他用 20 萬張卡訓出的 Grok3 的同一天,兩篇與馬氏大力出奇迹 " 相反 " 路線的論文也發表在了技術社區。
在這兩篇論文的作者名目裏,各自有一個大家熟悉的名字:
梁文鋒,楊植麟。
2 月 18 日,DeepSeek 和月之暗面幾乎同時發布了他們各自最新的論文,而主題直接 " 撞車 " ——都是挑戰 Transformer 架構最核心的注意力機制,讓它能更高效的處理更長的上下文。而更有趣的是,兩家公司的技術派明星創始人的名字出現在各自的論文和技術報告裏。
DeepSeek 發布的論文,标題名為:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。
根據論文,它提出的新架構 NSA(原生稀疏注意力)在基準測試中,與全注意力機制相比,準确率相同或更高;處理 64k 标記序列時,速度可提高至 11.6 倍,訓練也更高效,所需算力更少;在處理超長上下文的任務(如書籍摘要、代碼生成、推理任務)中表現出色。
與此前人們津津樂道的算法上的創新相比,DeepSeek 這一次把手伸向了最核心的注意力機制(attention)的改造上。
Transformer 是今天所有大模型繁榮的基礎,但它的核心算法注意力機制依然有先天的問題:拿讀書做比喻,傳統的 " 全注意力機制 " 為了理解和生成,會閲讀文本裏的每個詞,并拿它與其他所有詞作比較。這樣導致處理文本越長它越復雜,技術越卡,甚至崩潰。
此前學術界一直在提供各種解決的思路,NSA 通過真實環境的工程優化和實驗,組裝出了一個由三個環節組成的可以用在訓練階段的架構方案:
它包括,1)語義壓縮——不再是看每個詞,而是抽成一個組,也就是 " 塊 ",在保留全局語義的同時将序列長度縮減至 1/k,同時引入位置編碼來降低信息的損耗,進而将計算復雜度從 O ( n ² ) 降為 O ( n ² /k ) 。
2)動态選擇——模型以某種得分判斷機制,從文本中挑出最多關注的詞,對它們進行細粒度的計算。這種重要性采樣策略在減少 75% 計算量的情況下仍能保持 98% 的細粒度信息。
3)滑動視窗——前兩者是摘要和劃重點的話,滑動視窗就是查看最近的上下文信息,這樣可以保持連貫性,而通過硬體級顯存復用技術可以将内存訪問頻次降低 40%。
這些思路每一個都不是 DeepSeek 的發明,但可以把它想象成 ASML 式的工作——這些技術元素已經存在,散落在各處,但工程上把它們組合在一起成為一個可以規模化的方案,新的算法架構,還沒人做過。現在有人通過強大的工程能力做出來了一台 " 光刻機 ",其他人可以用這個來在真實工業環境裏訓練模型。
而月之暗面在同天發布的論文,提出了一個在核心思想上非常一致的架構:MoBA。(MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS)
從它的名字就可以看到,它同樣使用了把 " 詞 " 變成塊的方法。在 " 切塊 " 後,MoBA 裏有個像 " 智能篩選員 " 一樣的門控網絡,它負責挑選與一個 " 塊 " 最相關的 Top-K 個塊,只對這些選中的塊計算注意力。在實際實現過程中,MoBA 還結合了 FlashAttention(能讓注意力計算更高效)和 MoE(專家混合模型)的優化手段。
與 NSA 相比,它更強調靈活性,沒有完全離開現在最主流的全注意力機制,而是設計了一套可以自由切換的方式,讓這些模型可以在全注意力和稀疏注意力機制之間切換,給已有的全注意力的模型更多的适配空間。
根據論文,MoBA 的計算復雜度随着上下文長度增加而優勢明顯。在 1M token 的測試中,MoBA 比全注意力快了 6.5 倍;到 10M token 時,則提速 16 倍。而且,它已經在 Kimi 的產品中使用,用來處理日常用户們的超長上下文的處理需求。
楊植麟最初創辦月之暗面受到關注的一個重要原因,是他的論文影響力和引用量,但 K1.5 論文之前,他最後一篇論文類的研究停留在 2024 年 1 月。而梁文鋒雖然作為作者出現在 DeepSeek 最重要的模型技術報告裏,但這些報告的作者名錄幾乎相當于 DeepSeek 的員工名錄,幾乎所有人都列在裏面。而 NSA 的論文作者則只有幾人。由此可以看出這兩個工作對這兩家公司創始人來説的重要性,以及對了解這兩家公司技術路線的意義。
另一個可以為這種重要性做注腳的細節是,有網友發現,arxiv 上 NSA 這篇論文的提交記錄顯示,它在 2 月 16 日提交,提交者正是梁文鋒自己。
2
這不是月之暗面和 DeepSeek 第一次 " 撞車 "。在 R1 發布的同時,Kimi 難得的發布了 K 1.5 的技術報告,此前這家公司并不以對外展示它的技術思考為優先重點。當時這兩篇論文同時把目标瞄準了 RL 推動的推理模型。事實上,仔細閲讀這兩篇技術報告,在 K1.5 的論文裏,月之暗面對如何訓練一個推理模型做了更詳細的分享,甚至單從信息度和細節程度上,它是高過 R1 論文的。但之後 DeepSeek 的風潮掩蓋掉了不少對這篇論文本身的讨論。
一個可以作為印證的,是 OpenAI 最近難得發布的一篇對其 o 系列模型推理能力講解的論文裏,同時點了 DeepSeek R1 和 Kimi k1.5 的名字。"DeepSeek-R1 和 Kimi k1.5 通過獨立研究顯示,利用思維鏈學習(COT)方法,可顯著提升模型在數學解題與編程挑戰中的綜合表現。" 也就是説,這是 OpenAI 自己選來用來對比的兩個推理模型。
" 大模型這套架構最神奇的一點我感覺就是它似乎自己就指出了前進的路線,讓不同的人從不同的角度得出了相似的前進方向。"
參與了 MoBa 核心研究的清華大學教授章明星在知乎上分享。
他還提供了一個很有趣的對比。
"DeepSeek R1 和 Kimi K1.5 都指向了 ORM based RL,不過 R1 從 Zero 開始,更加 " 存粹 " 或者説 "less structure" 一些,上線更早,同步開源模型。
Kimi MoBA 和 DeepSeek NSA 再一次都指向了可以反向傳遞的 learned sparse attention,這一次 MoBA 更加 less structure 一些,上線更早,同步開源代碼。"
這兩家的連續 " 撞車 " 有助于人們對比着更好理解強化學習的技術發展,以及更高效更長文本的注意力機制的進化方向。
" 結合 R1 和 K1.5 一起看能更好的學習 Reasoning Model 怎麼訓一樣,結合 MoBA 和 NSA 一起看能從不同側面更好的理解我們對于—— Attention 中 sparsity 應當存在而且可以通過端到端訓練習得——的相信。" 章明星寫到。
3
在 MoBA 發布後,月之暗面的許欣然也在社交媒體上稱,這是一個做了一年半的工作,現在開發者可以開箱即用。
而選擇此刻開源注定還是會被放在 DeepSeek 的 " 陰影 " 裏讨論。有意思的是,在各家積極接入 DeepSeek 和開源自己的模型的今天,外界似乎總在第一時間想到月之暗面,對于 Kimi 是否會接入、模型是否會開源的讨論不停,月之暗面和豆包似乎成了兩個僅剩的 " 異類 "。
而現在看來,DeepSeek 對月之暗面的影響相比其他玩家是更加持續的,它帶來了從技術路線到用户争奪全方位的挑戰:一方面它證明了哪怕是進入到產品的競争上,基礎模型能力也依然是最重要的;另外,今天越來越清晰的另一個連鎖反應是,騰訊的微信搜索和元寶的組合拳,正借 DeepSeek R1 的勢頭補上一次它之前錯過的營銷投放戰,最終也是衝着 Kimi 和豆包而來。
月之暗面的應對思路也就變得引人注目。其中開源是必須要做的一步。而看起來月之暗面的選擇,是想要真正匹配 DeepSeek 的開源思路——目前在 DeepSeek 後出現的諸多開源大部分像是應激反應,它們還是用此前 Llama 時期的開源思路來跟随。事實上 DeepSeek 的開源與此前的已經不同,不再是 Llama 似的防守擾亂閉源對手式的開源,而是一種能帶來明确收益的競争策略。
月之暗面最近傳出内部 " 把 SOTA(state-of-the-art)結果做為目标 ",看起來是最接近這種新的開源模式的策略,要開的是最強的模型,最強的架構方法,這樣反而會得到它一直渴望的在應用側的影響力。
根據兩家的論文,MoBA 已經用在月之暗面的模型和產品上,NSA 也一樣,它甚至讓外界可以對 DeepSeek 接下來的模型有更明确預期。于是接下來的看點就是,月之暗面和 DeepSeek 用 MoBA 和 NSA 各自訓練出的下一代模型,要不要再撞車一次,并且還是以開源的方式——這可能也是月之暗面在等待着的那個節點。