今天小編分享的科學經驗:DeepSeek前實習生魔改MoE,用迭代機制把内存需求砍了42%,團隊:“免費午餐”優化方法,歡迎閱讀。
DeepSeek MoE" 變體 " 來了,200 美元以内,内存需求減少 17.6-42%!
名叫CoE(Chain-of-Experts),被認為是一種 " 免費午餐 " 優化方法,突破了 MoE 并行獨立處理 token、整體參數數量較大需要大量内存資源的局限。
與并行處理不同,CoE 使專家能在單層内串行通信,形成一種迭代機制,即專家能 " 溝通 ",在其它專家輸出之上處理 token。
研究團隊在實驗中發現,經過 2 次迭代的 CoE,在相同的計算預算下将數學任務的驗證損失從 1.20 降低至 1.12,僅僅通過重構信息流就獲得了性能提升。
通過擴展 CoE 的迭代次數,在性能相當的情況下,内存使用比通過增加模型層數或擴展專家選擇數量的方法降低了 17.6-42%。
另外,在專家組合自由度、專家使用效率等其它方面,CoE 也都具有顯著優勢,專家組合增加 823 倍。
目前,研究團隊曬出了 CoE 技術 Blog(完整論文即将發布),引起不少網友圍觀。
翻看作者主頁,還發現作者 Zihan Wang 真曾在 DeepSeek 實習過
有網友看過這項研究表示:
MoEs 中的 IsoFLOP 層迭代設計,非常奈斯。
還有網友已經開始預測下一代架構了。
CoE 究竟長啥樣?以下是團隊發布的 Notion Blog 介紹。
CoE 專門針對稀疏 MoE 打造
CoE 關鍵創新在于建立溝通性處理機制,改變了稀疏神經網絡的信息處理方式。
具體來說,是通過在單個層的迭代中将 MoE 輸出反饋為多次迭代的輸入來實現的。
CoE 迭代處理機制可以形式化表示為下面這個樣嬸兒:
參考 DeepSeek-V2 的實現,研究團隊定義門控機制為如下:
團隊介紹,這種設計的好處在于每次迭代的專家選擇由前一次迭代的輸出決定,形成專家間的依賴關系和更動态的路由機制。
而且串行信息可以在迭代過程中累積,實現專家間的直接通信。
實驗采取 DeepSeek V2 架構,在參數規模為 500M 的 MoE 模型上使用 32K Tok 的 batch size 訓練 1000 步,以此來驗證 CoE 的有效性。
結果 CoE 在性能、擴展策略、資源效率優化、專家組合自由度、專家使用效率方面具有顯著優勢。
除了開頭所展示的在相似的算力和内存要求下,CoE 将 loss 從 1.20 下降至 1.12,且有更陡峭的下降趨勢。
團隊進一步在 "dense"(專家 8 選 8)模型上也進行了測試,結果證明了串行處理在 Sparse MoE 上相比 Dense 模型更有效,CoE 是一種專為(細粒度)稀疏混合專家模型(Sparse MoE)設計的方法。
采取 2 次序列化處理并不能顯著提升 Dense 模型性能。
另外,在計算量和效果相似的情況下,CoE 可以減小對内存的要求。如下,CoE-2(4/48)的效果與 MoE(8/64)相近,但使用更少的總專家數量。loss match 的情況下減小了 17.6% 的内存需求。
團隊還對比了在預算相似的情況下,擴展 CoE 迭代次數和擴展模型層數、擴展專家選擇個數的效果,結果擴展 CoE 迭代次數更優。
CoE-2(8/64),4 層 vs MoE(8/64),8 層 /12 層,8 層 MoE 和 CoE 效果幾乎相同,但是對内存要求高 72%,即 CoE 相對節省了 42% 内存。
團隊強調,獨立門控機制和内殘差連接是 CoE 的關鍵架構創新,消融研究表明,移除任何組件都會顯著降低性能。
更多細節,感興趣的童鞋可以查看技術報告原文~
誰造的?
CoE 由一個 5 人組成的團隊提出。
Zihan Wang 是美國西北大學計算機科學專業博士生,本科畢業于中國人民大學高瓴人工智能學院,研究聚焦于基礎模型的自主性、效率以及長上下文理解。
Zihan Wang 曾在 DeepSeek 工作過,是 ESFT(Expert-Specialized Fine-Tuning)的論文一作。
ESFT 通過僅調整與任務相關的部分高效地定制采用 MoE,從而在減少資源和存儲使用的同時提升效率和性能。
CoE 不是 Zihan Wang 第一次針對 DeepSeek 搞的 " 變體 "。
之前他還曾基于 verl 復現了 DeepSeek-R1(-Zero)框架—— RAGEN (Reinforcement learning AGENt),在 GitHub 攬星近 1k:
Zihan Wang 師從 Manling Li。Manling Li 是西北大學計算機科學系助理教授,此前曾在吳佳俊教授的指導下工作,并得到李飛飛教授的指導。
RAGEN 的貢獻者名單中也有 Manling Li、吳佳俊、李飛飛的身影。
CoE 技術報告:http://sandy-server-87f.notion.site/Chain-of-Experts-Unlocking-the-Communication-Power-of-MoEs-1ab9bb750b7980048d43e6aab3537cea
CoE GitHub 鏈接:https://github.com/ZihanWang314/coe
參考鏈接:
[ 1 ] https://x.com/wzihanw/status/1896601518612021709
[ 2 ] https://github.com/ZihanWang314/RAGEN?tab=readme-ov-file
[ 3 ] https://github.com/deepseek-ai/ESFT