DeepSeek前實習生魔改MoE，用迭代機制把内存需求砍了42%，團隊：“免費午餐”優化方法 - 大酷樂

今天小編分享的科學經驗：DeepSeek前實習生魔改MoE，用迭代機制把内存需求砍了42%，團隊：“免費午餐”優化方法，歡迎閱讀。

DeepSeek MoE" 變體 " 來了，200 美元以内，内存需求減少 17.6-42%！

名叫CoE（Chain-of-Experts），被認為是一種 " 免費午餐 " 優化方法，突破了 MoE 并行獨立處理 token、整體參數數量較大需要大量内存資源的局限。

與并行處理不同，CoE 使專家能在單層内串行通信，形成一種迭代機制，即專家能 " 溝通 "，在其它專家輸出之上處理 token。

研究團隊在實驗中發現，經過 2 次迭代的 CoE，在相同的計算預算下将數學任務的驗證損失從 1.20 降低至 1.12，僅僅通過重構信息流就獲得了性能提升。

通過擴展 CoE 的迭代次數，在性能相當的情況下，内存使用比通過增加模型層數或擴展專家選擇數量的方法降低了 17.6-42%。

另外，在專家組合自由度、專家使用效率等其它方面，CoE 也都具有顯著優勢，專家組合增加 823 倍。

目前，研究團隊曬出了 CoE 技術 Blog（完整論文即将發布），引起不少網友圍觀。

翻看作者主頁，還發現作者 Zihan Wang 真曾在 DeepSeek 實習過

有網友看過這項研究表示：

MoEs 中的 IsoFLOP 層迭代設計，非常奈斯。

還有網友已經開始預測下一代架構了。

CoE 究竟長啥樣？以下是團隊發布的 Notion Blog 介紹。

CoE 專門針對稀疏 MoE 打造

CoE 關鍵創新在于建立溝通性處理機制，改變了稀疏神經網絡的信息處理方式。

具體來說，是通過在單個層的迭代中将 MoE 輸出反饋為多次迭代的輸入來實現的。

CoE 迭代處理機制可以形式化表示為下面這個樣嬸兒：

參考 DeepSeek-V2 的實現，研究團隊定義門控機制為如下：

團隊介紹，這種設計的好處在于每次迭代的專家選擇由前一次迭代的輸出決定，形成專家間的依賴關系和更動态的路由機制。

而且串行信息可以在迭代過程中累積，實現專家間的直接通信。

實驗采取 DeepSeek V2 架構，在參數規模為 500M 的 MoE 模型上使用 32K Tok 的 batch size 訓練 1000 步，以此來驗證 CoE 的有效性。

結果 CoE 在性能、擴展策略、資源效率優化、專家組合自由度、專家使用效率方面具有顯著優勢。

除了開頭所展示的在相似的算力和内存要求下，CoE 将 loss 從 1.20 下降至 1.12，且有更陡峭的下降趨勢。

團隊進一步在 "dense"（專家 8 選 8）模型上也進行了測試，結果證明了串行處理在 Sparse MoE 上相比 Dense 模型更有效，CoE 是一種專為（細粒度）稀疏混合專家模型（Sparse MoE）設計的方法。

采取 2 次序列化處理并不能顯著提升 Dense 模型性能。

另外，在計算量和效果相似的情況下，CoE 可以減小對内存的要求。如下，CoE-2（4/48）的效果與 MoE（8/64）相近，但使用更少的總專家數量。loss match 的情況下減小了 17.6% 的内存需求。

團隊還對比了在預算相似的情況下，擴展 CoE 迭代次數和擴展模型層數、擴展專家選擇個數的效果，結果擴展 CoE 迭代次數更優。

CoE-2（8/64）,4 層 vs MoE（8/64）,8 層 /12 層，8 層 MoE 和 CoE 效果幾乎相同，但是對内存要求高 72%，即 CoE 相對節省了 42% 内存。

團隊強調，獨立門控機制和内殘差連接是 CoE 的關鍵架構創新，消融研究表明，移除任何組件都會顯著降低性能。

更多細節，感興趣的童鞋可以查看技術報告原文～

誰造的？

CoE 由一個 5 人組成的團隊提出。

Zihan Wang 是美國西北大學計算機科學專業博士生，本科畢業于中國人民大學高瓴人工智能學院，研究聚焦于基礎模型的自主性、效率以及長上下文理解。

Zihan Wang 曾在 DeepSeek 工作過，是 ESFT（Expert-Specialized Fine-Tuning）的論文一作。

ESFT 通過僅調整與任務相關的部分高效地定制采用 MoE，從而在減少資源和存儲使用的同時提升效率和性能。

CoE 不是 Zihan Wang 第一次針對 DeepSeek 搞的 " 變體 "。

之前他還曾基于 verl 復現了 DeepSeek-R1（-Zero）框架—— RAGEN （Reinforcement learning AGENt），在 GitHub 攬星近 1k：

Zihan Wang 師從 Manling Li。Manling Li 是西北大學計算機科學系助理教授，此前曾在吳佳俊教授的指導下工作，并得到李飛飛教授的指導。

RAGEN 的貢獻者名單中也有 Manling Li、吳佳俊、李飛飛的身影。

CoE 技術報告：http://sandy-server-87f.notion.site/Chain-of-Experts-Unlocking-the-Communication-Power-of-MoEs-1ab9bb750b7980048d43e6aab3537cea

CoE GitHub 鏈接：https://github.com/ZihanWang314/coe

參考鏈接：

[ 1 ] https://x.com/wzihanw/status/1896601518612021709

[ 2 ] https://github.com/ZihanWang314/RAGEN?tab=readme-ov-file

[ 3 ] https://github.com/deepseek-ai/ESFT