大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

DeepSeek前實習生魔改MoE,用迭代機制把内存需求砍了42%,團隊:“免費午餐”優化方法

2025-03-05 简体 HK SG TW

今天小編分享的科學經驗:DeepSeek前實習生魔改MoE,用迭代機制把内存需求砍了42%,團隊:“免費午餐”優化方法,歡迎閱讀。

DeepSeek MoE" 變體 " 來了,200 美元以内,内存需求減少 17.6-42%!

名叫CoE(Chain-of-Experts),被認為是一種 " 免費午餐 " 優化方法,突破了 MoE 并行獨立處理 token、整體參數數量較大需要大量内存資源的局限。

與并行處理不同,CoE 使專家能在單層内串行通信,形成一種迭代機制,即專家能 " 溝通 ",在其它專家輸出之上處理 token。

研究團隊在實驗中發現,經過 2 次迭代的 CoE,在相同的計算預算下将數學任務的驗證損失從 1.20 降低至 1.12,僅僅通過重構信息流就獲得了性能提升。

通過擴展 CoE 的迭代次數,在性能相當的情況下,内存使用比通過增加模型層數或擴展專家選擇數量的方法降低了 17.6-42%。

另外,在專家組合自由度、專家使用效率等其它方面,CoE 也都具有顯著優勢,專家組合增加 823 倍。

目前,研究團隊曬出了 CoE 技術 Blog(完整論文即将發布),引起不少網友圍觀。

翻看作者主頁,還發現作者 Zihan Wang 真曾在 DeepSeek 實習過

有網友看過這項研究表示:

MoEs 中的 IsoFLOP 層迭代設計,非常奈斯。

還有網友已經開始預測下一代架構了。

CoE 究竟長啥樣?以下是團隊發布的 Notion Blog 介紹。

CoE 專門針對稀疏 MoE 打造

CoE 關鍵創新在于建立溝通性處理機制,改變了稀疏神經網絡的信息處理方式。

具體來說,是通過在單個層的迭代中将 MoE 輸出反饋為多次迭代的輸入來實現的。

CoE 迭代處理機制可以形式化表示為下面這個樣嬸兒:

參考 DeepSeek-V2 的實現,研究團隊定義門控機制為如下:

團隊介紹,這種設計的好處在于每次迭代的專家選擇由前一次迭代的輸出決定,形成專家間的依賴關系和更動态的路由機制。

而且串行信息可以在迭代過程中累積,實現專家間的直接通信。

實驗采取 DeepSeek V2 架構,在參數規模為 500M 的 MoE 模型上使用 32K Tok 的 batch size 訓練 1000 步,以此來驗證 CoE 的有效性。

結果 CoE 在性能、擴展策略、資源效率優化、專家組合自由度、專家使用效率方面具有顯著優勢。

除了開頭所展示的在相似的算力和内存要求下,CoE 将 loss 從 1.20 下降至 1.12,且有更陡峭的下降趨勢。

團隊進一步在 "dense"(專家 8 選 8)模型上也進行了測試,結果證明了串行處理在 Sparse MoE 上相比 Dense 模型更有效,CoE 是一種專為(細粒度)稀疏混合專家模型(Sparse MoE)設計的方法。

采取 2 次序列化處理并不能顯著提升 Dense 模型性能。

另外,在計算量和效果相似的情況下,CoE 可以減小對内存的要求。如下,CoE-2(4/48)的效果與 MoE(8/64)相近,但使用更少的總專家數量。loss match 的情況下減小了 17.6% 的内存需求。

團隊還對比了在預算相似的情況下,擴展 CoE 迭代次數和擴展模型層數、擴展專家選擇個數的效果,結果擴展 CoE 迭代次數更優。

CoE-2(8/64),4 層 vs MoE(8/64),8 層 /12 層,8 層 MoE 和 CoE 效果幾乎相同,但是對内存要求高 72%,即 CoE 相對節省了 42% 内存。

團隊強調,獨立門控機制和内殘差連接是 CoE 的關鍵架構創新,消融研究表明,移除任何組件都會顯著降低性能。

更多細節,感興趣的童鞋可以查看技術報告原文~

誰造的?

CoE 由一個 5 人組成的團隊提出。

Zihan Wang 是美國西北大學計算機科學專業博士生,本科畢業于中國人民大學高瓴人工智能學院,研究聚焦于基礎模型的自主性、效率以及長上下文理解。

Zihan Wang 曾在 DeepSeek 工作過,是 ESFT(Expert-Specialized Fine-Tuning)的論文一作。

ESFT 通過僅調整與任務相關的部分高效地定制采用 MoE,從而在減少資源和存儲使用的同時提升效率和性能。

CoE 不是 Zihan Wang 第一次針對 DeepSeek 搞的 " 變體 "。

之前他還曾基于 verl 復現了 DeepSeek-R1(-Zero)框架—— RAGEN (Reinforcement learning AGENt),在 GitHub 攬星近 1k:

Zihan Wang 師從 Manling Li。Manling Li 是西北大學計算機科學系助理教授,此前曾在吳佳俊教授的指導下工作,并得到李飛飛教授的指導。

RAGEN 的貢獻者名單中也有 Manling Li、吳佳俊、李飛飛的身影。

CoE 技術報告:http://sandy-server-87f.notion.site/Chain-of-Experts-Unlocking-the-Communication-Power-of-MoEs-1ab9bb750b7980048d43e6aab3537cea

CoE GitHub 鏈接:https://github.com/ZihanWang314/coe

參考鏈接:

[ 1 ] https://x.com/wzihanw/status/1896601518612021709

[ 2 ] https://github.com/ZihanWang314/RAGEN?tab=readme-ov-file

[ 3 ] https://github.com/deepseek-ai/ESFT

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們