搞 AI 的是真沒錢了

今天小編分享的财經經驗：搞 AI 的是真沒錢了，歡迎閲讀。

出品 | 虎嗅科技組

作者 | 王一鵬

頭圖 | 視覺中國

4 月 5 日上午，一個來自 MIT、普林斯頓等研究機構的華人團隊發布了自己的大模型 JetMoE ，宣布用 10 萬美元的訓練成本，就可以訓練出媲美 LLaMA2 級别的大模型——後者成本高達數十億美元。賈揚清第一時間進行了轉評贊，直指其核心在于 MoE 架構。

此前，MoE 架構始終是一個位于輿論水面下的大模型技術，人們醉心于大模型的技術突破，而以吃瓜的心态看待其背後的成本問題。但當 Stability AI CEO 及核心團隊相繼離職，公司被曝每月運營成本高達 800 萬美元以上，完全入不敷出時，大家才真正的認識到：不是中國 AI 圈窮，而是全球 AI 圈都真的沒錢了——大模型就像個 " 碎鈔機 "，無論硅谷公司，還是中國公司，都難以承受。

因此，MoE 作為一種可以降低運營成本、提升訓練效率的架構，驟然成為全世界大模型公司的關注重點。

去年 12 月，Mistral AI 發布 8x7B-MoE 模型，成為全球首個開源的 MoE 大模型；今年 1 月，Minimax 宣布發布國内首個 MoE 大語言模型 abab6；在接下來的幾個月，Google、APUS、達觀、階躍星辰等企業以及馬斯克，都紛紛發布了自己的 MoE 模型。考慮到研發周期的問題，至少在 GPT-4 剛發布的時間（2023 年 3 月），有遠見的公司就已經确定了 MoE 的架構方向。

即便是 OpenAI ，當下對其 GPT-4 技術猜測的主流觀點也認為，他們一定采用了 MoE 架構。

MoE 不太省心，但确實可以降本

MoE 架構的中文名稱是混合專家架構，是神經網絡的一種架構模式。它将神經網絡拆抽成多個專家子網絡，面對一次輸入，既可以指定某一位 " 專家 " 來回答，也可以要求多位 " 專家 " 回答，甚至全部參與回答，最終依據權重綜合給出結果。

這使得 MoE 架構的可擴展性優秀，開發者可以在一個巨型模型上，繼續增加參數量，進行橫向擴展。同時因為 MoE 可以選擇只啓用部分專家子模型，也在保持性能的同時，降低了推理成本。另外 MoE 架構允許數據在多個專家模型之間進行分配和并行處理，因此可以提高模型的訓練和推理速度。

聽起來全是優點，但是 MoE 架構的訓練難度很大。

一個最主要的問題是，MoE 架構很難保證每個 " 專家 " 都能得到充分訓練。決定了哪些 " 專家 "，以多大權重參與回答的核心部件是門控網絡（Gate Network）。如果門控網絡傾向于選擇某些特定的 " 專家 "，可能會導致其他 " 專家 " 得不到充分的訓練，從而造成訓練不穩定。而且在 MoE 架構中，不同的 " 專家 " 可能會被分配到不同數量的輸入樣本。如果某些 " 專家 " 被分配的樣本過多或過少，可能會導致負載不平衡，影響模型的訓練效率和最終性能。

但對于全球 AI 企業，尤其是中國企業而言，這已經是兩年來的最好局面了——至少我們可以用軟體技術解決問題，而不是看着芯片和賬户幹着急。

從實際情況來看，國内 MoE 架構的產品進展也較為樂觀。

MiniMax 作為最早發力 MoE 架構的主兒，一直在幹悶聲發大财的事兒，投資人看重的有場景、有客户等幾個要點，MiniMax 都具備。根據其官方為數不多的、對外透露的信息顯示，金山辦公、小紅書、騰訊、小米、閲文集團都是其客户。盡管這類大客户很可能同時采購了多個基礎模型服務，但依然顯示出 MiniMax 進展好像不錯。今年 3 月，阿裏被曝參與 MiniMax 下一輪融資，領投 6 億，據稱紅杉也承諾将參與本輪融資。某種程度上，這也代表着頭部資本對 MoE 這一技術路線的認可。

而就在 4 月 1 日，APUS（麒麟合盛）放出的信息更加露骨地説明了這一問題——其聯合新旦智能訓練的大模型 APUS-xDAN 大模型 4.0（MoE）将于近日宣布開源。

在早期放出的信息中，APUS 重點提到了兩點：

● 參數規模為 1360 億，國内開源模型中參數規模最大；

● 是國内首個支持在 4090 低端算力上訓練的千億參數開源大模型；

説白了，便于橫向擴展，是事實，但可能不是主要因素，物美價廉，才是核心。

不玩 MoE，就搞小模型

這種降本的決心貫徹的有多徹底，再看看不搞 MoE 架構的廠商就知道了。

面壁智能 2 月份發布了自己的端側模型 Minicam，官方稱該模型以 2B 的尺寸可以超越 Mistral-7B，媲美 Llama2-13B。虎嗅 3 月邀請了面壁智能曾國洋參與 AI 内參會聊到該模型，曾國洋表示，現在業内普遍沒有将小尺寸模型的潛力挖掘幹淨，面壁追求的是如何實現更合理的訓練，而不是單純的堆模型參數量。

從產品定位上來講，當然可以説這是做端側模型的應有之義。但從成本價角度而言，這也是除開 MoE 架構外的又一次降本嘗試。CEO 李大海在面壁的發布會上重點聊過這個問題：成本是大模型的隐形競争力。面壁 MiniCPM 在端側的部署中，可以支持 CPU 推理，同時發布的量化版本，可以做到壓縮 75%，性能基本無損。如果使用骁龍 855 芯片，成本約 600 元人民币，按照運行 5 年計算，每秒 7.5 tokens，那麼 170 萬 tokens 的推理成本需人民币 1 元。成本為 Mistral-Medium 的百分之一。

小模型這套路能走多遠，是否因為短期的苟且，導致在 AGI 層面的發展繼續落後？如果之前還存在這個疑惑，那麼 AI PC、AI 手機熱潮的興起，多少給大家增加了些信心。

盡管現在 AI PC、AI 手機是噱頭成分居多，真正在 C 端有決定意義的價值點較少。但這趟列車已經綁定了太多的人：高通、英特爾、三星、聯想……以及一系列基礎模型廠商、模型中間件廠商。某種意義上，這是 " 元宇宙 Plus" 版的概念列車，必須找到終點，也必須駛到終點。與當年元宇宙的情況不同的是，大模型當下的技術發展曲線，仍在陡峭上升中——

至少在 GPT-5 發布前，所有的商業故事，都會如約講下去。