李開復回應放棄預訓練：訓一次大模型三四百萬美元，頭部公司都付得起

今天小編分享的互聯網經驗：李開復回應放棄預訓練：訓一次大模型三四百萬美元，頭部公司都付得起，歡迎閱讀。

文｜周鑫雨

編輯｜蘇建勳

" 零一萬物絕不放棄預訓練。"

2024 年 10 月 16 日，AI 獨角獸零一萬物創始人兼 CEO 李開復，公開立了軍令狀。也在同一天，零一萬物發布了最新的 MoE（混合專家）架構的旗艦大模型：Yi-Lightning。

這也是時隔 5 個月後，零一萬物再次更新模型的新動态。

李開復表示，Yi-Lightning 的訓練只用了 2000 張 GPU，訓練周期僅一個半月，成本只有 300 多萬美元，是埃隆 · 馬斯克的 xAI 成本的 1%、2%。

訓練成本雖然低，但 Yi-Lightning 的性能并沒有打折扣。在加州大學伯克利分校 LMSYS 團隊的 Chatbot Arena（聊天機器人競技場）總榜單上，Yi-Lightning 的性能與 xAI 的 Grok-2-08-13 模型并列第 6，并且超越了 OpenAI 的 GPT-4o-2024-05-13。

LMSYS 團隊的 Chatbot Arena（聊天機器人競技場）大語言模型綜合能力總榜單。圖源：零一萬物

值得注意的是，在中文能力上，Yi-Lightning 與 OpenAI 的最新模型 o1-mini 版本并列取得了第二；在數學能力上，Yi-Lightning 和 Gemini-1.5-Pro-002 并列第 3，僅次于在數學、邏輯推理見長的 o1。

在定價上，Yi-Lightning 也創了零一萬物模型的最低定價：0.99 元 / 百萬 Token。

零一萬物模型定價。圖源：零一萬物官網

當然，榜單排名并不意味着模型在任務場景下的能力。在發布會上，零一萬物着重在實用性上，讓 Yi-Lightining 秀了一把肌肉。

比如，Yi-Lightining 相比 2024 年 5 月發布的 Yi-Large，首包時間（從接收到任務請求到系統開始輸出響應結果之間的時間）縮短了一半，最高生成速度提升了近四倍。

具體到翻譯場景，Yi-Lightining 比豆包、DeepSeek、通義千問最新旗艦模型的翻譯速度更快，且翻譯結果更加信達雅。

四個模型在相同翻譯任務上的表現。圖源：零一萬物

發布會上，李開復也揭秘了 Yi-Lightning 的訓練策略：

獨特的混合注意力機制（Hybrid Attention）：在處理長序列數據的過程中，能夠提高性能的同時，還能降低推理成本；

動态 Top-P 路由機制：根據任務難度自動選擇最合适的專家網絡組合；

多階段訓練（Multi-stage Training）：讓模型在不同階段吸收不同的知識，方便 mixing 團隊進行數據配比的調試工作，并能保證不同階段的訓練速度和穩定性。

在 2024 年 5 月份的發布會上，零一萬物在國内發布了 C 端的生產力產品 " 萬知 "。時隔五個月，零一萬物的 B 端商業化版圖也有了新的進展——聚焦零售和電商等場景的 AI 2.0 數字人。

AI 2.0 數字人的背後，是電商話術大模型、角色大模型、直播聲音大模型的多模态協同訓練。目前，AI 2.0 數字人還接入了 Yi-Lightning。用戶只需要輸入出售的商品、聲音的性别和語調，就能生成相應的數字人。

零一萬物 AI 2.0 數字人接入 Yi-Lightning 前後對比。圖源：零一萬物

如今，大模型發展也來到了技術探索的深水區。即便立下了 " 絕不放棄預訓練 " 的軍令狀，李開復也承認：" 但不是每家公司都可以做這件事情，做這件事情的成本也比較高，以後有可能會越來越少的大模型公司訓練做預訓練。"

不過，對如今六家大模型獨角獸，李開復依然抱有樂觀的态度：

" 據我所知，這六家公司融資額度都是夠的，我們做預訓練的 production run，訓練一次三四百萬美金，這個錢也是頭部公司都付得起，我覺得中國的六家大模型公司只要有夠好的人才，想做預訓練的決心，融資額跟芯片都不會是問題的。"

歡迎交流！