今天小編分享的互聯網經驗:李開復回應放棄預訓練:訓一次大模型三四百萬美元,頭部公司都付得起,歡迎閱讀。
文|周鑫雨
編輯|蘇建勳
" 零一萬物絕不放棄預訓練。"
2024 年 10 月 16 日,AI 獨角獸零一萬物創始人兼 CEO 李開復,公開立了軍令狀。也在同一天,零一萬物發布了最新的 MoE(混合專家)架構的旗艦大模型:Yi-Lightning。
這也是時隔 5 個月後,零一萬物再次更新模型的新動态。
李開復表示,Yi-Lightning 的訓練只用了 2000 張 GPU,訓練周期僅一個半月,成本只有 300 多萬美元,是埃隆 · 馬斯克的 xAI 成本的 1%、2%。
訓練成本雖然低,但 Yi-Lightning 的性能并沒有打折扣。在加州大學伯克利分校 LMSYS 團隊的 Chatbot Arena(聊天機器人競技場)總榜單上,Yi-Lightning 的性能與 xAI 的 Grok-2-08-13 模型并列第 6,并且超越了 OpenAI 的 GPT-4o-2024-05-13。
LMSYS 團隊的 Chatbot Arena(聊天機器人競技場)大語言模型綜合能力總榜單。圖源:零一萬物
值得注意的是,在中文能力上,Yi-Lightning 與 OpenAI 的最新模型 o1-mini 版本并列取得了第二;在數學能力上,Yi-Lightning 和 Gemini-1.5-Pro-002 并列第 3,僅次于在數學、邏輯推理見長的 o1。
在定價上,Yi-Lightning 也創了零一萬物模型的最低定價:0.99 元 / 百萬 Token。
零一萬物模型定價。圖源:零一萬物官網
當然,榜單排名并不意味着模型在任務場景下的能力。在發布會上,零一萬物着重在實用性上,讓 Yi-Lightining 秀了一把肌肉。
比如,Yi-Lightining 相比 2024 年 5 月發布的 Yi-Large,首包時間(從接收到任務請求到系統開始輸出響應結果之間的時間)縮短了一半,最高生成速度提升了近四倍。
具體到翻譯場景,Yi-Lightining 比豆包、DeepSeek、通義千問最新旗艦模型的翻譯速度更快,且翻譯結果更加信達雅。
四個模型在相同翻譯任務上的表現。圖源:零一萬物
發布會上,李開復也揭秘了 Yi-Lightning 的訓練策略:
獨特的混合注意力機制(Hybrid Attention):在處理長序列數據的過程中,能夠提高性能的同時,還能降低推理成本;
動态 Top-P 路由機制:根據任務難度自動選擇最合适的專家網絡組合;
多階段訓練(Multi-stage Training):讓模型在不同階段吸收不同的知識,方便 mixing 團隊進行數據配比的調試工作,并能保證不同階段的訓練速度和穩定性。
在 2024 年 5 月份的發布會上,零一萬物在國内發布了 C 端的生產力產品 " 萬知 "。時隔五個月,零一萬物的 B 端商業化版圖也有了新的進展——聚焦零售和電商等場景的 AI 2.0 數字人。
AI 2.0 數字人的背後,是電商話術大模型、角色大模型、直播聲音大模型的多模态協同訓練。目前,AI 2.0 數字人還接入了 Yi-Lightning。用戶只需要輸入出售的商品、聲音的性别和語調,就能生成相應的數字人。
零一萬物 AI 2.0 數字人接入 Yi-Lightning 前後對比。圖源:零一萬物
如今,大模型發展也來到了技術探索的深水區。即便立下了 " 絕不放棄預訓練 " 的軍令狀,李開復也承認:" 但不是每家公司都可以做這件事情,做這件事情的成本也比較高,以後有可能會越來越少的大模型公司訓練做預訓練。"
不過,對如今六家大模型獨角獸,李開復依然抱有樂觀的态度:
" 據我所知,這六家公司融資額度都是夠的,我們做預訓練的 production run,訓練一次三四百萬美金,這個錢也是頭部公司都付得起,我覺得中國的六家大模型公司只要有夠好的人才,想做預訓練的決心,融資額跟芯片都不會是問題的。"
歡迎交流!