國產大模型競技場首超GPT-4o！零一萬物GLM共同跻身Top10 - 大酷樂

今天小編分享的科學經驗：國產大模型競技場首超GPT-4o！零一萬物GLM共同跻身Top10，歡迎閲讀。

國產大模型首次在公開榜單上超過 GPT-4o！

就在剛剛，" 大模型六小強 " 之一的零一萬物正式對外發布新旗艦模型——Yi-Lightning（閃電）。

在大模型競技場（Chatbot Arena）上，Yi-Lightning 性能直衝總榜單并列第6，數學分榜并列第 3，代碼等其它分榜也名列前茅。

總成績幾乎與馬斯克最新 xAI 大模型 Grok-2-08-13 持平，超越 GPT-4o-2024-05-13、GPT-4o-mini-2024-07-18、Claude 3.5 Sonnet 等頂流。

同時，國内清華系大模型公司智譜 AI 的GLM-4-Plus也殺進了總榜，位居第 9位。

該榜單結果來自全球累積超千萬次的人類用户盲測投票。

前段時間大模型競技場還剛剛更新了規則，新榜單對 AI 回答的長度和風格等特征做了降權處理，分數更能反映模型真正解決問題的能力。

這次 Yi-Lightning 殺出重圍，Lmsys 團隊特意發帖子，稱這是競技場上的大新聞：

大模型競技場總榜第六、國產第一

細看大模型競技場分類榜上的 " 賽況 "，Yi-Lightning 各項能力都排在前頭。

在中文能力上，Yi-Lightning 和 GLM-4-Plus 兩個國產大模型都名列前位。

Yi-Lightning 躍居并列第二，和 o1-mini 相差無幾。

數學能力，Yi-Lightning 和 Gemini-1.5-Pro-002 并列第 3，僅次于 o1-preview、o1-mini。

代碼能力 Yi-Lightning 排名并列第 4。

另外在Hard Prompts和Longer Query分榜，Yi-Lightning 也都排在第 4 位。

最後同樣值得關注的是，競技場新功能風格控制過濾，确保分數反映模型真正解決問題的能力，而不是用漂亮的格式、增加回答長度。

在對長度和風格等特征做了降權處理後，所有模型分數均有下降，Yi-Lightning 排名變化不大，整體還與 GPT-4o、Grok-2 同一梯隊。

發布會上，零一萬物創始人兼 CEO 李開復博士展示了 Yi-Lightning 在不同場景上的能力。

Yi-Lightning 主打一個 " 推理速度更快，生成質量更好 "。

相比上半年 Yi-Large，Yi-Lightning 首包速度提升 1 倍，推理速度也提升了 4 成。

像是翻譯下面這種文學作品，Yi-Lightning 不僅速度更快：

而且用詞更精準，更具文學色彩：

那麼 Yi-Lightning 是如何做到的？

好用還得極速

Yi-Lightning 采用MoE混合專家模型架構。

底層技術上，Yi-Lightning 在以下方面進行了提升。

首先是優化混合注意力機制（Hybrid Attention），只在模型的部分層次中将傳統的全注意力（Full Attention）替換為滑動視窗注意力（Sliding Window Attention）。

由此以來，模型在保證處理長序列數據高性能表現的同時，還能大大降低推理成本。

Yi-Lightning 還引入了跨層注意力（Cross-Layer Attention, CLA），允許模型在不同的層次之間共享鍵（Key）和值（Value）頭，減少對存儲需求。

這使得 Yi-Lightning 能在不同層次之間更有效地共享信息。

總的來説，KV cache 縮小了 2-4 倍，同時将計算的復雜度從 O ( L ² ) 降至 O ( L ) 。

其次，Yi-Lightning 還采用了動态 Top-P 路由機制。

也就是説，Yi-Lightning 可以根據任務的難度動态自動選擇最合适的專家網絡組合——

訓練過程中會激活所有專家網絡，使模型能學習到所有專家知識；而推理階段，根據任務的難度，模型會選擇性激活更匹配的專家網絡。

另外，之前有一些傳言稱國内大模型 " 六小強 "，有一些已經不做預訓練了，李開復博士這次在發布會上直接 " 辟謠 "：

零一萬物絕不放棄預訓練。

而且在模型預訓練階段，團隊還積累了豐富的多階段訓練方法，将整個訓練分為兩塊，一塊做好以後就把它固定起來，然後在這個固定的模型上再做後段訓練。

訓練前期，更注重數據多樣性，使得 Yi-Lightning 盡可能學習不同的知識；訓練後期更重内容更豐富、知識性更強的數據。

同時團隊還在不同階段采用不同的 batch size 和 LR schedule 保證訓練速度和穩定性。

李開復博士還表示，零一萬物開發模型講究 " 模基共建 "，也就是共建模型和基礎架構。

模型的訓練、服務、推理設計，與底層的 AIInfra 架構和模型結構必須高度适配。

這樣做的目的，不僅是讓模型更好，而且讓它在推理的時候能夠更便宜。

再加上以上種種抬升 " 性價比 " 的技術加持，所以 Yi-Lightning 這次也是打到了白菜價——

0.99 元每 1M token

在中文等方面，Yi-Lightning 比肩 OpenAI 的 o1-mini，o1-mini 的定價是每百萬輸入 3 美元，每百萬輸出 12 美元。

Yi-Lightning 每百萬 token 只需 0.99RMB 也是打到了骨折。

但李開復博士表示，即便這樣也：不虧錢。

除了發布新模型，零一萬物這次還首發了AI2.0 數字人方案。

目前該數字人已接入 Yi-Lightning，實時互動效果相比以往更強更自然了，belike：

最後談起和國外頭部大模型的差距，李開復博士表示這次 Yi-Lightning 的排名證明了國產大模型跟硅谷最頂尖模型的差距縮小到了五個月。

去跟追上美國最頂尖的模型，縮短這個時間差非常困難，要付出很大的努力和有獨特的打法。在國内不少公司都在努力，" 模基共建 " 則是零一萬物自己摸索的獨特路徑。

參考鏈接：

[ 1 ] https://x.com/lmarena_ai/status/1846245604890116457

[ 2 ] https://x.com/01AI_Yi/status/1845776529185476613