今天小編分享的互聯網經驗:小米推出首個推理開源大模型Mimo!以7B參數打敗OpenAI o1-mini和阿裡QwQ-32B-Preview,歡迎閱讀。
AI 競賽激烈,小米也加入戰局!
4 月 30 日,小米推出專注推理能力的開源大模型 MiMo,僅用 7B 參數規模在數學推理和代碼競賽測評中超越 OpenAI 的閉源模型 o1-mini 以及阿裡 32B 規模的 QwQ。
據小米介紹,Xiaomi MiMo 誕生之初探索的核心問題就是激發模型推理潛能,這款模型聯動預訓練到後訓練,全面提升推理能力。
國内外 AI 競争日趨白熱化,本周阿裡前腳發布 Qwen 3,馬斯克後腳就官宣 Grok 3.5。而據此前媒體報道,小米正在建設萬卡 GPU 集群,并引入頂尖 AI 人才,顯示出對大模型領網域的全面投入。
性能突破:小參數量實現大能力
Xiaomi MiMo 這款模型最引人注目之處在于,在數學推理(AIME 24-25)和 代碼競賽(LiveCodeBench v5)公開測評集上,MiMo 僅用 7B 的參數規模,超越了 OpenAI 的閉源推理模型 o1-mini 和阿裡 Qwen 更大規模的開源推理模型 QwQ-32B-Preview。
更值得注意的是,在相同強化學習 ( RL ) 訓練數據條件下,MiMo-7B 在數學和代碼領網域展現出的強化學習潛力明顯領先于業界廣泛使用的其他模型,包括 DeepSeek-R1-Distill-7B 和 Qwen2.5-32B 等知名強化學習起步模型。
技術關鍵:預訓練與後訓練雙輪驅動
據小米介紹,MiMo 模型的成功并非偶然,而是來自于預訓練和後訓練兩個階段的多層面創新。
在預訓練階段,小米團隊着重挖掘富含推理模式的語料,并合成了約 200B tokens 的推理數據。訓練過程采用三階段策略,逐步提升訓練難度,累計訓練了 25T tokens,這一訓練量在同等規模模型中處于領先水平。
後訓練階段的創新更為關鍵,小米團隊提出了 "Test Difficulty Driven Reward" 機制,有效解決了困難算法問題中獎勵稀疏的問題。同時引入 "Easy Data Re-Sampling" 策略,顯著提升了強化學習訓練的穩定性。在框架層面,他們設計了 "Seamless Rollout" 系統,使得強化學習訓練速度提升 2.29 倍,驗證速度提升 1.96 倍。
技術之外:小米的 AI 全面投入戰略
據界面新聞報道,小米正在搭建自己的 GPU 萬卡級集群,将對 AI 大模型進行大力投入。一名知情人士透露,該計劃已經實施數月之久,小米創始人雷軍親自參與領導。該人士強調:" 在 AI 硬體這件事情上,最核心的是手機而不是眼鏡,小米在這個領網域不 'all in' 是不可能的。"
小米的 AI 人才布局也在加速。12 月 20 日,第一财經報道稱 DeepSeek 開源大模型 DeepSeek-V2 的關鍵開發者之一羅福莉将加入小米,或供職于小米 AI 實驗室,領導小米大模型團隊。羅福莉是 MLA(Multi-head Latent Attention)技術的核心開發者之一,該技術在降低大模型使用成本上發揮了關鍵作用。