今天小編分享的科技經驗:小米開源“Xiaomi MiMo”大模型:以7B參數超越OpenAI o1-mini,歡迎閱讀。
IT 之家 4 月 30 日消息,小米大模型團隊通過 "Xiaomi MiMo" 公眾号宣布,今天,小米開源首個 " 為推理而生 " 的大模型 Xiaomi MiMo,聯動預訓練到後訓練,全面提升推理能力。據介紹,MiMo 是來自全新成立不久的 " 小米大模型 Core 團隊 " 的初步嘗試。
在數學推理(AIME 24-25)和代碼競賽(LiveCodeBench v5)公開測評集上,MiMo 僅用 7B 的參數規模,超越了 OpenAI 的閉源推理模型 o1-mini 和阿裡 Qwen 更大規模的開源推理模型 QwQ-32B-Preview。
官方表示,MiMo 推理能力的提升,由預訓練和後訓練階段中數據和算法等多層面的創新聯合驅動,包括:
預訓練:核心是讓模型見過更多推理模式數據:着重挖掘富推理語料,并合成約 200B tokens 推理數據。訓練:進行了三階段訓練,逐步提升訓練難度,總訓練 25T tokens。
後訓練:核心是高效穩定的強化學習算法和框架算法:提出 Test Difficulty Driven Reward 來緩解困難算法問題中的獎勵稀疏問題,并引入 Easy Data Re-Sampling 策略,以穩定 RL 訓練。框架:設計了 Seamless Rollout 系統,使得 RL 訓練加速 2.29 倍,驗證加速 1.96 倍。