今天小編分享的科技經驗:蘋果推出 300 億參數多模态 AI 大模型 MM1.5,歡迎閱讀。
IT 之家 10 月 13 日消息,蘋果公司現已為旗下多模态大模型 MM 推出 1.5 版本,該版本模型基于前代 MM1 的架構,繼續延續數據驅動的訓練原則,重點研究在不同訓練周期中混合不同類型數據對模型性能的影響。
目前相關模型文檔已發布于 Hugging Face 上,IT 之家附論文地址如下(點此訪問)。
該版本模型提供 10 億 -300 億多種參數規模,擁有影像識别和自然語言推理能力。蘋果公司研發人員在新版本中改進了數據混合策略,顯著提升了模型在多文本影像理解、視覺引用與定位(Grounding)以及多影像推理方面的能力。
參考論文,團隊在 MM1.5 的持續預訓練階段引入了高質量的 OCR 數據和合成影像描述,顯著提升了模型對包含大量文本的影像的理解能力。
此外,研究人員在監督式微調階段分析了不同數據類型對模型表現的影響,優化了視覺指令微調數據的混合方式,從而為模型實現了更高的效率,團隊表示,即便是小規模的模型(10、30 億參數版本)也能表現出色。
值得關注的是,蘋果公司本次還推出了專門用于視頻理解的 MM1.5-Video 模型和專門處理移動設備用戶界面(UI)理解的 MM1.5-UI 模型,其中 MM1.5-UI 模型未來有望作為 iOS 幕後的 " 蘋果牌 "AI,其能夠處理各種視覺引用與定位任務、總結螢幕上的功能,或者通過與用戶的對話進行互動。
盡管 MM1.5 模型在多項基準測試中取得了優秀表現,蘋果團隊仍計劃通過進一步融合文本、影像和用戶互動數據,設計更復雜的架構,來提升模型對移動設備 UI 的理解能力,加強 " 蘋果牌 "AI 的實力。