今天小編分享的科技經驗:Kimi 發布視覺思考模型 k1:試題拍照給出答題思考全過程,歡迎閱讀。
IT 之家 12 月 16 日消息,月之暗面 Kimi 今日發布視覺思考模型 k1。該模型基于強化學習技術打造,原生支持端到端影像理解和思維鏈技術,并将能力擴展到數學之外的更多基礎科學領網域。
月之暗面官方表示,在數學、物理、化學等基礎科學學科的基準能力測試中,初代 k1 模型的表現超過了 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet。
IT 之家從月之暗面官方獲悉,Kimi 新模型發布即上線。k1 視覺思考模型已陸續上線最新版「Kimi 智能助手」的 Android 和 iPhone 手機 App 以及網頁版 kimi.com。在最新版手機 App 或網頁版 Kimi+ 頁面找到「Kimi 視覺思考版」,即可拍照或傳圖體驗。
「Kimi 視覺思考版」會完整呈現推理思維鏈 CoT,讓用戶不只看到答題結果,也能完整看到模型思索答案的全過程。
從模型訓練的角度看,k1 視覺思考模型的訓練分為兩個階段,先通過預訓練得到基礎模型,再在基礎模型上進行強化學習後訓練。k1 的基礎模型重點優化了字元識别能力,在 OCRBench 上得到 903 分的(state-of-the-art)結果,在 MathVista-testmini、MMMU-val 和 DocVQA 基準測試集上分數分别為 69.1、66.7 和 96.9。
月之暗面表示,k1 的強化學習後訓練在數據質量和學習效率方面做了進一步優化,在強化學習的規模化(scaling)上取得了新的突破。
此外,科學的模型能力基準測試方案是大模型行業面臨的重要挑戰之一。由于市面上缺乏針對基礎科學學科的圖形測試集,Kimi 模型研發團隊自主構建了一個标準化的測試集 Science Vista,涵蓋不同難度的數理化圖片題目,且從分布上與實際用戶需求較為匹配。該測試集将開放給全行業,用戶可申請在許可範圍内使用。
在内部測試中,月之暗面也發現了一些 k1 視覺思考模型存在的局限性,例如在分布外(out-of-distribution)的泛化、在更復雜問題上的成功率、在更多噪聲場景的準确率、多輪問答效果等方面,有很大提升空間。在一些場景和泛化能力上,k1 模型與 OpenAI 的 o1 系列模型相比仍有差距。