今天小編分享的科技經驗:比 GPT-4o 還牛?微軟推出多模态模型,機器人秒變收納高手,歡迎閱讀。
機器人前瞻 2 月 21 日報道,近日,微軟研究院發布了一個多模态 AI 模型—— Magma。Magma 是首個能夠在其所處環境中理解多模态輸入并将其與實際情況相聯系的基礎模型,只要提供一個描述性目标,Magma 就能夠制定計劃、執行行動以達成該目标。
Magma 以視覺語言(VL)模型為基礎,除了保留傳統的語言和視覺的理解能力(語言智能)外,還解鎖了空間智能的新技能,能夠從多模态輸入(用戶界面截圖、機器人影像、教學視頻)中理解對象的物理位置、動作的時序邏輯,并在不同環境(數字界面與物理世界)中完成連貫的任務。
值得一提的是,論文的作者中,13 位有 12 位應該是華人。中美 AI、機器人競賽的背後,果然還是在美華人和在華中國人之間的較量。
Magma 采用了深度學習架構和大規模預訓練相結合的方法,該模型使用 ConvNeXt-XXL 視覺骨幹處理影像和視頻,同時使用 LLaMA-3-8B 語言模型處理文本輸入。
Magma 是通過一個包含 3900 萬個樣本的多樣化數據集進行訓練的,其中包括影像、視頻和機器人動作軌迹。
這個模型還創新采用了兩項技術 :" 可标記集 "(Set-of-Mark,SoM)和 " 軌迹标記 " ( Trace-of-Mark,ToM ) 。前者使模型能夠标記 UI 環境中的可操作視覺對象,後者則使其能夠追蹤物體随時間的移動,提升未來行動的規劃能力。
研究團隊對包括 ChatGPT 在内的多個模型進行了零樣本評估,結果顯示,經過預訓練的 Magma 模型在未進行任何特定領網域微調情況下,是唯一一款能夠執行全範圍任務的模型。
将 Magma 和 OpenVLA 這兩個模型應用到 WidowX 機械臂上,當讓機械臂組裝桌面上的熱狗模型、把蘑菇模型放到盆中、把桌子上的抹布從左邊移動至右邊時,Magma 可以讓機械臂比較精确地完成任務,而 OpenVLA 則在物體抓取、移動上表現略遜色于前者。
Magma 應用到 WidowX 機械臂并經過少樣本的微調後,在分布内和分布外泛化任務中,都有着可靠的性能表現。
在 LIBERO 平台上進行的少樣本微調,Magma 在所有任務組中都取得了更高的平均成功率。
在 Google Robots 和 Bridge 上進行的零樣本評估中,Magma 模型也展現出了較強的零樣本跨網域魯棒性,并在抓取多種不同物品等跨實體操作模拟任務中取得了不錯成績。
處理一些比較有挑戰性的空間推理難題時,雖然 Magma 的預訓練數據比 GPT-4o 少得多,但是也可以準确地進行回答。
針對多模态理解方面,Magma 的表現甚至超越了 Video-Llama2 和 ShareGPT4Video。比如,當給 Magma 提供一段視頻時,看到有人拿起茶包,它能秒猜下一步要倒熱水泡茶。
Magma 成功整合了視覺、語言和行動,在機器人任務操作上表現出了較高的泛化能力。未來,随着模型研究的不斷深入及模型規模的擴展,Magma 也有望為解決更復雜的機器人操作問題提供不錯的解決方案,讓機器人距離真正的落地應用更進一步。