今天小編分享的科技經驗:國内首次!機器人無縫銜接人類操作數據,歡迎閱讀。
機器人前瞻 2 月 18 日報道,最近,逐際動力發布了基于視頻生成大模型的具身操作算法(VideoGenMotion)——LimX VGM,實現了國内首次将人類操作數據直接應用于機器人操作。
一直以來,具身智能都面臨着諸多數據難題:人類操作視頻無法直接應用于機器人操作;大模型雖然能夠根據這些視頻生成行為軌迹和操作數據,但往往存在精度不足、偏離物理規律、存在幻覺等缺陷,即使數據準确,仍然無法直接應用于機器人操作。
LimX VGM 通過人類操作視頻數據對現有的視頻生成大模型進行後訓練,僅需将場景圖片和操作任務指令作為提示 Prompts,即可實現任務理解與拆分、物體操作軌迹生成以及機器人操作執行的全流程,全過程零真機樣本數據,并且可實現多平台泛化。
具體來說,LimX VGM 的工作流程包括以下三個關鍵步驟:
訓練階段:采集若幹真實人類操作的視頻,對現有的視頻生成大模型進行後訓練。
推理階段:以初始場景結合任務操作指令作為提示 Prompts,利用經過後訓練的視頻生成大模型生成帶深度信息的人類操作視頻,進而根據人類操作視頻,生成機器人操作的行為。
執行階段:算法輸出符合機器人操作邏輯的行為解算,由機器人執行相應的操作軌迹。
LimX VGM的工作流程背後,還有三大具身技術核心創新點:
1、人類操作視頻到機器人操作策略及行為的橋接
LimX VGM 不做視頻生成大模型,而是利用當前已有的大模型框架,通過有效訓練從中提取對執行操作任務有用的關鍵信息,轉化為機器人操作策略及行為。
之後,LimX VGM 只需額外采集少量的人類操作視頻數據,即可用于機器人操作,全程零真機數據,讓數據采集工作變得簡單、成本低,且效率高。随着大模型不斷更新,LimX VGM 将具備更加豐富、全面的操作知識,生成更有效的操作策略,進一步提升算法的泛化性。
▲ LimX VGM 只需額外采集少量的人類操作視頻數據
2、引入空間智能,突破 2D 生成視頻局限
通過引入空間智能 Spatial Intelligence 模塊,LimX VGM 對視頻生成大模型進行後訓練時,引入深度信息,讓生成的操作視頻直接包含三維空間數據,這是讓機器人能夠進行物理空間操作的關鍵。LimX VGM 深度信息的采集過程簡單、易得且高效,僅需通過深度相機捕捉人手真實操作過程即可。
▲ LimX VGM 引入深度信息,讓生成的操作視頻直接包含三維空間數據
3、算法與機器人本體的解耦,可跨平台部署
LimX VGM 的整個訓練過程僅依靠人類操作視頻,不涉及任何機器人本體。算法的真機部署僅需進行簡單适配,便可實現跨硬體平台的直接操作執行。即使機器人硬體不斷推陳出新,也無需再對算法進行大幅調整及數據重新采集,實現操作能力在設備上的泛化性。
演示中,研究人員使用了三種在構型、參數、能力等方面的差異巨大的機械臂,但算法依舊可以實現一致的操作效果。
▲同一個算法在三個機械臂上都能簡單快速部署
另外,逐際動力還提出了" 數據 - 性能 ROI"這一數據效率評估方法,聚焦于數據成本到操作性能轉化率的提升。
據了解,逐際動力後續計劃推動這一算法适配 Cosmos 等更多視頻大模型,優化算法推理效率,逐步實現實時視頻生成,并優化空間智能的模塊性能,提升操作執行的精準性。