今天小編分享的科技經驗:稚晖君搞了個“好東西”,網上的視頻也能拿來訓練機器人了,歡迎閲讀。
上周五,稚晖君不是在微博淺淺預告了一波 " 好東西 " 嘛。
這不剛周一,智元機器人馬上就把熱乎的抬上來了。
機器人給你端茶倒水、煮咖啡。
把面包放進面包機、給烤好的面包塗抹果醬,再把面包端到你面前,整套動作一氣呵成。
還能在公司當前台,充當一把迎賓。
就是吧,見多了各種人形機器人的視頻之後,世超對這種程度的展示,已經見怪不怪了。
所以單單這些演示,還不足以能稱之為好東西。智元機器人這次發布的基座大模型 GO-1 ( Genie Operator-1 ),才是真正值得拿出來唠一唠的好東西。
這麼説吧,這個基座大模型,讓困擾了人形機器人許久的數據匮乏、泛化能力差的問題,又有了更高效的解法。
大夥兒可能也知道,現階段的人形機器人之所以看起來很拉胯,很重要的原因之一,就是缺乏高質量的數據。
而獲得這些數據的成本,同樣也非常高。
為了解決這個行業難題,去年底,智元機器人就已經開源了百萬真機數據集 AgiBot World 。
AgiBot World 的數據都來自于智元的數據采集工廠,裏面搭了不少模拟真實場景,數據采集師每天的任務,就是教機器人怎麼執行某項任務。
根據官方的説法, AgiBot World 涵蓋了超過 100 萬條軌迹、 217 個任務和 106 個場景。但即便是這個量級的數據,對于機器人來説仍然是杯水車薪,而且,也沒辦法解決機器人泛化能力差的問題。
所以,智元機器人才在 AgiBot World 的基礎上,又提出了新的 ViLLA (
Vision-Language-Latent-Action )架構。這個架構,就是 GO-1 大模型的核心。
世超去翻了翻智元機器人發布的論文,簡單用大白話給大夥兒介紹一下,這 ViLLA 到底牛在哪。
首先在數據上, ViLLA 架構就沒那麼挑。
根據官方的介紹, ViLLA 架構是由 VLM ( 多模态大模型 ) 和 MoE ( 混合專家 ) 組成。
傳統的 VLA 架構,結合了 VLM 和端到端的特點,所以這種架構需要大量标注過的真機數據來訓練,又費錢又費力,而且數據量還少。
ViLLA 雖説本質上還是 VLA 架構,但它強就強在,互聯網上的那些人類視頻數據它也能用。。。
也就是説,基于 GO-1 大模型的機器人,理論上只要 " 看過 " 視頻,就能學會相對應的動作。
至于其中的原因,世超覺着很大概率要歸功于 " 潛在動作 " ( Latent Actions )。
咱還是拿 VLA 作為對比, VLA ( Vision Language Action )架構,在執行任務的時候是這麼個流程:輸入影像和語言指令,機器人再根據這些信息,生成并執行指定動作。
看似簡單粗暴,但稍微遇到點復雜的任務,機器人就會變成看得懂也聽得懂,但是做不好甚至于做不到。
舉個例子,咱們讓機器人( VLA 架構 )做一杯咖啡,機器人能看到咖啡機在哪,也能聽得懂我要它做咖啡。
但是, VLA 架構下的機器人要直接從 " 看到了咖啡機 " " 聽懂了要做咖啡 " ,一下子想清楚所有步驟,然後馬上動手,中間沒有思考的過程。
DeepMind 的 VLA 模型 RT-2
問題就在于,泡咖啡其實中間有很多小步驟,比如找到咖啡豆,打開咖啡機,按下開關,就算是人來了,都得想一下要先幹嘛再幹嘛。
更何況是 " 一根筋 " 的 VLA 架構,讓它處理中間這些復雜的步驟,多少有點為難它了。
但 ViLLA 架構,引入了兩位 " 專家 " :隐式規劃器( Latent Planner )和動作專家( Action Expert )。
這兩位專家不僅能讓機器人想得更多,而且能做的事情也變多了。
專有名詞看不懂沒關系,咱繼續舉例子。
假設現在輸入一段視頻,是一個人拿起杯子喝水。
VLM 多模态大模型會先把視頻處理了,接着潛在動作模型( Latent Action Model ),會把那些復雜的視頻動作,拆解成幾個關鍵步驟,比如 " 抓取 " 、 " 移動 " 和 " 喝水 " 。
但光到這一步還不夠,隐式規劃器( Latent Planner )要繼續把關鍵步驟進行加工,生成更詳細的步驟: " 抓取(杯子),移動(杯子到嘴邊),飲用 " 。
最後,動作專家( Action Expert )出場,把這些步驟全都轉換成機器人能理解的信号,讓機器人執行動作。
所以 ViLLA 架構在執行復雜任務時的表現,要比 VLA 更出色,也更能适應當下人形機器人的訓練需求。
而且世超還注意到, ViLLA 架構并不依賴具體的硬體。
換句話説, VLA 架構是根據特定的機器人本體、特定場景,來生成動作信号,而 ViLLA 架構生成的是 " 抓取 " " 移動 " 這種通用動作标記,任務泛化能力更好,也更容易遷移到其他機器人平台。
給大夥兒一句話總結就是,GO-1 讓機器人能從互聯網的人類視頻數據中學習,并且多了拆解任務的能力,提高復雜任務成功率的同時,泛化能力也變強了。
如果 GO-1 的效果真的像官方描述的那樣,那麼這對于整個人形機器人行業來説,或許都是一個好消息。
數據不愁,還不挑平台,這機器人訓練起來可就順手多了。就是不知道這個 GO-1 ,智元會不會選擇繼續開源。
聽説,智元機器人明天還要放出個驚喜,咱們等一手好吧。