今天小編分享的互聯網經驗:Figure亮出底牌了,歡迎閱讀。
出品|虎嗅科技組
作者|餘楊
編輯|苗正卿
頭圖|Figure
2 月 21 日凌晨,Brett Adcock 在 X 上發布了 Figure" 歷史上最重大的人工智能更新 " —— Helix。
這是 Figure 與 OpenAI 終止戰略合作後核心技術成果的首次展示,半個月前,Brett Adcock 即預告過這項 " 人形機器人上前所未有的技術 "。
Helix 是一種用于通用人形機器人控制的 " 視覺 - 語言 - 動作 " ( VLA ) 模型,能夠将感知、語言理解和學習控制統一起來,這意味着對機器人技術領網域多項長期挑戰的克服。
根據官網消息,Helix 實現了一系列首創,包括整個上身控制、多機器人協作、拿起任何東西(即使是從未見過的東西)、同一神經網絡、已做好商業準備等創新點。
在官方發布的視頻中,實驗人完全使用語言交流控制,從紙袋中拿出了機器人第一次見的物品,要求機器人通過思考,把眼睛所看到的東西歸置到它們應該在的位置,并且要求兩個機器人共同協作去放好。
随後,從視頻中看來,兩個機器人(左 A 右 B)通過識别、推理,機器人分别打開了抽屜櫃和冰箱,機器人 A 将密封物品放進了抽屜櫃,機器人 B 将需要保鮮的物品放進了冰箱。接着,機器人 A 又将看起來需要保鮮的食物遞給機器人 B,機器人 B 接過食物,看了看機器人 A,又看了看手中的食物,轉手絲滑地放進了冰箱。稍後還有機器人 B 将物品交給機器人 A 歸置到抽屜櫃以及協作将蘋果放進左下角黑色圓盤的操作。
也就是說,Helix 是第一款對整個人形上身(包括手腕、軀幹、頭部和各個手指)進行高速率連續控制的 VLA,可以同時在兩個機器人上運行,使它們能夠使用從未見過的物品解決共享的、遠程操作任務,配備了 Helix 的 Figure 機器人只需按照自然語言提示,就能拿起幾乎任何小型家居物品,包括數千種它們從未遇到過的物品。
并且,與之前的方法不同,Helix 使用一組神經網絡權重來學習所有行為(如挑選和放置物品、使用抽屜和冰箱以及跨機器人互動),而無需任何針對特定任務的微調。由于是第一款完全在嵌入式低功耗 GPU 上運行的 VLA,它還能夠迅速實現商業化。
事實上,去年 1 月,Figure 和寶馬就建立了合作關系,寶馬在其位于南卡羅來納州的工廠部署了 Figure 機器人,人們對人形機器人進入家庭解放雙手的期待不斷高漲。
聽起來簡單,但卻是機器人技術面臨的一大挑戰。與受控的工業環境不同,家裡堆滿了無數的物品——精致的玻璃器皿、皺巴巴的衣服、散落的玩具——每件物品都有不可預測的形狀、大小、顏色和紋理。為了讓機器人在家庭中發揮作用,它們需要能夠按需產生智能的新行為,尤其是對它們從未見過的物體。
對于這個難題,以往的機器人技術有兩種解決方案:要麼通過 N 小時的博士級專家手動編程來教機器人一種新行為,要麼是 N 千次演示。然而,家庭問題的樣本變化多端,這兩種方法的成本都太高了。
Figure 大方介紹了自己的模型思考原點。即:如果能簡單地将視覺語言模型 ( VLM ) 中捕獲的豐富語義知識直接轉化為機器人動作,這種新功能将從根本上改變機器人的擴展軌迹(如下圖所示),曾經需要數百次演示的新技能只需用自然語言與機器人交談即可立即獲得。
不過,關鍵問題在于:如何從 VLM 中提取所有這些常識性知識并将其轉化為可泛化的機器人控制?這就涉及到了 Figure 的突破—— Helix。
過去的方法面臨着一個根本性的權衡:VLM 主幹是通用的,但速度不快,而機器人視覺運動策略是快的,但不通用。Helix 通過兩個互補的系統解決了這一權衡,即 " 系統 1、系統 2"VLA 模型,這兩個系統經過端到端的訓練,可以進行通信:
系統 2 ( S2 ) :一個機載互聯網預訓練的 VLM,以 7-9 Hz 的頻率運行,用于場景理解和語言理解,從而實現跨對象和上下文的廣泛概括。
系統 1 ( S1 ) :一種快速反應的視覺運動策略,将 S2 產生的潛在語義表征轉化為 200 Hz 的精确連續機器人動作。
這種解耦架構允許每個系統在其最佳時間尺度上運行。S2 可以 " 慢慢思考 " 高級目标,而 S1 可以 " 快速思考 " 以實時執行和調整動作。例如,在協作行為期間,S1 可以快速适應夥伴機器人不斷變化的動作,同時保持 S2 的語義目标。
總結 Helix 技術上的創新點就是:
速度和泛化:Helix 匹配專門的單任務行為克隆策略的速度,同時将零樣本推廣到數千個新穎的測試對象。
可擴展性:Helix 直接輸出高維動作空間的連續控制,避免了先前 VLA 方法中使用的復雜動作标記方案,這些方案在低維控制設定(例如二值化并行夾持器)中已取得一些成功,但在高維人形控制中面臨擴展挑戰。
架構簡單:Helix 使用标準架構 - 用于系統 2 的開源、開放權重 VLM 和用于 S1 的簡單的基于變壓器的視覺運動策略。
關注點分離:将 S1 和 S2 解耦,我們可以分别在每個系統上進行迭代,而不受尋找統一的觀察空間或動作表示的限制。
具體來說,Helix 能夠控制從單個手指運動到末端執行器軌迹、頭部注視和軀幹姿勢等一切。視頻演示中,機器人用頭部平穩地跟蹤雙手,同時調整軀幹以獲得最佳觸及範圍,同時保持精确的手指控制以進行抓握。
從機器人技術更迭歷史看,在如此高維的動作空間中實現這種精度水平被認為是極具挑戰性的,即使對于單個已知任務也相當困難,因為一般來說,當頭部和軀幹移動時,它們會改變機器人可以觸及的範圍和可以看到的範圍,從而產生反饋循環,而這種反饋循環在過去會導致不穩定。之前沒有 VLA 系統能夠展示這種程度的實時協調,同時保持跨任務和對象泛化的能力。
兩個 Figure 機器人之間的協作零樣本雜貨存儲的過程中,機器人成功地操作了全新的雜貨(訓練期間從未遇到過的物品),展示了對各種形狀、大小和材料的穩健泛化。此外,兩個機器人都使用相同的 Helix 模型權重進行操作,無需進行針對機器人的訓練或明确的角色分配。它們通過自然語言提示實現協調,例如 " 将一袋餅幹遞給你右邊的機器人 " 或 " 從你左邊的機器人那裡接過一袋餅幹并将其放在打開的抽屜裡 "。
并且,通過簡單的 " 拾起 [ X ] " 命令拾起任何小型家用物品。在系統測試中,機器人成功處理了雜亂無章的數千件新物品(從玻璃器皿和玩具到工具和衣物),無需任何事先演示或自定義編程。
尤其值得注意的是,Helix 一定程度上彌補了互聯網規模語言理解與精确機器人控制之間的差距。例如,當被要求 " 撿起沙漠物品 " 時,Helix 不僅能識别出玩具仙人掌符合這一抽象概念,還能選擇最近的手并執行安全抓住它所需的精确運動命令。
不僅如此,從訓練成本來看,Figure 總共使用約 500 小時的高質量監督數據來訓練 Helix,這僅僅是之前收集的 VLA 數據集的一小部分(
OODA 首席技術官 Bob Gourley 對 Helix 贊不絕口。
Gab AI 的 CEO Andrew Torba 更是将 Helix 和 Grok3 的發布相提并論,認為 " 未來就在這裡 "。
Helix 的發布很快吸引了投資人的關注,香蕉資本的 Turner Novak 随即在推特發文問:" 多久之後 Figure 機器人才能實現自我建造?"
Brett Adcock 也很快作出了回應,表示今年即将實現大批量生產,用機器人制造機器人,認為這将是 " 世界上最重要的資產 "。
Figure 顯然在擴展人形機器人行為方面邁出了變革性的一步。
不過,Figure 相當謙虛:" 這些早期成果确實令人興奮,但我們認為它們只是觸及了可能性的表面。我們迫切希望看到當我們将 Helix 擴大 1,000 倍甚至更多時會發生什麼。"
讓我們共同期待。