今天小編分享的科學經驗:機器人8小時速成物流分揀員!Figure-02大規模上崗只用30天,歡迎閲讀。
好家夥!
機器人已入廠打工分揀快遞,手法娴熟和人類一模一樣。
前幾天,Figure 推出了端到端通用控制模型——Helix,能讓機器人像人一樣感知、理解和行動。
現在,是時候檢驗最新成果了。
視頻中,一批Figure 02走上生產一線,秩序井然地分揀快遞,還能正确調整條碼位置以供機器掃描……
最重要的是,按照官方説法,此次場景微調只用了 30 天。而作為對比,第一個客户案例用了 12 個月之久。
端到端學習方法讓 Figure 的機器人能夠快速學習新任務!
面對如此進化速度,網友們直呼:我們完啦!
背後關鍵:改進了 Helix 系統 1
除了視頻,針對本次實驗的高速、小包裝物流場景,Figure 還公開了Helix 進展的最新報告。
在和 OpenAI 斷交之後,就在上周五,Figure 公布了首個成果Helix。
作為一個端到端通用控制模型,只需自然語言提示,機器人就能拿起任何東西,哪怕是從沒見過的東西(比如這個活潑的小仙人掌)。
更有意思的是,兩個機器人也可以共同協作,而且用的是同一組神經網絡。
根據當時的介紹,Helix 主要由兩個系統組成,兩個系統經過端到端訓練,并且可以進行通信。
系統 1:80M 參數的交叉注意力 Transformer,用于處理底層控制。
系統 2:基于在互聯網規模數據上預訓練的 7B 開源 VLM,用于場景理解和語言理解。
而這一次,Figure 在物流場景重點對系統 1(底層控制)進行了一系列改進:
1、隐式立體視覺(Implicit stereo vision):增強了 3D 空間感知,使機器人動作更精準;
2、多尺度視覺表示(Multi-scale visual representation):結合細節和整體場景理解,提高操作精度;
3、學習視覺本體感知(Learned visual proprioceptio):每個 Figure 機器人現在都可以自我校準,簡化跨機器人技能遷移;
4、運動模式(Sport mode):使用簡單的 test-time 加速技術,同時保持高成功率和更快的執行速度。
最重要的是,Figure 針對該特定場景,進一步探讨了數據質量和數量之間的權衡關系,并初步發現:
僅用 8 小時精心挑選的數據就能訓練出一個靈活且适應性強的策略。
下面具體展開。
在物流場景下,關鍵環節包括包裝處理和分類,主要是需要将包裹在傳送帶上轉移并确保标籤正确掃描。
聽起來是不是很簡單,但如果要讓機器人取代人類來完成這項工作,面臨的挑戰在于:
包裹的尺寸、形狀、重量等各異,機器人不僅要能拿起來,而且需要确定最佳抓取和轉移時間,甚至放錯了之後還能立馬糾正。
為了實現上述目标,Figure 首先改進了 Helix 系統 1 的視覺能力。
新一代系統 1 通過采用立體視覺骨幹網絡和多尺度特征提取網絡來增強其空間理解能力。
簡單説,系統不再獨立處理來自每個攝像頭的影像特征,而是首先在多尺度立體網絡中合并兩個攝像頭的特征,然後再進行标記化(Tokenize)處理。
這樣做的好處是,保持了輸入到交叉注意力 transformer 的視覺 tokens 總數不變,避免了計算開銷。
同時,多尺度特征提取網絡能夠同時捕捉到細節和更廣泛的上下文信息,這有助于提高操作的準确性和可靠性。
此外,為了解決在多個機器人上部署統一策略時遇到的挑戰,以及如何通過在線自我校準來實現跨機器人策略遷移。
例如由于機器人硬體差異導致的觀察和動作空間的分布偏移,傳統的手動校準方法不适用于大規模機器人群體。
Figure 訓練了一個視覺自體感覺模型(visual proprioception model),這個模型可以讓每個機器人通過自身的視覺輸入來自我校準,估算出機械臂末端(即抓取物體的部分)的精确位置和姿态。
并且這種自我校準是在線進行的,也就是説機器人可以在工作的同時進行校準,這樣就能最大程度地減少因校準而需要停止工作的時間。
順便一提,訓練過程中,Figure 排除了那些較慢的、遺漏的或失敗的案例,不過特意保留了包含糾正行為的案例(非遙控操作員導致,自然產生)。
最後,為了達到并超過人類的操作速度,Figure 采用了一種被稱為 " 運動模式 " 的 test-time 加速技術。
具體來説,他們讓系統 1 以每秒 200 次的頻率輸出一系列動作,這些動作被稱為動作 " 塊 "(action "chunks")。
然後采用了一種插值方法來加速這些動作塊的執行。插值是一種數學方法,可以在原有數據點之間生成新的數據點。在這裏,他們将原本的動作塊(比如代表 T 毫秒的動作)通過插值縮短為 0.8T 毫秒的動作塊,但是仍然以每秒 200 次的頻率執行這些縮短後的動作塊。
這種方法不需要改變機器人的訓練過程,只是在 test-time 對動作執行進行加速。通過這種方法,Figure 機器人能夠在實際測試中實現高達 20%的速度提升。
Figure 創始人:未來四年交付 10 萬台
總之,技術更新讓 Figure 走進工廠的速度更快了。
官方提到的第 1 個客户,應該是指去年 8 月發布的 Figure 02 進寶馬工廠從事汽車裝配的事兒。
當時寶馬工廠花了12 個月才給機器人安排好合适的工作,而這一次,機器人正式上崗物流僅用了 30 天時間。
也難怪 Figure 創始人有底氣宣布,未來四年要交付 10 萬台人形機器人。
另一方面,随着國内外各家機器人紛紛 " 進廠打工 ",大家逐漸達成了一個共識:
2025 是機器人量產關鍵之年
從各家 demo 來看,人形機器人的技術已基本成熟,因此接下來的争奪主要圍繞量產展開,而且要往實際生產場景走了。
比如在一家上海機器人工廠内,大批 " 未來工人 " 正在生產 ing。
嗯,都卷起來吧!
參考鏈接:
[ 1 ] https://x.com/Figure_robot/status/1894781226676064459
[ 2 ] https://www.reddit.com/r/singularity/comments/1iymrxs/shanghai_robot_factory_where_humanoid_robots_are/