空間智能新進展：教機器人組裝宜家家具，首次實現操作步驟與真實視頻對齊 - 大酷樂

今天小編分享的科學經驗：空間智能新進展：教機器人組裝宜家家具，首次實現操作步驟與真實視頻對齊，歡迎閲讀。

斯坦福吳佳俊團隊，給機器人設計了一套組裝宜家家具的視頻教程！

具體來説，團隊提出了用于機器人的大型多模态數據集IKEA Video Manuals，已入選 NeurIPS。

數據集涵蓋了 6 大類 IKEA 家具，每種家具都包含完整的 3D 模型、組裝説明書和實際組裝視頻。

而且劃分精細，拆解出的安裝子步驟多達 1000 多個。

作者介紹，該數據集首次實現了組裝指令在真實場景中的 4D 對齊，為研究這一復雜問題提供了重要基準。

知名科技博主、前微軟策略研究者Robert Scoble説，有了這個數據集，機器人将可以學會自己組裝家具。

團隊成員、斯坦福訪問學者李曼玲（Manling Li）表示，這是空間智能領網域的一項重要工作：

這項工作将組裝規劃從 2D 推進到 3D 空間，通過理解底層視覺細節，解決了空間智能研究中的一個主要瓶頸。

1120 個子步驟詳述組裝過程

IKEA Video Manuals 數據集中，涵蓋了 6 大類 36 種 IKEA 家具，從簡單的凳子到復雜的櫃子，呈現了不同難度的組裝任務。

每一款家具，都包括以下三種模态：

安裝説明書，提供了任務的整體分解和關鍵步驟；

真實組裝視頻，展示了詳細的組裝過程；

3D 模型，定義了部件之間的精确空間關系。

并且這三種模态并非簡單地堆砌在一起，作者通過對視頻和操作步驟的拆解，将三種模态進行了精細的對齊。

舉個例子，在這樣一條關于長凳的數據當中，包含了其基本概況、視頻信息、關鍵幀信息，以及安裝步驟。

從下圖中可以看出，安裝步驟當中有主要步驟和子步驟的劃分，還标注了對應的視頻位置。

整個數據集中，共包含了 137 個手冊步驟，根據安裝視頻被細分為了 1120 個具體子步驟，捕捉了完整的組裝過程。

并且通過 6D Pose 追蹤，每個部件的空間軌迹都被精确記錄，最終在視頻幀、家具組裝説明書和 3D 模型之間建立了密集的對應關系。

時空信息精細标注

IKEA Video Manuals 數據集是在 IKEA-Manual 和 IKEA Assembly in the Wild（IAW）兩個數據集的基礎上建立的。

其中，IKEA-Manual 數據集提供了模型及其對應説明書，IAW 則包含了大量用户組裝宜家家具的視頻片段。

這些視頻來自 90 多個不同的環境，包括室内外場景、不同光照條件，真實反映了家具組裝的多樣性。

與在實驗室環境下采集的數據相比，這些真實視頻帶來了更豐富的挑戰：

部件經常被手或其他物體遮擋；

相似部件識别（如四條一模一樣的桌子腿）；

攝影機頻繁移動、變焦，帶來參數估計的困難；

室内外場景、不同光照條件下的多樣性。

為了獲得高質量的标注，應對真實視頻帶來的挑戰，研究團隊建立了一套可靠的标注系統：

識别并标注相機參數變化的關鍵幀，确保片段内的一致性；

結合 2D-3D 對應點和 RANSAC 算法進行相機參數估計；

通過多視角驗證和時序約束保證标注質量。

首先，研究者們首先定義了一套層次化的裝配過程描述框架，将整個裝配過程分為步驟、子步驟和視頻幀等多個層級。

作者首先從 IAW 數據集中提取每個手動步驟的視頻片段，并将每個視頻片段分解為更小的間隔（子步驟）。

對于每個子步驟，作者以 1FPS 的速度采樣視頻幀，并在每個子步驟的第一幀得標注出家具部件。

為了在整個組裝視頻中對家具部件進行跟蹤，作者還在采樣幀中為 3D 部件注釋了 2D 影像分割掩碼。

為了促進注釋過程，研究團隊開發了一個顯示輔助 2D 和 3D 信息的 Web 界面，同時該界面還可基于 Segment Anything Model（SAM）模型進行互動式掩碼注釋。

标注過程中，标注人員會在 3D 模型上選中零件，然後在 2D 視頻幀上指示其大致位置，并将其輸入到 SAM 模型中以實時生成 2D 分割掩碼。

為了解決 SAM 在提取具有相似紋理的部分之間或低光區網域的邊界方面的固有局限，作者還允許标注人員使用畫筆和橡皮擦工具進行手動調整。

此外，作者還要估計視頻中的相機參數，為此研究者們首先人工标記出視頻幀中可能出現相機運動（如焦距變化、切換視角等）的位置，然後标注出視頻幀和 3D 模型之間的 2D-3D 對應關鍵點。

最後，結合這兩類标注信息，研究者們使用 PnP （Perspective-n-Point）算法估計出每段視頻的相機内參數，得到相機參數的初始估計後，利用互動式工具來細化每個視頻幀中零件的 6D 姿态。

空間模型能力評估

基于 IKEA Video Manuals 數據集，團隊設計了多個核心任務來評估當前 AI 系統在理解和執行家具組裝，以及空間推理（spatial reasoning）方面的能力。

首先是基于 3D 模型的分割（Segmentation）與姿态估計 （Pose Estimation）。

此類任務輸入 3D 模型和視頻幀，要求 AI 準确分割出特定部件區網域，并估計其在視頻中的 6 自由度姿态。

△上：基于 3D 模型的分割，下：基于 3D 模型的姿态估計

實驗測試了最新的分割模型（CNOS, SAM-6D）和姿态估計模型（MegaPose）。

分析發現，它們在以下場景表現不佳：

遮擋問題：手部遮擋、近距離拍攝導致部分可見、遮擋引起的深度估計誤差；

特征缺失：缺乏紋理的部件難以分割、對稱部件的方向難以判斷；

特殊拍攝角度（如俯視）導致的尺度誤判。

△上：遮擋問題，左下：特征缺失，右下：特殊角度

第二類任務是視頻目标分割，作者對比測試了兩個最新的視頻追蹤模型 SAM2 和 Cutie。

結果顯示，在真實組裝場景中，這些模型同樣面臨着三大挑戰。

一是相機的運動，可能導致目标丢失。

二是難以區分外觀相似的部件（如多個相同的桌腿）。

最後，保持長時間追蹤的準确度也存在一定難度。

第三類任務，是基于視頻的形狀組裝。

團隊提出了一個創新的組裝系統，包含關鍵幀檢測、部件識别、姿态估計和迭代組裝四個步驟。

實驗采用兩種設定：

使用 GPT-4V 自動檢測關鍵幀：結果不理想，Chamfer Distance 達 0.55，且 1/3 的測試視頻未能完成組裝；

使用人工标注的關鍵幀：由于姿态估計模型的局限性，最終 Chamfer Distance 仍達 0.33。

這些實驗結果揭示了當前 AI 模型的兩個關鍵局限：

視頻理解能力不足：當前的視頻模型對時序信息的分析仍然較弱，往往停留在單幀影像分析的層面；

空間推理受限：在真實場景的復雜條件下（如光照變化、視角改變、部件遮擋等），現有模型的空間推理能力仍顯不足。

作者簡介

本項目第一作者，是斯坦福大學計算機科學碩士生劉雨濃（Yunong Liu）目前在斯坦福 SVL 實驗室（Vision and Learning Lab），由吳佳俊教授指導。

她本科畢業于愛丁堡大學電子與計算機科學專業（榮譽學位），曾在德克薩斯大學奧斯汀分校從事研究實習。

斯坦福大學助理教授、清華姚班校友吳佳俊，是本項目的指導教授。

另據論文信息顯示，斯坦福大學博士後研究員劉蔚宇（Weiyu Liu），與吳佳俊具有同等貢獻。

此外，Salesforce AI Research 研究主任 Juan Carlos Niebles，西北大學計算機科學系助理教授、斯坦福訪問學者李曼玲（Manling Li）等人亦參與了此項目。

其他作者情況如下：

項目主頁：

https://yunongliu1.github.io/ikea-video-manual/

論文地址：

https://arxiv.org/abs/2411.11409