人大北郵等團隊解視觸覺感知統一難題，模型代碼數據集全開源

今天小編分享的科學經驗：人大北郵等團隊解視觸覺感知統一難題，模型代碼數據集全開源，歡迎閱讀。

機器人怎樣感知世界？

相比于 " 看得見 "，" 摸得着 " 能夠提供更直接且細膩的物理反饋，有助于準确判斷物體特性，還在精确操控和復雜操作中發揮關鍵作用。

長期以來，通過各種觸覺傳感器賦予機器人類似人類的觸覺感知能力，始終是具身智能重要研究方向。其中，由于具有與人類皮膚相匹配的高分辨率，視觸覺傳感器展現出了巨大的潛力。

那麼是否存在一個适用于多種傳感器、多種任務的通用視觸覺表征學習範式？

來自中國人民大學高瓴人工智能學院 GeWu-Lab 實驗室、北京郵電大學和武漢科技大學最近的合作研究提出從動靜結合的新視角建模統一的多傳感器觸覺表征空間，通過多層級的學習框架，有效融合靜态觸覺信息（如材質、形狀）與動态觸覺特征（如滑動、形變），從而獲得适應包含真實世界操縱在内的豐富觸覺場景的通用表征。

論文已被 ICLR2025 接收，并對數據集、模型和代碼進行了全部開源。

本文第一作者馮若軒為中國人民大學二年級碩士生，主要研究方向為多模态具身智能，師從胡迪副教授。作者來自于中國人民大學 GeWu-Lab，北京郵電大學以及武漢科技大學，其中方斌教授和胡迪副教授作為共同通訊

視觸覺面臨什麼挑戰？

即便具有那麼多潛力，構建基于視觸覺傳感器的強大觸覺感知系統仍面臨諸多挑戰。由于發展時間較短，視觸覺傳感器種類繁多且缺乏統一标準，不同的傳感器在感知相同的觸覺信息時存在一定差異。

這種異構性使得當前的視觸覺數據采集和模型訓練通常依賴于特定傳感器，導致單一傳感器模型的數據規模受限，難以涵蓋豐富的觸覺場景，從而制約了觸覺感知系統的泛化能力和魯棒性。

此外，人類的觸覺感知是一個動态與靜态信息交織的過程，能夠從紋理、滑動和形變變化等多種信号精準地理解物體特性。這種對動态觸覺細節的敏銳捕捉能力在精細機器操縱中同樣至關重要，也是當前多傳感器觸覺感知模型所欠缺的。

本論文針對視觸覺感知所面臨的核心挑戰，提出了一個配對的多傳感器多模态觸覺數據集 TacQuad，為利用數據驅動方法顯式整合多種觸覺傳感器奠定基礎。

更進一步地，本文提出動靜結合的多傳感器統一觸覺表征學習框架 AnyTouch，為包含真實世界操縱的多種任務和多種視觸覺傳感器提供有效的觸覺感知。

TacQuad：配對的多傳感器多模态觸覺數據集

想象一下，假如不同的照相機拍同一個物體，但由于鏡頭、光線、顏色處理方式等不同，最後的照片卻各不相同——這會讓 AI 很難直接理解它們其實是同一個物體。

類似地，不同的視觸覺傳感器使用的技術原理也略有不同，相當于 " 看世界的方式 " 各不相同，導致它們采集的數據很難直接遷移使用。究其根本，在于缺乏一個顯式地配對多傳感器數據，并允許模型從其他模态獲取更全面的觸覺知識、借助多模态數據彌合傳感器差異的可靠觸覺數據集。

△圖 1 配對的多傳感器多模态觸覺數據集 TacQuad

為了讓 AI 更聰明地 " 摸清世界 "，本工作采集了配對的多傳感器多模态觸覺數據集 TacQuad，通過提供包含文本描述和視覺影像的配對多傳感器數據，支持以數據驅動的方式構建統一的多傳感器觸覺表征空間，從而為這一問題提供一個更全面的解決方案（如圖 1 所示）。

為了确保數據的豐富性，團隊精心挑選了四種觸覺傳感器：來自公開平台的 GelSight Mini 和 DIGIT，實驗室自制的 DuraGel，以及能夠感知力場的 Tac3D。

然而，考慮到收集細粒度多傳感器配對數據成本高昂，為擴大數據采集的規模，同時盡可能地保證數據的對齊質量，團隊使用粗粒度和細粒度兩種方法采集了兩組多傳感器配對數據：

細粒度時空對齊數據：該部分數據通過将四個傳感器以相同的速度按壓同一物體的相同位置采集，共包含來自 25 個物體的 17524 個接觸幀，可用于細粒度觸覺任務，如跨傳感器生成。

粗粒度空間對齊數據：該部分數據由人分别手持四個傳感器，在同一物體上按壓同一位置，盡管不能保證時間對齊，但可以盡可能地保證采集空間上的一致。該部分包含來自 99 個物體的 55082 個接觸幀，包括室内和室外場景，可用于跨傳感器匹配任務。

在 TacQuad 數據集中，每次觸覺接觸都會同時記錄來自第三視角的視覺影像，并由 GPT-4o 生成對應的觸覺屬性描述。

這樣，AI 不僅能 " 摸 " 到物體，還能 " 看到 " 并 " 理解 " 它的觸感。

為進一步利用更多傳感器的大量已有數據，本工作還利用 GPT-4o 對多個開源觸覺數據集生成或擴展文本描述，讓這些原本只包含傳感器數據的數據集也擁有豐富的語言信息

AnyTouch：動靜結合的多傳感器統一觸覺表征學習框架

在日常生活中，團隊的觸覺不僅僅是 " 摸一摸 " 那麼簡單，而是一個包含靜态和動态過程的綜合體驗。比如，輕輕按壓一塊海綿可以感受到它的柔軟（靜态觸覺），而用手指滑動還能感知它的紋理和彈性（動态觸覺）。

這兩種感知方式相輔相成，讓團隊能夠更準确地理解周圍的物理世界并與之互動。受此啟發，本工作提出了 AnyTouch ——一個動靜結合的多傳感器統一觸覺表征學習框架，分别使用觸覺影像和視頻，從靜态和動态感知結合的角度學習統一的多傳感器觸覺表征（如圖 2 所示）。

△圖 2 動靜結合的多傳感器統一觸覺表征學習框架 AnyTouch

為了适應不同的觸覺場景的感知需求，AnyTouch 采用了多層級架構，分階段提升模型的觸覺感知能力。

在第一階段中關注像素級的觸覺細節，而第二階段則學習傳感器無關的語義級特征，使 AI 能更全面地理解和處理觸覺信息：

掩碼影像 / 視頻建模（階段 1）：為增強觸覺感知模型的細粒度感知能力，本框架采用掩碼自編碼器（MAE）技術，訓練模型在多種傳感器的數據輸入中捕捉像素級細節。該框架随機遮擋觸覺影像和視頻的 Token 序列的一部分，并構建一個解碼器來獲得重建的靜态影像和動态視頻。為進一步強化模型對動态連續形變的理解，在重建動态視頻時還引入未來幀預測的額外任務。

多模态對齊（階段 2）：本框架通過觸覺 - 視覺 - 文本多模态對齊，對包含其他配對模态的多傳感器觸覺數據進行整合，以獲得更全面的語義級觸覺知識，并借其他模态作為橋梁減少傳感器之間的感知差異。由于不同數據集視覺模态存在場景差異，本框架選擇語義更一致的文本模态作為錨點，并為每個批次數據内的每種模态組合選擇最大的數據子集進行對齊，從而最大限度地利用多模态配對數據。

跨傳感器匹配（階段 2）：為充分地利用多傳感器配對數據，并通過對表示相同觸覺信息的多傳感器觸覺表征進行聚類來構建統一的空間，本框架引入了一個新的跨傳感器匹配任務。在此任務中，模型需要确定輸入的一對觸覺影像或視頻是否采集自同一對象上的同一位置。該任務的目标是在執行多模态對齊的同時，對來自不同傳感器的相同觸覺信息的表示進行聚類，從而增強對傳感器無關特征的學習，形成一個統一的多傳感器表征空間。

本框架還使用通用傳感器 Token 來整合并存儲與各傳感器相關的信息，從而在泛化到新傳感器時最大限度地利用多傳感器訓練數據。

實驗與分析

為探究每種傳感器數據對下遊任務的貢獻，本工作将 GelSight、GelSlim、DIGIT 和 GelSight Mini 的數據整合到 AnyTouch 訓練中，獲得四種模型，并在四個下遊任務中比較。

如表 1 所示，與未接觸觸覺數據的 CLIP 模型相比，使用 GelSight 數據的訓練顯著提升了模型在所有任務上的性能，表明觸覺表征預訓練對新傳感器的遷移至關重要。将其他傳感器的數據整合後，模型在三個未見數據集上的性能提升，特别是在未見傳感器的數據集上表現更好，證明這些數據的知識能夠遷移到其他觸覺傳感器。

△表 1 整合各觸覺傳感器數據對模型性能的影響

為驗證 AnyTouch 是否能将來自不同傳感器的相同觸覺信息聚集在一起，本工作從 TacQuad 細粒度子集的 30 次觸摸中抽取每種傳感器的一個接觸幀，并輸入 CLIP 模型以及逐步引入掩碼建模、多模态對齊和跨傳感器匹配的 AnyTouch 模型進行對比可視化（見圖 3）。

CLIP 以及引入掩碼建模後的模型難以辨别來自不同傳感器的相同觸覺信息，直接按傳感器類型對樣本進行聚類，這對于跨傳感器泛化來說并不理想。加入多模态對齊後，表征開始基于觸覺信息混合和聚類，但仍存在按傳感器類型的聚類趨勢。通過跨傳感器匹配任務，來自不同傳感器的觸覺表征在共享空間中完全混合，能夠明顯地觀察到表征根據觸覺信息進行聚類，觸覺表征逐漸從傳感器依賴的特征轉向更加通用的跨傳感器信息。

△圖 3 AnyTouch 中各組件對多傳感器表征空間的影響

為驗證統一多傳感器表征在遷移觸覺知識到已見與未見傳感器上的優勢，本工作将 AnyTouch 與現有的單傳感器和多傳感器模型，分别在已見與未見傳感器的兩個數據集上進行比較。

如表 2、表 3 所示，AnyTouch 在所有數據集上均優于現有方法，證明了其在靜态感知能力上的優勢。

△表 2（左）已見傳感器數據集性能對比表 3（右）未見傳感器數據集性能對比

為測試 AnyTouch 在真實物體操縱任務中的動态感知能力，本工作在細粒度傾倒任務上進行了實驗。在此任務中，機械臂需依靠觸覺反饋從含 100 克小鋼珠的量筒中倒出 60 克，如圖 4 所示。各模型在 10 次真實世界測試中的平均誤差對比如表 4 所示。結果表明，從動靜結合角度學習統一的多傳感器表示對于完成包括現實世界任務在内的各種任務至關重要。

△圖 4（左）真實世界傾倒任務示意圖表 4（右）傾倒任務性能對比

本文從全新的動靜結合角度構建統一的多傳感器觸覺表征空間，提出配對的多傳感器多模态觸覺數據集 TacQuad 以提供顯式整合多傳感器的數據支撐，并在此基礎上提出動靜結合的多傳感器統一觸覺表征學習框架，通過多層級的方式學習适用于各種任務的通用觸覺表征。

團隊表示，相信從靜态與動态結合的角度學習統一的多傳感器表征的方法能夠為視觸覺感知建立一個标準化的學習範式，并進一步激發多傳感器表征學習的研究。

目前工作還在進一步拓展中，歡迎更多觸覺設備的加入，共同構建并擴大觸覺表征世界，如有興趣請郵件聯系 [email protected]。

論文鏈接： https://arxiv.org/abs/2502.12191

項目主頁： https://gewu-lab.github.io/AnyTouch/

— 完 —

學術投稿請于工作日發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

一鍵關注點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！