今天小編分享的科學經驗:透明物體也能被機器人抓起來了,單目的那種,歡迎閱讀。
讓機器人精準抓起透明物體,這個難題終于被解決了。
而且還是僅靠一張圖、單目的那種方法。
效果是這樣的:
這就是由地瓜機器人和中科院自動化所等部門共同提出的一項新研究——
MODEST,一個針對透明物體的單目深度估計和語義分割的多任務框架。
MODEST 算法框架作為通用抓取模型的前置模塊,即插即用,靈活高效,且無需依賴額外傳感器。
并且僅靠單張 RGB 影像,便可實現透明物體的抓取,效果上甚至要優于其它雙目和多視圖的方法。
可以廣泛應用于智能工廠、實驗室自動化、智慧家居等場景,降低設備成本并大幅提升機器人對透明物體的操作能力。
值得一提的是,這項研究已經入選全球機器人領網域頂會ICRA 2025(IEEE 機器人與自動化國際會議)。
如何做到的?
當前透明物體的抓取核心在于深度信息的獲取,目前無論是深度傳感器還是多視角重建的方法都無法獲取透明物體準确完整的深度信息。
透明物體復雜的折射和反射特性給機器人感知造成了很大困難。在大多數 RGB 影像中的透明物體往往缺乏清晰的紋理,而容易與背景混為一體。
此外,商用深度相機也難以準确捕捉這些物體的深度信息,導致深度圖缺失或噪聲過多,從而限制了機器人在多個領網域的廣泛應用。
為了解決透明物體感知難題,傳統方法大多依賴特殊傳感設備或多視角影像,增加了時間和經濟成本,并常常受限于應用場景。
MODEST 單目框架首次突破了傳統傳感器處理透明物體時的限制,降低了設備成本和使用復雜度,提供了更加高效、經濟和便捷的透明物體感知方案。
△單目透明物體感知框架與其他方法之間的對比
MODEST主要聚焦于透明物體的深度估計,通過設計的語義和幾何結合的多任務框架,獲取物體準确的深度信息,之後結合基于點雲的抓取網絡實現透明物體的抓取。
相當于在通用抓取網絡前面增加一個針對透明物體的增強模塊。
MODEST 模型的整體架構如圖所示,輸入為單目 RGB 影像,輸出為透明物體的分割結果和場景深度預測。
網絡主要由編碼、重組、語義幾何融合和迭代解碼四個模塊組成。
輸入影像首先經過基于 ViT 的編碼模塊進行處理,随後重組為對應分割和深度兩個分支的多尺度特征。
在融合模塊中對兩組特征進行混合和增強,最後通過多次迭代逐步更新特征,并獲得最終預測結果。
△基于語義幾何融合和迭代策略的透明物體單目多任務框架
對于透明物體來說,語義分割任務可以為深度估計提供語義和上下文信息,而同樣深度估計可以為分割提供邊界、表面等幾何信息。
為了充分挖掘兩個任務間的互補信息,MODEST 算法框架構建了基于注意力機制的語義幾何融合模塊,旨在同時提升兩個任務的性能。
△語義幾何融合模塊結構
當人類觀察透明物體等不顯著物體時,我們人類會傾向于先注意物體的整體輪廓,然後是局部細節。受人眼啟發,MODEST 框架提出了一種由粗到細的特征更新策略,進一步提升預測精度。
實驗結果
為了測試 MODEST 全新算法框架的檢測效果,團隊選取了透明物體領網域兩個影響力廣泛的公開仿真數據集 Syn-TODD和真實數據集 ClearPose。
在其上與目前最先進的透明物體雙目方法 SimNet、多視圖方法 MVTran 以及多任務方法 InvPT 和 TaskPrompter 進行對比實驗。
兩個大規模數據集都擁有超過 100k 的良好标注影像數據,并且包含了嚴重遮擋等極端場景。
1、公開數據集上的定性和定量對比實驗
△仿真數據集 Syn-TODD 上的定性對比結果
△真實數據集 ClearPose 上的定性對比結果
通過在兩個數據集上的定性對比結果可以看出,由于透明物體會錯誤地折射背景,并且在 RGB 影像中缺乏紋理,因此 SimNet、MVTrans 等方法無法獲得令人滿意的預測,從而導致深度圖和分割掩膜的大面積缺失。
然而,通過有效的融合和迭代,在某些即使人眼都難以分析和判斷的場景,團隊的方法依然能夠產生完整和清晰的預測結果。
△仿真數據集 Syn-TODD 上的定量對比結果
△真實數據集 ClearPose 上的定量對比結果
從表格中的定量對比可以看出,MODEST 算法框架在各項指标上都要大幅超過其他所有方法。
值得注意的是,盡管只使用單張 RGB 影像作為輸入,MODEST 在深度估計和語義分割方面都要明顯優于其他雙目甚至多視圖方法。
并且在 Syn-TODD 數據集上,與排名第二的方法相比,MODEST 算法框架在 RMSE 和 REL 兩項指标有着超過 45% 的提升,語義分割的精度也均超過了 90%。
2、真實平台抓取實驗
團隊還将算法遷移到真實機器人平台,開展了透明物體抓取實驗。
平台主要由 UR 機械臂和深度相機構成,在借助 MODEST 方法進行透明物體精确感知的基礎之上,采用 GraspNet 進行抓取位姿的生成。
在多個透明物體上的實驗結果表明,MODEST 方法在真實平台上具有良好的魯棒性和泛化性。
One More Thing
值得一提的是,除了 MODEST 之外,地瓜機器人主導研發的DOSOD 開放詞匯目标檢測算法,也入選了 ICRA 2025。
MODEST 是通過動态語義理解框架提升復雜場景識别準确率,而 DOSOD 則是結合幾何建模與語義分析技術優化透明物體操作精度。
兩項技術成果均已在規模化商業場景中得到有效驗證。
感興趣的小夥伴可以戳下方鏈接了解詳情哦 ~
MODEST 文章地址:
https://arxiv.org/pdf/2502.14616
MODEST 代碼地址:
https://github.com/D-Robotics-AI-Lab/MODEST
DOSOD 文章地址:
https://arxiv.org/abs/2412.14680
DOSOD 代碼地址:
https://github.com/D-Robotics-AI-Lab/DOSOD?tab=readme-ov-file
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
一鍵關注 點亮星标
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!