今天小編分享的科學經驗:讓機器人在人群中穿梭自如,港科廣&港科大突破社交導航盲點,歡迎閲讀。
機器人落地復雜場景,社交導航能力一定是避不開的關鍵一點。
先簡單介紹下,社交導航 ( SocialNav,Social navigation ) 是指在人機共存的環境中,機器人在遵循社會規範的前提下執行導航任務。
就拿下圖來説,機器人需導航至目标點,而目标恰好位于兩名行人未來軌迹的交匯區網域。
它不僅要靈活避免潛在的碰撞風險,還需與行人保持合适的社交距離。
總而言之,社交導航該任務對視覺導航領網域提出了獨特挑戰:
預建地圖的方法難以适應人群密集的動态環境,而現有 RL 方法存在短視決策和依賴全局信息的問題。
近期,香港科技大學(廣州)和香港科技大學聯合提出了一種新算法,Falcon。
它通過将軌迹預測算法融入社交導航任務中,實現長期動态避障并提升導航性能。
社交導航的另一個重要挑戰則是現有基準的真實性不足。
如下所示,現有基準通常存在以下幾方面的局限性:
場景復雜性不足:僅關注機器人與人類的互動,而忽略場景本身復雜性。
人類行為不自然:行人動作僵硬、運動模式失真,難以反映實際場景互動。
針對上述局限性,研究團隊構建了兩個新數據集—— Social-HM3D 和 Social-MP3D,作為社交導航任務的新基準。
該項目論文已被 ICRA 2025 接收,同時已經挂上 arXiv。
代碼和模型權重可到 GitHub 尋找。
Falcon:集成軌迹預測輔助任務的強化學習框架
Falcon 算法框架由 2 個模塊組成:
主策略網絡 ( MPN,Main Policy Network )
時空預知模塊 ( SPM,Spatial-temporal Precognition Module )
主策略網絡:讓機器人學會 " 遵守規則 "
模塊一,主策略網絡,這是 Falcon 的 " 大腦 ",負責指導機器人如何行動。
其核心是社會認知懲罰(SCP,Social Cognition Penalty)機制,通過設計專門的懲罰函數,避免機器人幹擾人類未來軌迹,從而引導智能體規避碰撞風險并保持社交距離。
具體而言,Falcon 引入三個關鍵懲罰項:
障礙物碰撞懲罰 :嚴厲懲罰機器人撞到靜态障礙物或行人。
人類接近懲罰:當機器人靠近行人時,随距離減小增加懲罰。
軌迹阻礙懲罰:如果機器人幹擾行人未來路徑,則提前施加懲罰。
時空預知模塊:讓機器人學會 " 提前規劃 "
模塊二,時空預知模塊(SPM),結合軌迹預測與多種社交感知輔助任務,顯著增強了機器人對未來環境動态變化的預測能力。
其主要功能包括:
人類數量估計:預測場景中有多少人,幫助評估環境復雜程度。
當前位置跟蹤:實時跟蹤行人位置,快速響應變化。
未來軌迹預測:預測未來幾秒行人路徑,提前規劃避障。
關鍵在于,輔助任務僅在訓練階段使用。
在推理階段,機器人僅依賴主策略網絡進行決策。
這種設計簡化了推理過程,确保模型在實際應用中的高效性。
特意構建兩個新的數據集
現有社交導航基準存在諸多不足,如場景過于簡化、人類行為不自然等。
以下表格為現有的社交導航模拟器與數據集統計特性對比:
為彌補這些缺陷,研究人員構建了兩個新數據集—— Social-HM3D 和 Social-MP3D,具備以下優勢:
真實場景重建:基于高精度 3D 掃描,涵蓋公寓、辦公樓、商場等多種室内場景。
自然人類行為:采用多目标導向的軌迹生成算法和 ORCA 動态避障模型,模拟人類行走、休息等自然行為。
合理人群密度:根據場景面積動态調整人類數量,确保互動密度适中。
研究團隊表示,這兩個基準既平衡了人機互動的社交密度,同時也避免了過度擁擠。
這一基準為社交導航研究提供了更貼近真實場景的評估環境,并且支持推廣到有人環境下的物體導航、影像導航等下遊任務。
實驗部分
在定量分析方面,實驗表明,Falcon 在目标達成和社會合規方面表現出色:
其一是目标達成。
在 Social-HM3D 中達到 55.15% 的成功率和成功路徑效率(SPL,Success weighted by Path Length)。
即使在未訓練過的 Social-MP3D 數據集上,也能取得 55.05% 的成功率。
其二是社會合規。
在保持社交距離和避免碰撞方面表現良好,達到接近 90% 的個人空間合規性(Personal Space Compliance, PSC)和接近 42% 的人機碰撞率。
定量結果表明,Falcon 不僅在已知環境中表現出色,還能有效适應未見過的復雜動态環境。
在定性分析方面,下圖的定性結果展示了 Falcon 在不同典型場景中的優越性——
第一個是人員跟随情境。
Falcon 通過預測行人未來軌迹,主動調整速度和路徑,保持安全距離。
第二個是復雜交叉路口。
面對行人和靜态障礙物同時存在的場景,Falcon 提前預測并規劃出安全高效的路徑。
第三個是正面接近情境。
傳統的 RL 算法 Proximity-Aware 試圖直接從行人面前穿過導致碰撞,Falcon 通過預測行人未來軌迹,提前調整路徑并安全避開。
3 個關鍵發現
各項實驗後,團隊有了三個關鍵發現:
發現 1,未來感知算法優于以往實時感知算法。
靜态路徑規劃算法(如 A*)無法适應動态環境,而實時感知方法(如 ORCA 和 Proximity-Aware)雖能被動避障,但仍存在延遲反應問題。
相比之下,Falcon 能夠主動預測行人軌迹并提前調整路徑,顯著提升了安全性和效率。
發現 2,輔助任務有助于提高性能,其中軌迹預測最重要。
下表展示了不同輔助任務對導航性能的影響。
其中軌迹預測(SPM.Traj)效果最為顯著,成功率從 40.94% 提升至 54.00%。
發現 3,SCP 和 SPM 相輔相成,改善性能并加快訓練收斂。
下圖圖中為消融研究中的訓練曲線。
可以觀察到,具有 SPM 和 SCP 的完整 Falcon 模型收斂更快,性能更好。
SCP 在提升模型性能方面發揮關鍵作用,尤其是與 SPM 集成後,整體性能進一步提升(從 53.63% 提高至 55.15%),并加快訓練收斂速度。
項目主頁:
https://zeying-gong.github.io/projects/falcon/
論文鏈接:
https://arxiv.org/abs/2409.13244
代碼鏈接:
https://github.com/Zeying-Gong/Falcon
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點亮星标
科技前沿進展每日見