北大提出首個通用指令導航大模型系統

今天小編分享的科學經驗：北大提出首個通用指令導航大模型系統，歡迎閱讀。

想象一下當你躺在沙發上，只需要不假思索地說出指令，機器人就能幫你幹活，是不是聽起來就十分惬意？

如今這種科幻電影中的場景正在變為現實，來自北京大學的助理教授、博士生導師董豪團隊近日提出首個通用指令導航大模型系統 InstructNav。

不論是尋找物體，走到指定位置，還是滿足抽象的人類需求，只要你說出指令，InstructNav 都能幫你實現。

目前該工作已經被CoRL （Conference on Robot Learning）2024 會議錄用，文章可在 Arxiv 浏覽，代碼也即将在近期開源。

大模型如何統一具身指令導航規劃？

不同的導航任務要求截然不同的能力，經典的物體導目标航任務需要理解房間結構和物體之間的聯系，視覺語言導航任務側重于嚴謹地遵循指令，而新興的需求驅動的導航任務要求根據人類抽象需求進行語義推理。

先前研究工作都圍繞某一種特定類型的指令設計一個特定類型的導航方法，然而在真實應用中，人類可能向機器人下達不同形式的指令，甚至混合類型指令，現有的具身導航模型都無法滿足這樣的實際需求，因此實現通用指令導航對于機器人在現實世界的應用充滿價值。

為了實現這一目标，作者首先提出動态導航鏈路（Dynamic Chain-of-Navigation）這一全新的導航規劃範式，将不同類型的導航指令統一為 " 導航動作 1 - 标志物 1 -> 導航動作 2 - 标志物 2 … " 的标準形式。

InstructNav 利用大語言模型在任務規劃和常識推理上的卓越能力，根據原始指令規劃導航鏈路。

在導航過程中，InstructNav 會根據最新觀測到的場景物體不斷更新導航鏈路，引導機器人對于環境進行有效探索。

例如，當指令要求 " 尋找沙發 " 時，動态導航鏈路會被更新為 " 探索 - 電視 " 附近區網域，因為電視旁邊最可能存在沙發。

構建大模型推理到價值地圖的映射

以上由大模型規劃的動态導航鏈路和控制機器人底層動作之間仍然存在較大差異。

為了引導機器人根據動态導航鏈路行動，作者提出将大模型的規劃結果映射到多源價值地圖（Multi-sourced Value Maps）上，這些價值地圖包括：

動作價值地圖（Action Value Map）：賦予待執行動作對應的區網域更高可導航價值。

語義價值地圖（Semantic Value Map）：賦予标志物對應的區網域更高可導航價值。

直覺價值地圖（Intuition Value Map）：利用多模态大模型判斷全景圖中最适合移動的區網域，并賦予更高可導航價值。

軌迹價值地圖（Trajectory Value Map）：賦予遠離現有軌迹的區網域更高的可導航價值。

通過對多源價值地圖相加求和即可得到決策價值地圖（Decision-making Value Map）。

在決策價值地圖上選取最高價值點作為下一途徑點，然後利用點到點的路徑規劃算法即可實現對于機器人底層移動的控制。

多個零樣本導航任務新 SOTA

作者在經典的物體目标導航任務，視覺語言導航任務以及最新的需求導航任務上開展标準化評測。

從以下表格中可以觀察到，InstructNav 首次實現連續環境下零樣本的視覺語言導航，并在零樣本的物體目标導航和需求驅動導航任務上全面超越所有的現有方法，獲得最高成功率。

文章鏈接：https://arxiv.org/pdf/2406.04882

項目鏈接：https://sites.google.com/view/instructnav

代碼鏈接：https://github.com/LYX0501/InstructNav

— 完 —

投稿請發郵件到：

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~