今天小編分享的科技經驗:讓大模型操縱無人機,北航團隊提出具身智能新架構,歡迎閱讀。
進入多模态時代,大模型也會操縱無人機了!
只要視覺模塊捕捉到啟動條件,大模型這個 " 大腦 " 就會生成動作指令,接着無人機便能迅速準确地執行。
北京航空航天大學智能無人機團隊周堯明教授團隊等研究人員,提出了一種基于多模态大模型的具身智能體架構。
目前,這種架構已被應用于無人機的操控。
那麼這種新的智能體表現如何,又有哪些技術細節呢?
" 智能體即大腦 "
研究團隊利用大模型對多模态數據的理解能力,将真實物理世界的照片、聲音、傳感器數據等多源信息融合成能體的感知,将對于真實世界的執行器的操作作為智能體的行為。
同時,團隊提出了一套 "Agent as Cerebrum,Controller as Cerebellum"(智能體即大腦,控制器即小腦)的控制架構:
智能體作為大腦這一決策生成器,專注于生成高層級的行為;
控制器作為小腦這一運動控制器,專注于将高層級的行為(如期望目标點)轉換成低層級的系統命令(如旋翼轉速)。
具體來說,研究團隊認為這一成果主要有三項貢獻。
應用于實際的新型系統架構
研究團隊提出了一種應用于實際機器人的新的系統架構,将基于多模态大模型的智能體具象化為大腦。
而機器人運動規劃器與控制器則被具象化為小腦,機器人的感知系統類比為人的眼、耳等信息收集器,機器人的執行機構類比為人的手等執行器。
△
這些節點通過 ROS 相連,通過 ROS 中消息的訂閱與發布或服務的請求與響應實現通信,區别于傳統的端到端的機器人大模型控制。
這一架構使得 Agent 可以專注于高層級命令的產生,對于高層級任務具備更強的智能性,對于實際的執行具備更好的魯棒性和可靠性。
△
新型智能體
在這一架構下,作者構建了作為大腦的一種智能體 AeroAgent。
該智能體主要包括三個部分:
一個自動計劃生成模塊,具有多模态感知監測能力,同時擅長進行待機模式下的應急突發事件處理。
一個多模态數據記憶模塊,可以用于多模态記憶檢索和反思,為智能體賦予少樣本學習能力。
一個具身智能動作模塊,可以建立具身智能體與 ROS 上其他模塊進行穩定控制的橋梁,這一模塊提供了對于 ROS 上其他節點以操作為橋梁進行訪問的能力。
同時,一個動作的完成,可能需要多次操作的互動以從傳感器獲取動作的執行所必需的參數,确保智能體可以根據綜合态勢感知及所具備的執行器來進行穩定的 embodied action 的輸出。
△
連接大模型和 ROS 的橋梁
為了給具身智能體和 ROS 機器人系統建立橋梁,讓 Agent 產生的操作能夠正确地、穩定地發送給 ROS 并被其他節點成功執行,同時讓其他節點所提供的信息讓 LMM 能夠讀取與理解,團隊設計了了 ROSchain ——
一個連接 LLMs/LMMs 與 ROS 的橋梁。
ROSchain 通過一套模塊和應用程式接口(APIs)簡化了大型模型與機器人傳感裝置、執行單元和控制機制的集成,為智能體接入 ROS 系統提供了一個穩定的中間件。
為什麼選擇無人機
至于為什麼選擇無人機進行該系統架構的測試與模拟,研究團隊也做了解釋,這主要有三個原因。
首先,如今 LMMs 中所蘊含的 web-scale 的世界知識,多為第三人稱視角,人型機器人等領網域的具身智能是類似于以人類為主體出發的第一人稱視角。
而無人機挂載的相機(尤其是下視相機)更加類似于第三人稱視角(上帝視角)的具身智能;
另一方面,現階段的 LMMs 無論是模型部署還是 API 服務,通常受限于計算資源導致響應有一定的延遲。
這對于自動駕駛等領網域是一個應用的障礙,而無人機的任務規劃由于其可以懸停,具備應對延遲的能力。
這兩點都導致目前技術發展水平下無人機适合作為先驅進行相關理論與應用的驗證。
第二,目前工業無人機領網域,如山火救援、農林植保、無人放牧、電力巡檢等,多由飛手與專家配合實際操作,智能化任務執行具有工業需求。
第三,從未來發展看,多智能體協同合作在物流、建築、工廠等領網域具備較為明顯的需求。
而在這種領網域中,無人機作為 " 上帝視角 " 的具身智能體,适合作為中央節點的領導者進行任務的分配,其他機器人可看作無人機的執行器的一環,所以這一研究也具有未來的發展前景。
團隊在 airgen 的仿真器上進行了模拟實驗,同時選用了 DRL 等方式作為對照組。結果如下:
在野外火災搜救的場景中,AeroAgent 獲得了 100 分(标準化分數,下同)的成績,平均每步為 2.04 分。
而單純調用 LLM 或基于 DRL 的智能體都只獲得了 29.4 分,平均每步 0.2,不足 AeroAgent 的十分之一。
△
在着陸任務中,AeroAgent 也以 97.4 的總分和 48.7 的每步平均分超過了其他模型。
△
而在風機巡檢的測試中,AeroAgent 直接成為了唯一能完成該任務的模型。
△
導航任務上,AeroAgent 4.44 的每步均分,分别是 DRL 和純 LLM 的 40 倍和近 10 倍。
△
團隊還在真實場景中進行了無人機系統的測試,以一個簡單的受困群眾引導實驗為例進行了案例研究。
△
團隊目前正以這一工作為基礎,在某高原牦牛牧場進行無人放牧智能無人機的實驗,探索其實際應用的可能性,并将以 " 予智能以具身 " 為目标,進行其他機器人 / 多機器人合作的智能體落地應用探索。