今天小編分享的互聯網經驗:理想汽車發布下一代自動駕駛架構MindVLA,歡迎閱讀。
理想汽車自動駕駛技術研發負責人賈鵬在 NVIDIA GTC 2025 發表主題演講《VLA:邁向自動駕駛物理智能體的關鍵一步》,分享了理想汽車對于下一代自動駕駛技術 MindVLA 的最新思考和進展。基于端到端 +VLM 雙系統架構的最佳實踐,及對前沿技術的敏銳洞察,理想自研 VLA 模型—— MindVLA。VLA 是機器人大模型的新範式,其将賦予自動駕駛強大的 3D 空間理解能力、邏輯推理能力和行為生成能力,讓自動駕駛能夠感知、思考和适應環境。
MindVLA 不是簡單地将端到端模型和 VLM 模型結合在一起,所有模塊都是全新設計。3D 空間編碼器通過語言模型,和邏輯推理結合在一起後,給出合理的駕駛決策,并輸出一組 Action Token(動作詞元),Action Token 指的是對周圍環境和自車駕駛行為的編碼,并通過 Diffusion(擴散模型)進一步優化出最佳的駕駛軌迹,整個推理過程都要發生在車端,并且要做到實時運行。
MindVLA 将為用戶帶來全新的產品形态和產品體驗,有 MindVLA 賦能的汽車是聽得懂、看得見、找得到的專職司機。" 聽得懂 " 是用戶可以通過語音指令改變車輛的路線和行為,例如用戶在陌生園區尋找超市,只需要通過理想同學對車輛說:" 帶我去找超市 ",車輛将在沒有導航信息的情況下,自主漫遊找到目的地;車輛行駛過程中,用戶還可以跟理想同學說:" 開太快了 "" 應該走左邊這條路 " 等,MindVLA 能夠理解并執行這些指令。