今天小编分享的互联网经验:理想汽车发布下一代自动驾驶架构MindVLA,欢迎阅读。
理想汽车自动驾驶技术研发负责人贾鹏在 NVIDIA GTC 2025 发表主题演讲《VLA:迈向自动驾驶物理智能体的关键一步》,分享了理想汽车对于下一代自动驾驶技术 MindVLA 的最新思考和进展。基于端到端 +VLM 双系统架构的最佳实践,及对前沿技术的敏锐洞察,理想自研 VLA 模型—— MindVLA。VLA 是机器人大模型的新范式,其将赋予自动驾驶强大的 3D 空间理解能力、逻辑推理能力和行为生成能力,让自动驾驶能够感知、思考和适应环境。
MindVLA 不是简单地将端到端模型和 VLM 模型结合在一起,所有模块都是全新设计。3D 空间编码器通过语言模型,和逻辑推理结合在一起后,给出合理的驾驶决策,并输出一组 Action Token(动作词元),Action Token 指的是对周围环境和自车驾驶行为的编码,并通过 Diffusion(扩散模型)进一步优化出最佳的驾驶轨迹,整个推理过程都要发生在车端,并且要做到实时运行。
MindVLA 将为用户带来全新的产品形态和产品体验,有 MindVLA 赋能的汽车是听得懂、看得见、找得到的专职司机。" 听得懂 " 是用户可以通过语音指令改变车辆的路线和行为,例如用户在陌生园区寻找超市,只需要通过理想同学对车辆说:" 带我去找超市 ",车辆将在没有导航信息的情况下,自主漫游找到目的地;车辆行驶过程中,用户还可以跟理想同学说:" 开太快了 "" 应该走左边这条路 " 等,MindVLA 能够理解并执行这些指令。