特斯拉带火的端到端，能被理想发扬光大吗？

今天小编分享的汽车经验：特斯拉带火的端到端，能被理想发扬光大吗？，欢迎阅读。

端到端究竟该怎么做，至今业内没有答案

文 | 包校千

编辑 | 赵成

短短一年时间内，智能驾驶的主旋律从高速公路挺进城区道路，而近来车企高频宣传的 " 端到端 "，又让参赛选手卷入到新的赛道之中。

" 端到端 " 之所以备受推崇，则要归功于特斯拉的 FSD V12（特斯拉研发的自动驾驶系统）。其智驾的系统能力在短短数月间超越了过去数年的积累。凭借这一质的飞跃，" 端到端 " 也被认为是迈向完全自动驾驶的分水岭。

实际上，端到端的第一端是感知端，如车辆的摄像头、激光雷达输入环境信息部分；第二端则是控制端，当车辆收集到环境信息后，要做出决策并对车辆行驶轨迹进行控制，让车辆根据环境进行加减速或避让等。因此，环境感知、决策规划、控制执行，三个模块形成了自动驾驶的底层操作逻辑。

但三者相对独立，只能依靠固定的语言和格式传达信息，在处理上有些死板，特别是在决策层方面，其各种决策依靠的是工程师提前设想和写下来的规则，如果出现没有提前写下来的规则，决策层可能就会出现决策错误。另外，信息在三个模块之间传输始终是有延迟的，并且有可能在信息传输的过程中导致数据缺失，从而带来一些安全隐患。

如今众玩家比拼的端到端，则是通过大模型将感知、规划和控制三个模块集成起来，消除三者之间的界限，让它们成为一体。

在将三者整合之后，工程师不再需要写规则告诉系统什么是车道线、红绿灯、交通规则等，直接抛弃规则，并运用大模型技术在大量的驾驶数据中学习人怎么开车，寻找驾驶的规律。相比之前工程师写下的规则，大模型学习之后能够迅速找到更加符合场景的应对策略，让车辆更似真人驾驶。

然而，当中国各路选手翻开特斯拉给出的端到端习题时，却没有任何参考答案和提示。对于智驾技术架构的摸索，大多数团队都是从 2023 年才刚刚开始的。

在众多参赛玩家中，理想是少数的激进派。其采用 "4D One Model" 的一体化决策网络 , 即把感知决策合二为一的 " 一段式端到端 " 技术方案。该方案可以实现从数据输入到路径输出只经过一个模型。而华为、小鹏等企业所采用的则是 " 分段式端到端 " 的渐进发展路线。

为了在智能驾驶领網域拔得头筹，从 9 月 10 日起，理想的部分车型正式更新为新一代智能驾驶技术方案，即 " 端到端 +VLM（视觉语言模型）"。

" 从端到端开始，大家真正用人工智能的方式去做自动驾驶了，我相信或早或晚，头部玩家一定都会做这个方向的。" 理想汽车智能驾驶研发副总裁郎咸朋向我们表示。

01 从 " 城市 NOA"

转向 " 端到端 +VLM"

和华为、小鹏等智驾头部玩家相比，理想一直处于追赶状态。理想汽车董事长兼 CEO 李想曾放出豪言，其自研智驾系统在 2022 年完全可以和华为、特斯拉正面较量，但其智能驾驶无论是在规划能力还是横向控制方面，一直定位在 L2 级别，远未达到 L2++ 水平。

为了补足智驾短板，理想从 2023 年开始集中发力。从去年年初公司决定力推城市 NOA 年内落地。

尽管身为新势力销冠，但当华为在 2023 年 9 月宣布年底推出全国都能开的无图方案后，一直徘徊在月销数千辆的问界在短短一个月后便销量破万，年底更是冲上月销 3 万辆大关。这让理想高层再次把智能驾驶的战略提升了一个层级。在 2023 年三季度财报电话会上，公司高层表态称，有信心在 2024 年上半年成进入 " 经过市场验证的第一梯队 "。

不过，在奋起直追的过程中，理想一直在变换智驾路线。

在 2023 年 4 月的上海车展上，理想提出了 " 年内百城通勤 NOA" 的目标。此后不久，不只是理想，一众车企不但直接宣布做到了量产，还比上了开城速度，宣称年底就能在几十城、上百城，甚至全国使用。但是在去年的成都车展上，理想言之凿凿的城市 NOA（针对城市交通环境开发的驾驶辅助系统）却变成了以通勤 NOA（可以让用户设定自己的通勤路线，并通过日常通勤时的自动化训练积累特征）来实现。

图源 IC

和通勤 NOA 这种在限定路线范围内的智驾方案相比，城市 NOA 要面对更复杂的路段、更多不确定的因素。在此之前，全行业的城市 NOA 基本都停留在 demo（样本）阶段，很多车企连 ODD 区網域（全称 OperationalDesignDomain，即运行设计網域，是指针对自动驾驶及相关功能专门设计的运行条件，包括但不限于道路类型、行驶区網域、速度、环境等）都没跑明白。" 如果只是在全国道路上吭吭咔咔地开起来，没什么难度，ACC（自适应巡航控制系统）可以，LCC（车道居中辅助系统）也可以，但如果想让城市 NOA 在全国道路上开得好，那很难。" 小鹏汽车创始人何小鹏曾评价道。

从 2023 年开始，国内智驾头部车企的竞争转向传统的模块化技术架构下，以人海战术比拼开城速度。在此过程中，新造车企业的智驾团队无一例外地扩充到千人规模，星夜兼程地训练、测试、验证，并攻克极端情况。

城市 NOA 之所以能成为行业爆点，并演变为一场激烈的开城大战，很大程度上是因为智驾已成为消费者购买决策的主要因素之一。市场研究机构 J.D.Power 君迪发布的《2023 中国新车购买意向研究》显示，智能化体验在购车决策中的影响权重上升到 14%，成为继汽车质量和性能之后的第三大决策因素。

当然，理想狂补智驾作业不仅是为了刺激销量，还与李想本人对人工智能的执念有关。

在 2023 年初的内部信中，李想提到公司的愿景是 " 到 2030 年成为全球领先的人工智能企业 "。久未露面的李想，在出席今年 6 月举办的中国汽车重庆论坛时，也分享了对于自动驾驶技术路线的新思考。

他认为，如果自动驾驶团队每天干的活都是靠人工去调试各种各样的 cornercase（极端情况），那么人越多，cornercase 就越多，离真正的自动驾驶就越遥远。而端到端 +VLM+ 生成式的验证系统，会是未来整个物理世界机器人最重要的技术架构和技术体系。

在 7 月召开的智能驾驶夏季发布会上，理想首次公开展示了这一全新的自动驾驶架构。该架构主要由端到端模型、VLM 视觉语言模型、世界模型三部分共同构成。为此，理想卧薪尝胆了一年，一边继续用 NPN 减少对高精地图的依赖，兑现去年 " 百城 NOA" 的承诺；一边研发 " 无图 NOA"，同步进行端到端的预研。

今年 7 月，理想汽车向 1000 名内测车主推送了基于端到端模型 +VLM 的智驾版本。该版本可以达到 L2+++ 的智驾水平，甚至足以支持 L3 级（有需要时驾驶员要接管）、L4（无需接管的自动驾驶）级自动驾驶产品。

在不到 1 个月的时间里，千人内测的城市 NOA 总行驶里程达到 21.1 万公里，单日城市 NOA 驾驶最长里程为 391 公里，单次城市 NOA 零接管最长里程 81.6 公里。在此过程中，系统对于司机驾驶数据的学习，让对于环岛、超车的处理能力得到明显提升。在 8 月成都车展上，理想又同步开启了万人内测，显然是期冀于全新自动驾驶技术架构成为弯道超车的利器。

回溯理想汽车的智驾技术路线，从高精地图方案到 NPN（神经先验网络），再到无高精地图方案，再到如今的 " 端到端 +VLM"，短短 3 年内，智驾团队尝试了多种方案。然而在技术架构快速更迭的过程中，智驾体验虽然更好了，但系统到底运用了司机掌握的哪些技巧和规则，端到端的不可解释属性，让工程师和使用者还无从得知。

在 L4 级自动驾驶（高度自动驾驶）真正实现之前，坐在驾驶位置的还是人，因此安全、可靠、稳定，才是用户对当前智能驾驶的检验标准。如何印证技术的安全性与先进性，是所有玩家无法回避的核心问题。

02 激进派 PK 保守派

智驾时代上半场，系统能力的上限取决于产品的设计能力，例如下匝道、超车变道、走 ETC 等能力，这需要逐一进行拆解和细化。进入到智驾时代下半场，端到端的应用能让系统能力的上限更高，在一些关键场景的表现更加拟人，更加灵活自如，摒弃了传统智能驾驶系统的生硬的 " 规则感 "。

郎咸朋称，他们在训练了 80 万条数据量时，系统还不能通过环岛，但是在训练了 100 万条后，惊喜地发现系统可以做到了。

理想汽车智能驾驶研发副总裁郎咸朋

理想方面认为，端到端是真正用人工智能的方式去做自动驾驶了。只要用更多数据训练模型，系统就会不断变强，表现可能超过人类司机。

虽然端到端进化速度很快，但毕竟属于 " 黑盒 " 模式，对于其能力的评价和测试是不确定性的，很难测试和验证。当大模型遇到很多没学明白的地方时，就容易出现下限问题。比如特斯拉车主就遭遇过危险时刻，当十字路口的直行道排队较长，特斯拉的 autopilot（自动驾驶）直接拐到左转道，然后红绿灯一亮，直接又加速斜插回直行道。差点和直行车撞上。所幸，驾驶员一脚踩住了刹车。

因此，类似场景既需要算法覆盖，用有优质的数据强化训练，让系统学会安全的驾驶习惯，同时还要有兜底的手段，比如驾驶者打算进行 180 ° 的急转向，理想智驾的控制模块就会对其进行约束。

为了让智驾的安全性得到保证，理想設定了安全兜底模块，确保系统有绝对的下限。今年 7 月，理想汽车正式推送全自动紧急转向 AES（自动紧急转向）。AES 在自动紧急制动系统 AEB（自动紧急刹车）的基础上，将一维的纵向制动，更新到了二维的制动及转向，规划多条躲避路径并选择其中最优的进行避撞。" 用算法、冗余一起来解决安全问题，是在最极端的情况下，最兜底的一种保证绝对安全的方式。" 郎咸朋表示。

据了解，小鹏、极越等保守派玩家采用的是两段式端到端，即感知和规控分为两个模型来做。以小鹏汽车为例，其技术方案是感知神经网络 XNet+ 规划神经网络 XPlanner+ 侧重场景理解的视觉语言模型 XBrain。

对此，激进派认为分段式端到端仍然没有摆脱传统方案的范畴，尽管感知与规划都实现了神经网络化，但一个关键点没有改变，即连接两个神经网络的依然是人类定义的接口，这意味着信息损失，以及大量人工标注，整个流程不利于全局最优，也不利于自动化。

不过，分段式端到端的优点也同样在此，有人类定义的接口，意味着会输出人类能看懂的中间结果，便于检查、定位问题，不至于牵一发而动全身。比如，感知出问题了不用把整张网络都重新训练一遍。更重要的是，分段式端到端更容易保住智驾表现的下限。

理想选择的一段式端到端，则是用传感器输入，模型推理完毕后直接给到轨迹规划用来控车的一体化端到端模式。

其对于坚持采用一段式端到端的解释是，这种方式能够解决中间信息的损失。倘若中间增加了人为的信息消化过程，分段式端到端的效率可能会所有降低，能力上限也会受到约束。

对于能力下限的解决方案，理想设计了一套多系统结构，即以端到端为基础，整合具备兜底和泛化能力的 VLM 视觉语言大模型和用于验证和强化学习的世界模型。

2024 款理想 L9

VLM 视觉语言大模型擅长的是逻辑推理，能够去执行复杂的分析，在驾驶中给 " 端到端 " 系统提供更加符合逻辑、准确的驾驶决策。比如当车辆行驶到一个复杂的路段，同时又遇到一个水坑，这时候其会调用大腦系统 2 工作，处理复杂逻辑并推演，两个系统实时运行，相互配合协同，目的是让车辆更拟真人驾驶。

世界模型是智驾行业找到的最新方法论。它通过学习海量真实驾驶场景视频，可以预测并生成未来一定时间内的驾驶场景视频，做出正确的驾驶决策，本质上就是时空推演。在 2023 年人工智能顶级会议 CVPR 上，特斯拉展示了世界模型的研发成果。

使用世界模型比目前的端到端更进一步的是，它的核心任务不仅仅是给出规划路径，更有 " 预测驾驶场景的像素变化 "。这个难度极高的任务，会逼迫模型不仅仅学习优秀驾驶员的行为，还必须广泛地学习交通知识与物理常识。

理想的世界模型是通过扩散模型技术和 3DGS 技术（即三维高斯溅射技术，是一种先进的三维建模和可视化技术），把曾经遇到过错题以及遇到过的场景，举一反三地形成模拟题，实现不断地测试模型能力，不断地优化各个城市表现。它相当于是一套题库，来源有两种：

一种是根据真实车主的数据，产品和整车的主观评价团队，与内部司机共同制定 " 老司机标准 "，然后给理想车主的驾驶行为进行打分。如果在安全、法律法规等维度存在不安全、不合规的情况，模型就不能交付给用户。

另一种方式类似 " 错题库 "，在正常的测试和开车过程中，用户的接管和退出就是 " 错题库 "。

真题库和错题库都有了，理想还会再生成一些模拟题，根据现有的数据举一反三，比方说有个匝道总是出问题，那么匝道的场景，理想都会进行训练，再生成一些匝道的内容，这就是模拟题。

03 标配和免费，

理想能否坚持到底？

2024 年 1 月，特斯拉开始大规模推送的 FSD V12，带火了 " 端到端 "，也让智能驾驶迎来了 ChatGPT 时刻。一时间，仿佛 L4 级别的智能驾驶呼之欲出。

相比于特斯拉，以理想、蔚来、商汤、元戎为代表的科技公司，其技术路线向端到端转移大多是从 2023 年底才开始。这意味着无论是模型的建立还是数据训练，中国车企与特斯拉之间始终存在着一定差距。

去年，理想对于智驾技术的判断是，只落后特斯拉半年。今年，这个差距可能还会再小一点。在郎咸朋看来，理想的技术架构和特斯拉相比代差不大，甚至更有优势，" 因为我们有 VLM，有系统 2，特斯拉只是有系统 1，端到端。"

郎咸朋表示，理想提出端到端 +VLM 的系统架构后，行业内很多企业也开始提及双系统理论的好处，无论是对于理想汽车来说，还是对于特斯拉来说，其实都是在向双系统方向发展。

从训练算力和训练数据方面来看，中国企业的相关布局也更胜一筹。" 特斯拉应用数据的合规性会受到一些约束，训练算力的部署搭建也还需要时间。" 郎咸朋认为，从这个层面上看，国内车企跟特斯拉的整体差距不会越拉越大。

目前，理想有 80 万车主、超过 12 亿公里的数据，五千张 A100、A800 等同的训练卡数量，训练算力达 5.39EFLOPS，在行业内都属于头部。但这是一场昂贵的竞赛，招兵买马、购置 GPU、训练模型，这是巨额开支，需要有健康的利润来提供支持。

但外界认为，理想的智驾业务很激进，商业策略却相对保守。

李想在重庆汽车论坛上誓言，端到端 +VLM 会在 3 年内实现 L4 级别自动驾驶。但理想不但没有想过 Robotaxi 这门生意，甚至到目前为止仍没有表露出对智驾收费的兴趣。

从公司成立第一天开始，标配和免费就是理想进入智能驾驶就制定的策略。未来，" 有监督的自动驾驶对所有 AD Max 的车主也是不收费的。" 郎咸朋告诉我们，公司目前的交付量比较好且企业经营稳健，也有足够的资源投入智驾研发。

与小鹏、蔚来不同，理想的智驾 KPI 并不是取得经营收入，而是为销量服务。过去一年，理想直面鸿蒙智行，销量承压。而鸿蒙智行的最大卖点，就是华为的 ADS 智驾能力。理想免费的 AD MAX 智驾可以在最大程度上帮助抢下更多订单。

理想 L6

据理想汽车发布的数据显示，公司 7 月 -8 月交付量达到 5.1 万辆和 4.8 万辆，同比增长 49.4%、37.8%。展望第三季度，理想汽车预计季度交付量达到 14.50 万辆至 15.50 万辆，同比增长 38.0% 至 47.5%；收入总额预计达到 394 亿元至 422 亿元，同比增长 13.7% 至 21.6%。根据指引，9 月理想汽车将保持 5 万辆交付，并在 10 月实现累计交付百万辆。

郎咸朋表示，无图 NOA 全量推送之后，门店的试驾量和销量都有大幅度的提升。近两个月，专门进店试驾 AD Max 的数量翻了一倍。其中 30 万元以上的车型，AD Max 超过 AD Pro，占比提高到 70%，理想 L9 AD Max 占比甚至达到 90% 以上。

如今，中国汽车行业已全面进入智驾时代，淘汰赛已然开始，智驾业务的烧钱程度很难再让新势力们一直保持 " 交个朋友 " 的状态。一张训练卡的成本 10 万元起跳，智驾千人团队的人力成本每年 10 亿元起步，理想汽车的端到端智驾最终能否收获同等回报，还需要等到全面交付时再下定论。

责编：秦琪