今天小编分享的汽车经验:特斯拉带火的端到端,能被理想发扬光大吗?,欢迎阅读。
端到端究竟该怎么做,至今业内没有答案
文 | 包校千
编辑 | 赵成
短短一年时间内,智能驾驶的主旋律从高速公路挺进城区道路,而近来车企高频宣传的 " 端到端 ",又让参赛选手卷入到新的赛道之中。
" 端到端 " 之所以备受推崇,则要归功于特斯拉的 FSD V12(特斯拉研发的自动驾驶系统)。其智驾的系统能力在短短数月间超越了过去数年的积累。凭借这一质的飞跃," 端到端 " 也被认为是迈向完全自动驾驶的分水岭。
实际上,端到端的第一端是感知端,如车辆的摄像头、激光雷达输入环境信息部分;第二端则是控制端,当车辆收集到环境信息后,要做出决策并对车辆行驶轨迹进行控制,让车辆根据环境进行加减速或避让等。因此,环境感知、决策规划、控制执行,三个模块形成了自动驾驶的底层操作逻辑。
但三者相对独立,只能依靠固定的语言和格式传达信息,在处理上有些死板,特别是在决策层方面,其各种决策依靠的是工程师提前设想和写下来的规则,如果出现没有提前写下来的规则,决策层可能就会出现决策错误。另外,信息在三个模块之间传输始终是有延迟的,并且有可能在信息传输的过程中导致数据缺失,从而带来一些安全隐患。
如今众玩家比拼的端到端,则是通过大模型将感知、规划和控制三个模块集成起来,消除三者之间的界限,让它们成为一体。
在将三者整合之后,工程师不再需要写规则告诉系统什么是车道线、红绿灯、交通规则等,直接抛弃规则,并运用大模型技术在大量的驾驶数据中学习人怎么开车,寻找驾驶的规律。相比之前工程师写下的规则,大模型学习之后能够迅速找到更加符合场景的应对策略,让车辆更似真人驾驶。
然而,当中国各路选手翻开特斯拉给出的端到端习题时,却没有任何参考答案和提示。对于智驾技术架构的摸索,大多数团队都是从 2023 年才刚刚开始的。
在众多参赛玩家中,理想是少数的激进派。其采用 "4D One Model" 的一体化决策网络 , 即把感知决策合二为一的 " 一段式端到端 " 技术方案。该方案可以实现从数据输入到路径输出只经过一个模型。而华为、小鹏等企业所采用的则是 " 分段式端到端 " 的渐进发展路线。
为了在智能驾驶领網域拔得头筹,从 9 月 10 日起,理想的部分车型正式更新为新一代智能驾驶技术方案,即 " 端到端 +VLM(视觉语言模型)"。
" 从端到端开始,大家真正用人工智能的方式去做自动驾驶了,我相信或早或晚,头部玩家一定都会做这个方向的。" 理想汽车智能驾驶研发副总裁郎咸朋向我们表示。
01 从 " 城市 NOA"
转向 " 端到端 +VLM"
和华为、小鹏等智驾头部玩家相比,理想一直处于追赶状态。理想汽车董事长兼 CEO 李想曾放出豪言,其自研智驾系统在 2022 年完全可以和华为、特斯拉正面较量,但其智能驾驶无论是在规划能力还是横向控制方面,一直定位在 L2 级别,远未达到 L2++ 水平。
为了补足智驾短板,理想从 2023 年开始集中发力。从去年年初公司决定力推城市 NOA 年内落地。
尽管身为新势力销冠,但当华为在 2023 年 9 月宣布年底推出全国都能开的无图方案后,一直徘徊在月销数千辆的问界在短短一个月后便销量破万,年底更是冲上月销 3 万辆大关。这让理想高层再次把智能驾驶的战略提升了一个层级。在 2023 年三季度财报电话会上,公司高层表态称,有信心在 2024 年上半年成进入 " 经过市场验证的第一梯队 "。
不过,在奋起直追的过程中,理想一直在变换智驾路线。
在 2023 年 4 月的上海车展上,理想提出了 " 年内百城通勤 NOA" 的目标。此后不久,不只是理想,一众车企不但直接宣布做到了量产,还比上了开城速度,宣称年底就能在几十城、上百城,甚至全国使用。但是在去年的成都车展上,理想言之凿凿的城市 NOA(针对城市交通环境开发的驾驶辅助系统)却变成了以通勤 NOA(可以让用户设定自己的通勤路线,并通过日常通勤时的自动化训练积累特征)来实现。
图源 IC
和通勤 NOA 这种在限定路线范围内的智驾方案相比,城市 NOA 要面对更复杂的路段、更多不确定的因素。在此之前,全行业的城市 NOA 基本都停留在 demo(样本)阶段,很多车企连 ODD 区網域(全称 OperationalDesignDomain,即运行设计網域,是指针对自动驾驶及相关功能专门设计的运行条件,包括但不限于道路类型、行驶区網域、速度、环境等)都没跑明白。" 如果只是在全国道路上吭吭咔咔地开起来,没什么难度,ACC(自适应巡航控制系统) 可以,LCC(车道居中辅助系统) 也可以,但如果想让城市 NOA 在全国道路上开得好,那很难。" 小鹏汽车创始人何小鹏曾评价道。
从 2023 年开始,国内智驾头部车企的竞争转向传统的模块化技术架构下,以人海战术比拼开城速度。在此过程中,新造车企业的智驾团队无一例外地扩充到千人规模,星夜兼程地训练、测试、验证,并攻克极端情况。
城市 NOA 之所以能成为行业爆点,并演变为一场激烈的开城大战,很大程度上是因为智驾已成为消费者购买决策的主要因素之一。市场研究机构 J.D.Power 君迪发布的《2023 中国新车购买意向研究》显示,智能化体验在购车决策中的影响权重上升到 14%,成为继汽车质量和性能之后的第三大决策因素。
当然,理想狂补智驾作业不仅是为了刺激销量,还与李想本人对人工智能的执念有关。
在 2023 年初的内部信中,李想提到公司的愿景是 " 到 2030 年成为全球领先的人工智能企业 "。久未露面的李想,在出席今年 6 月举办的中国汽车重庆论坛时,也分享了对于自动驾驶技术路线的新思考。
他认为,如果自动驾驶团队每天干的活都是靠人工去调试各种各样的 cornercase(极端情况),那么人越多,cornercase 就越多,离真正的自动驾驶就越遥远。而端到端 +VLM+ 生成式的验证系统,会是未来整个物理世界机器人最重要的技术架构和技术体系。
在 7 月召开的智能驾驶夏季发布会上,理想首次公开展示了这一全新的自动驾驶架构。该架构主要由端到端模型、VLM 视觉语言模型、世界模型三部分共同构成。为此,理想卧薪尝胆了一年,一边继续用 NPN 减少对高精地图的依赖,兑现去年 " 百城 NOA" 的承诺;一边研发 " 无图 NOA",同步进行端到端的预研。
今年 7 月,理想汽车向 1000 名内测车主推送了基于端到端模型 +VLM 的智驾版本。该版本可以达到 L2+++ 的智驾水平,甚至足以支持 L3 级(有需要时驾驶员要接管)、L4(无需接管的自动驾驶)级自动驾驶产品。
在不到 1 个月的时间里,千人内测的城市 NOA 总行驶里程达到 21.1 万公里,单日城市 NOA 驾驶最长里程为 391 公里,单次城市 NOA 零接管最长里程 81.6 公里。在此过程中,系统对于司机驾驶数据的学习,让对于环岛、超车的处理能力得到明显提升。在 8 月成都车展上,理想又同步开启了万人内测,显然是期冀于全新自动驾驶技术架构成为弯道超车的利器。
回溯理想汽车的智驾技术路线,从高精地图方案到 NPN(神经先验网络),再到无高精地图方案,再到如今的 " 端到端 +VLM",短短 3 年内,智驾团队尝试了多种方案。然而在技术架构快速更迭的过程中,智驾体验虽然更好了,但系统到底运用了司机掌握的哪些技巧和规则,端到端的不可解释属性,让工程师和使用者还无从得知。
在 L4 级自动驾驶(高度自动驾驶) 真正实现之前,坐在驾驶位置的还是人,因此安全、可靠、稳定,才是用户对当前智能驾驶的检验标准。如何印证技术的安全性与先进性,是所有玩家无法回避的核心问题。
02 激进派 PK 保守派
智驾时代上半场,系统能力的上限取决于产品的设计能力,例如下匝道、超车变道、走 ETC 等能力,这需要逐一进行拆解和细化。进入到智驾时代下半场,端到端的应用能让系统能力的上限更高,在一些关键场景的表现更加拟人,更加灵活自如,摒弃了传统智能驾驶系统的生硬的 " 规则感 "。
郎咸朋称,他们在训练了 80 万条数据量时,系统还不能通过环岛,但是在训练了 100 万条后,惊喜地发现系统可以做到了。
理想汽车智能驾驶研发副总裁郎咸朋
理想方面认为,端到端是真正用人工智能的方式去做自动驾驶了。只要用更多数据训练模型,系统就会不断变强,表现可能超过人类司机。
虽然端到端进化速度很快,但毕竟属于 " 黑盒 " 模式,对于其能力的评价和测试是不确定性的,很难测试和验证。当大模型遇到很多没学明白的地方时,就容易出现下限问题。比如特斯拉车主就遭遇过危险时刻,当十字路口的直行道排队较长,特斯拉的 autopilot(自动驾驶)直接拐到左转道,然后红绿灯一亮,直接又加速斜插回直行道。差点和直行车撞上。所幸,驾驶员一脚踩住了刹车。
因此,类似场景既需要算法覆盖,用有优质的数据强化训练,让系统学会安全的驾驶习惯,同时还要有兜底的手段,比如驾驶者打算进行 180 ° 的急转向,理想智驾的控制模块就会对其进行约束。
为了让智驾的安全性得到保证,理想設定了安全兜底模块,确保系统有绝对的下限。今年 7 月,理想汽车正式推送全自动紧急转向 AES(自动紧急转向)。AES 在自动紧急制动系统 AEB(自动紧急刹车)的基础上,将一维的纵向制动,更新到了二维的制动及转向,规划多条躲避路径并选择其中最优的进行避撞。" 用算法、冗余一起来解决安全问题,是在最极端的情况下,最兜底的一种保证绝对安全的方式。" 郎咸朋表示。
据了解,小鹏、极越等保守派玩家采用的是两段式端到端,即感知和规控分为两个模型来做。以小鹏汽车为例,其技术方案是感知神经网络 XNet+ 规划神经网络 XPlanner+ 侧重场景理解的视觉语言模型 XBrain。
对此,激进派认为分段式端到端仍然没有摆脱传统方案的范畴,尽管感知与规划都实现了神经网络化,但一个关键点没有改变,即连接两个神经网络的依然是人类定义的接口,这意味着信息损失,以及大量人工标注,整个流程不利于全局最优,也不利于自动化。
不过,分段式端到端的优点也同样在此,有人类定义的接口,意味着会输出人类能看懂的中间结果,便于检查、定位问题,不至于牵一发而动全身。比如,感知出问题了不用把整张网络都重新训练一遍。更重要的是,分段式端到端更容易保住智驾表现的下限。
理想选择的一段式端到端,则是用传感器输入,模型推理完毕后直接给到轨迹规划用来控车的一体化端到端模式。
其对于坚持采用一段式端到端的解释是,这种方式能够解决中间信息的损失。倘若中间增加了人为的信息消化过程,分段式端到端的效率可能会所有降低,能力上限也会受到约束。
对于能力下限的解决方案,理想设计了一套多系统结构,即以端到端为基础,整合具备兜底和泛化能力的 VLM 视觉语言大模型和用于验证和强化学习的世界模型。
2024 款理想 L9
VLM 视觉语言大模型擅长的是逻辑推理,能够去执行复杂的分析,在驾驶中给 " 端到端 " 系统提供更加符合逻辑、准确的驾驶决策。比如当车辆行驶到一个复杂的路段,同时又遇到一个水坑,这时候其会调用大腦系统 2 工作,处理复杂逻辑并推演,两个系统实时运行,相互配合协同,目的是让车辆更拟真人驾驶。
世界模型是智驾行业找到的最新方法论。它通过学习海量真实驾驶场景视频,可以预测并生成未来一定时间内的驾驶场景视频,做出正确的驾驶决策,本质上就是时空推演。在 2023 年人工智能顶级会议 CVPR 上,特斯拉展示了世界模型的研发成果。
使用世界模型比目前的端到端更进一步的是,它的核心任务不仅仅是给出规划路径,更有 " 预测驾驶场景的像素变化 "。这个难度极高的任务,会逼迫模型不仅仅学习优秀驾驶员的行为,还必须广泛地学习交通知识与物理常识。
理想的世界模型是通过扩散模型技术和 3DGS 技术(即三维高斯溅射技术,是一种先进的三维建模和可视化技术),把曾经遇到过错题以及遇到过的场景,举一反三地形成模拟题,实现不断地测试模型能力,不断地优化各个城市表现。它相当于是一套题库,来源有两种:
一种是根据真实车主的数据,产品和整车的主观评价团队,与内部司机共同制定 " 老司机标准 ",然后给理想车主的驾驶行为进行打分。如果在安全、法律法规等维度存在不安全、不合规的情况,模型就不能交付给用户。
另一种方式类似 " 错题库 ",在正常的测试和开车过程中,用户的接管和退出就是 " 错题库 "。
真题库和错题库都有了,理想还会再生成一些模拟题,根据现有的数据举一反三,比方说有个匝道总是出问题,那么匝道的场景,理想都会进行训练,再生成一些匝道的内容,这就是模拟题。
03 标配和免费,
理想能否坚持到底?
2024 年 1 月,特斯拉开始大规模推送的 FSD V12,带火了 " 端到端 ",也让智能驾驶迎来了 ChatGPT 时刻。一时间,仿佛 L4 级别的智能驾驶呼之欲出。
相比于特斯拉,以理想、蔚来、商汤、元戎为代表的科技公司,其技术路线向端到端转移大多是从 2023 年底才开始。这意味着无论是模型的建立还是数据训练,中国车企与特斯拉之间始终存在着一定差距。
去年,理想对于智驾技术的判断是,只落后特斯拉半年。今年,这个差距可能还会再小一点。在郎咸朋看来,理想的技术架构和特斯拉相比代差不大,甚至更有优势," 因为我们有 VLM,有系统 2,特斯拉只是有系统 1,端到端。"
郎咸朋表示,理想提出端到端 +VLM 的系统架构后,行业内很多企业也开始提及双系统理论的好处,无论是对于理想汽车来说,还是对于特斯拉来说,其实都是在向双系统方向发展。
从训练算力和训练数据方面来看,中国企业的相关布局也更胜一筹。" 特斯拉应用数据的合规性会受到一些约束,训练算力的部署搭建也还需要时间。" 郎咸朋认为,从这个层面上看,国内车企跟特斯拉的整体差距不会越拉越大。
目前,理想有 80 万车主、超过 12 亿公里的数据,五千张 A100、A800 等同的训练卡数量,训练算力达 5.39EFLOPS,在行业内都属于头部。但这是一场昂贵的竞赛,招兵买马、购置 GPU、训练模型,这是巨额开支,需要有健康的利润来提供支持。
但外界认为,理想的智驾业务很激进,商业策略却相对保守。
李想在重庆汽车论坛上誓言,端到端 +VLM 会在 3 年内实现 L4 级别自动驾驶。但理想不但没有想过 Robotaxi 这门生意,甚至到目前为止仍没有表露出对智驾收费的兴趣。
从公司成立第一天开始,标配和免费就是理想进入智能驾驶就制定的策略。未来," 有监督的自动驾驶对所有 AD Max 的车主也是不收费的。" 郎咸朋告诉我们,公司目前的交付量比较好且企业经营稳健,也有足够的资源投入智驾研发。
与小鹏、蔚来不同,理想的智驾 KPI 并不是取得经营收入,而是为销量服务。过去一年,理想直面鸿蒙智行,销量承压。而鸿蒙智行的最大卖点,就是华为的 ADS 智驾能力。理想免费的 AD MAX 智驾可以在最大程度上帮助抢下更多订单。
理想 L6
据理想汽车发布的数据显示,公司 7 月 -8 月交付量达到 5.1 万辆和 4.8 万辆,同比增长 49.4%、37.8%。展望第三季度,理想汽车预计季度交付量达到 14.50 万辆至 15.50 万辆,同比增长 38.0% 至 47.5%;收入总额预计达到 394 亿元至 422 亿元,同比增长 13.7% 至 21.6%。根据指引,9 月理想汽车将保持 5 万辆交付,并在 10 月实现累计交付百万辆。
郎咸朋表示,无图 NOA 全量推送之后,门店的试驾量和销量都有大幅度的提升。近两个月,专门进店试驾 AD Max 的数量翻了一倍。其中 30 万元以上的车型,AD Max 超过 AD Pro,占比提高到 70%,理想 L9 AD Max 占比甚至达到 90% 以上。
如今,中国汽车行业已全面进入智驾时代,淘汰赛已然开始,智驾业务的烧钱程度很难再让新势力们一直保持 " 交个朋友 " 的状态。一张训练卡的成本 10 万元起跳,智驾千人团队的人力成本每年 10 亿元起步,理想汽车的端到端智驾最终能否收获同等回报,还需要等到全面交付时再下定论。
责编:秦琪
推荐阅读
☎️ 联系我们
星标指南