理想要和特斯拉掰手腕

今天小编分享的互联网经验：理想要和特斯拉掰手腕，欢迎阅读。

作者 | 柴旭晨

编辑 | 周智宇

在外界印象中，理想的智驾一直是追赶者的状态，但在 ALL IN 端到端后，理想竟然自信地说已经超过特斯拉了。

在 8 月 30 日的成都车展，理想汽车智驾团队详细发布了 " 端到端 +VLM" 方案，不同于国内同行的 " 分段式端到端 "，理想的方案是被称为 "OneModel" 的一张大网。

这是目前自动驾驶架构演进的最终形态，该阶段不再有感知、决策规划等模块的明确划分，从原始信号输入到最终规划轨迹的输出，采用一个深度学习模型，完整无损地应用于自动驾驶。

在理想智驾研发副总裁郎咸朋看来，死磕 " 最终版 " 的端到端，正是理想得以弯道超车的秘密。

" 过去的智驾方案，不管是轻图还是无图，底层技术架构都是有人为设计成分的，如果想将一年四季各种情况都跑一遍，没有一两年时间是不可能实现。所以我们迭代了端到端 +VLM 技术架构 "，郎咸朋认为，该架构是 AI 自己生长的，" 真正变成车自己在开 "。

不仅如此，理想开始打造 " 世界模型 " 来加速智驾 AI 的训练，" 世界模型可以生成、模拟场景，这是几千万个场景测试 "，理想智驾高级算法专家詹锟表示，这是实现智驾快速迭代最重要、且最必要的保证，并且 " 世界模型 " 还是将来碾压端到端的存在。

" 它可以根据当前的环境预测未来，能推理出未来的场景。比如球滚到路中间，端到端只会刹车，世界模型会想后面会不变还有小孩冲出来？它对世界有更宏观综合的判断 "。詹锟表示，理想在上车端到端的同时，就已经预研下一代技术了。

因此郎咸朋凡尔赛地表示，" 我们跟特斯拉没有太大差别，甚至更领先一点 "。

敢于与特斯拉 FSD 这个全球智驾标杆掰手腕，不仅在于理想双系统架构的超前，更在于理想在新势力当中领先的销量和财力。郎咸朋说真正做到端到端要看两个能力，" 有没有足够多的数据和充足的算力，因为它是 AI 训练 "。

他表示，为了训练好自家智驾系统，理想对数据质量要求极高，只精选 3%" 老司机 " 数据喂给 AI，但在 80 万车主基数下数据量已经足够庞大；而为了消化这些数据，理想到今年底要将算力提升至 8 亿 EFLOPS，" 这是一年 20 亿人民币的花销 "。

在郎咸朋眼中，高阶智驾是巨头才能玩得起的游戏，" 未来到 L4 阶段，数据和算力的增长都呈指数级，每年至少需要 10 亿美金，一家企业的盈利和利润不能支撑投入的话就很困难 "。

靠着端到端的初步上车，理想已经获得了销量的快速转化。接下来它还要持续发力这个 " 头号工程 "，这或许将是带领它成为比肩比亚迪、特斯拉的关键一环。

以下是华尔街见闻与理想智驾研发副总裁郎咸朋、智驾高级算法专家詹锟的对话实录（经编辑）：

问：什么才是真正的端到端？怎么评价它是真的端到端？什么样的效果才是最好的？

詹锟：端到端是一种研发的范式，从最开始的输入端到最后的输出端，中间没有其他过程，用一个模型完整实现。现在理想汽车是一体化 OneModel 端到端，通过直接传感器输入，模型推理完毕后直接给到轨迹规划用来控车，这就是一体化端到端。

市面上还有一种端到端，是在中间分两个模型，模型中间以一个信号做桥接，但我们认为这不是真正的端到端，如果中间加了人为的信息消化过程，可能效率不是那么高或能力上限受到约束。

郎咸朋：现在很多人都说自己是端到端模型，但是真正做端到端还是要看两个能力：有没有足够多的数据和充足的算力。否则我觉得很难做出真正的端到端来，因为它是 AI 训练。

问：现在很多品牌提出自己是引领者，理想汽车也在说已经跻身智能驾驶第一梯队，怎样评价自家端到端的技术水平？

郎咸朋：普通消费者不关注技术而是体验，我们也不和谁比。

以前我们为做城市 NOA 考虑过用高精地图，但后续因为体验因素决定转做无图，但那时的无图还是感知、规划、分模块的方案，里面有大量的人工规则和实车测试。

先不说预算投入方面，时间上就非常困难，如果想将一年四季的各种情况都跑一遍，没有一两年时间是不可能实现的。所以我们又迭代到端到端 +VLM 技术架构，这是 AI 方案是自己长出来的。

之前辅助驾驶是系统辅助人来开，主体是人，但是到现在端到端 +VLM 阶段后，我们认为是变成车自己在开。训练出完整模型之后，模型自己有能力开好这个车，我监督这个车哪里不行或者有提示需要接管，但是主体一定是车，人作为一种监督的辅助角色。

问：端到端的研发周期大概多久？

郎咸朋：理想认真做端到端 +VLM 是从去年开始的，我们在研发阶段是一个非常小而精的团队，做无图的时候已经在预研端到端，现在做端到端实际已经预研下一代技术了。当判断条件已经成熟和初步验证成功，会转到量产阶段。

问：端到端最早是特斯拉提出来的，我们是不是受到特斯拉的启发？我们怎么确定流程一定能跑通？

詹锟：端到端不是特斯拉第一个提出来的，2016 年英伟达就有一个模型提到了这个技术，但效果一般只解决了特别简单的场景，以当时算力和模型规模，大家认为这条路是行不通的。到 2023 年，特斯拉在新 transformer 架构上增加了超大算力做出来之后，在往更有成长的方向上推进。

问：理想目前感受自己和特斯拉智驾的差距有多大？

郎咸朋：去年那会过差半年，今年可能还会再小一点。从技术架构上，我们跟特斯拉没有太大差别甚至更领先一点，因为我们有 VLM，特斯拉只有端到端。在中国的训练算力和训练数据上，至少从现在看我们是领先于它，因为特斯拉在中国还需要算力部署。

另外我们也用上了世界模型，可以生成、模拟场景，这是几千万个场景测试，这是实现智驾快速迭代最重要、且最必要的保证。这种方式进行模型迭代比原来整车或者路试的方式要可靠得多，而且一年四季各种场景全都可以涵盖。

詹锟：世界模型可以根据当前的环境去预测未来，能够推理出未来的场景。比如，球滚到路中间，端到端只会刹车，但世界模型会想是不是还会有小孩冲出来？它对世界有更宏观综合的判断。其实 VLM 在我们系统上就是起到这个效果，当然我们现在模型规模还很小，能力是有限的。

问：前不久有人提出 "500 亿做不好智驾 " 的观点，理想对此有什么看法？

郎咸朋：关于 500 亿，需要判断是一次性投资还是长期投资，就像今天提到的我们每年都会有 10 亿美金投资在智驾研发中，如果连续 10 年的话是超过 500 亿。

端到端 +VLM 的技术架构是一个分水岭，从这一代开始才是真正用 AI 的方式做。

之前我们还是在用传统方式做智驾，所有产品的最终效果，都是有 " 设计 " 在里面，没有设计到的场景可能就无法实现。不仅无法实现纯粹的数据去驱动，人工工作量也大。

一体化的端到端模型，虽然在模型的结构、模型的训练方式上有难度，但最大的好处是，我们给出数据训练模型，模型输出结果，这样自然而然的 AI 训练过程。

从我们自己的端到端模型来看，只需要告诉它要做和 " 老司机 " 一样的驾驶体验，输入所有理想车主中 " 老司机 " 的驾驶数据，它就给你结果。数据筛选是非常严格的，在当时 80 万车主中，只有 3% 才是真正的老司机的数据。

在有了这个前提之后，接下来做研发的核心竞争，看是否有更多更好的数据和与之配套的算力去训练模型。而算力和数据的获取，需要看花多少钱、投入多少资源去做。而这其中有些东西是用钱买不到的，比如训练数据、训练里程，各家车企有自己的资源，相互之间并不会互通共享。

另一个需要投资的是算力，我们现在 5.39 亿 EFLOPS 的算力，到今年年底预计 8 亿 EFLOPS，这是一年 20 亿人民币的花销。

未来进入到 L4 阶段，每年数据和算力都呈指数级增长，这也就意味着每年至少需要 10 亿美金。5 年之后，它需要持续迭代，在这样的量级下，一家企业的盈利和利润不能支撑投入的话，是很困难的。

所以，现在并不需要关注投入多少亿做自动驾驶，而是从本质上出发，是否有充分的算力和数据支持，再看看需要投入多少钱。

问：过去几年智驾的技术战快速变化经历了几次大迭代，巨变还会发生吗？

郎咸朋：端到端 +VLM 双系统是模拟人类思考认知的架构，因为我们做 AI 最终希望可以实现拟人或者类人。目前的 AI 框架是非常合理的，很多企业也开始尝试跟进。

双系统理论，不仅可以用在自动驾驶上，也是未来 AI 甚至智能机器人的范式。自动驾驶可以说是一个轮式智能机器人，只是工作范围是道路。所以，我觉得是有一定的长期行为力，但技术发展是无穷无尽的，我们会保持对先进技术的敏捷感知，如果有新的技术我们也会追踪。

问：端到端量产交付之后能给销量带来多大的增量？

郎咸朋：无图 NOA 全量推送之后，近两个月我们试驾翻了一倍。30 万以上的车型 AD Max 占比达到 70%，原先 AD Pro 会多一些，L9 AD Max 甚至占比 90% 以上。

问：理想汽车对高阶智驾有没有收费的计划？有什么好的商业模式？

郎咸朋：标配和免费都是理想从第一天开始进入智能驾驶就制定的策略，" 有监督的自动驾驶 " 对所有 AD Max 的车主都是不收费的，它还能为自动驾驶提供更多的车辆训练里程。因此交付量比较好且企业经营稳健，也有足够的资源投入智驾研发。

詹锟：理想有非常丰富的数据，我们相信这些数据是能够支持我们做好的优势。所以我们选择了挑战更大、更困难的端到端一体化架构，它的上限很高，但缺点是训练更难，包括数据配比和训练方法需要去探索和挖掘，但我们还是毅然决然地选择了难而正确的道路。