今天小编分享的互联网经验:一文看懂BEVFormer技术及其背后价值,欢迎阅读。
图片来源 @视觉中国
文 | 赛博汽车
从时间维度上看,BEVFormer 已是历史产物,或许几个月、最多一两年后,一个真正的 " 王炸 " 会出现。
2021 年 7 月,特斯拉展示了基于 BEV+Transformer(BEVFormer)的自动驾驶感知新范式,在取得了惊艳的效果后,国内也掀起 " 跟风潮 "。
近期,理想、蔚来、小鹏、小马智行、百度等多家主流车企、自动驾驶方案解决商推出相关量产方案。
一时间,BEV 越发 " 火 " 了起来。
这背后逻辑也很好理解。一方面,BEV 技术已经日渐成熟,从预研阶段基本走到了量产落地阶段;另外一方面,今年可能会是从高速 NOA 走向城区 NOA 量产的元年,在更加复杂的智驾场景下,BEV 所带来的优势能更好地得到体现。
与此同时,在智能驾驶商业化进展不及预期的大背景下,BEV 也可以作为相关企业难得的 " 技术卖点 "。
因此,在这个时间节点,我们试图按照 What-Why-Who-How 的逻辑,对 BEV+Transformer 技术本身,以及背后的商业价值可能性进行探讨。
What:什么是 BEV+Transformer
首先解决技术概念问题。
BEV(Bird's-eye-view),即鸟瞰图视角,是自动驾驶跨摄像头和多模态融合背景下的一种视角表达形式。
它的核心思想,是将传统自动驾驶2D 影像视角(Image View)加测距的感知方式,转换为在鸟瞰图视角下的3D 感知。
从实现任务来说,BEV 的核心是将 2D 影像作为输入,最终输出一个 3D 的框架,在这个过程中,如何将不同传感器的特征(feature)实现最优表达是难点。
目前行业有两种常见的方式,一种是正向思维,采用自底向上、从 2D 到 3D 的方式,先在 2D 视角去每个像素的深度,再通过内外参投影到 BEV 空间,通过多视角的融合生成 BEV 特征,但对深度的估计一直都是难点。
另一种方法是逆向思维,采用自顶向下、从 3D 到 2D 的方式,先在 BEV 空间初始化特征,在通过多层 transformer 与每个影像特征进行互動融合,最终再得到 BEV 特征。
在第二种方法中,因为 Transformer 的存在,使得 " 逆向思维 " 成为了可能。
Transformer 是一种基于注意力机制(Attention)的神经网络模型,由 Google 在 2017 年提出。与传统神经网络 RNN 和 CNN 不同,Transformer 不会按照串行顺序来处理数据,而是通过注意力机制,去挖掘序列中不同元素的联系及相关性,这种机制背后,使得 Transformer 可以适应不同长度和不同结构的输入。
Transformer 问世后,先在自然语言处理 NLP 领網域大放异彩,之后被逐步移植到计算机视觉任务上,也取得了惊人的效果,实现了 NLP 和 CV 在建模结构上的大一统,使视觉和语言的联合建模更容易,两个领網域的建模和学习经验可以通过深度共享,也加快各自领網域进展。
Why:为什么需要基于 Transformer 的 BEV
在厘清技术原理后,其实也就理解了 " 为什么需要 " 的问题:识别准,精度高,方便和激光、毫米波雷达做前融合等。
具体延展来看,BEV 可以带来四大优势。
第一,BEV 视角下的物体,不会出现影像视角下的尺度(scale)和遮挡(occlusion)问题。由于视觉的透视效应,物理世界物体在 2D 影像中很容易受到其他物体遮挡,2D 感知只能感知可见的目标,而在 BEV 空间内,算法可以基于先验知识,对被遮挡的区網域进行预测。
第二,将不同视角在 BEV 下进行统一表达,能极大方便后续规划和控制任务。主流规划和控制算法,不论上游传感器信息来自什么视角,经过融合之后,都会转换到以自车为中心坐标系中(Vehicle Coordinate System,VCS),对 VCS 来说,最适合的其实就是 BEV 视角,也就是 BEV 感知结果输出的空间是规划和控制任务的标准输入。
第三,BEV 能够给系统带来巨大的提升。摄像头感知算法工作在 2D 空间,而雷达感知算法工作在 3D 空间,在对 2D 与 3D 几何关系融合过程中,会丢失大量的原始信息,采用 BEV 感知系统中,摄像头、激光雷达、毫米波雷达感知均在 BEV 空间中进行,融合过程提前。BEV 还可以引入过去时间片段中的数据,实现时序融合,最终使感知效果更加稳定、准确。
第四,BEV 能够实现端到端优化。感知任务中的识别、跟踪和预测本质是一个串行系统,系统上游误差会传递在下游误差,在 BEV 空间内,感知和预测都在同一个空间进行,可以通过神经网络做到端到端的优化,输出 " 并行 " 结果,而整个感知网络可以以数据驱动方式来自学习,实现快速迭代。
可以理解为,BEV 可以实现将 360 度环视的时间、空间融合,再加上 Transformer 架构可以输出静态的车道线、红绿灯、道路边缘信息等,以及动态的有行人、两轮车、汽车等,同时还应用了端到端的预测能力,结合时序帧能对周边的车辆做未来 3-6 秒的轨迹预测。
这也意味着,端到端的算法有了闭环的希望。
Who: 行业最佳实践是特斯拉
特斯拉是第一个在工业界采用 BEV+Transformer 进行视觉感知任务的企业。
在其感知任务中,首先利用主干网络对各个攝影機进行特征提取,再利用 Transformer 将多攝影機数据从影像空间转化为 BEV 空间。
在这个空间里面,通过深度学习去完成一个特征的融合,然后再通过一个 3D 的解码器,直接端到端输出最后的一个 3D 检测和道路结构信息,这样下游的规划与控制直接可以在 BEV 的空间上去进行。
这一次革命,让马斯克可以自信地对外宣称,特斯拉感知不依赖激光雷达和毫米波雷达,依靠纯视觉,也可以得到准确三维世界信息。
基于以上实践,众多车企以及智驾供应商都开始尝试 BEV+transformer,车企里的代表蔚来、理想、小鹏;智驾供应商里面的百度、毫末、地平线、小马、轻舟等等,在具体使用方法上每一家有 " 微调 ",但是整体还是跟随特斯拉的节奏在走。
How:自动驾驶感知的主流范式
未来,BEV+Transformer 很有可能会替代之前的 2D+CNN,逐步成为自动驾驶感知的主流范式。
这意味着,从硬體芯片开始,到传感器摄像头、軟體算法、模型部署、数据采集标定等,都需要有相应的适配和变化。
第一,为了确保视觉感知重叠,对汽车摄像头数量的要求会有所提升,相应地,激光雷达的数量以及在感知中的作用会减少,也就是纯视觉技术路线会受到更多的青睐。
第二,Transformer 是暴力美学,模型体量惊人,其运算还会消耗大量的存储及带宽空间,对芯片来说,除了需要进行相应算子适配以及底层軟體优化外,在 SOC 层面需要对缓存和带宽要求进行增加。
第三,Transformer 需要海量数据,会使得汽车数据采集、训练、标注的成本大幅度上升。
这些一定程度上,也会使得芯片、摄像头、标注等相关产业厂商受益。
总结
通过对 BEV+Transformer 的梳理,我主要有以下两点感受。
第一, 为什么 BEV+Transformer 会成为主流范式,我觉得背后核心还是第一性原理,就是智能驾驶要越来越近 " 人一样去驾驶 ",映射到感知模型本身,BEV 是一种更加自然的表达方式,而 Transformer 实现了 CV 和 NLP 的统一。
第二, 随着工业和学术界的研究推进,近段时间 BEV+Transformer 从普及到走向量产,在当前智能驾驶商业受阻的背景下,或许是一个难得的亮点。但从时间维度上看,BEV+Transformer 已是历史产物,占用网络已经来了,大模型也在路上,或许几个月、最多一两年之后,一个真正的 " 王炸 " 会出现,会让之前的积累全部推倒重来,我们要对每一波的迭代怀有敬畏之心,先从技术开始,之后就是商业模式的大变革。
有关算法迭代、大模型、Mapless、GPT 等是我们近期持续跟进的重点,有兴趣欢迎随时与我沟通交流。
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体 App