今天小编分享的科学经验:给自动驾驶AI搞个“外挂”,0.1M就能显著提升运动状态判别力,来自港大&TCL,欢迎阅读。
只需 "100K 大小的外挂 ",就能让自动驾驶 AI 识别" 物体运动状态 "的能力大幅上升!
这是一项来自香港大学计算机视觉与机器智能实验室(CVMI Lab)和 TCL AI Lab 的新研究,目前论文已被 CVPR 2023 收录。
研究提出了一种叫做MarS3D的轻量级模型,给原本只能识别物体 " 是什么 " 的语义分割模型用上后,就能让它们进一步学会识别这些物体 " 是否在动 "。
而且是任意主流模型即插即用,几乎不需要额外的计算量(推理时间只增加不到 0.03 秒),目前已开源。
要知道,对于靠激光雷达来判断周围环境的自动驾驶系统而言,其感知能力,很大程度上依赖于 3D 点云语义分割模型的准确率和效率。
如果想提升模型识别 " 运动物体 " 的能力,往往需要将繁重的室外多帧点云数据分别进行特征提取和处理,但这种方法不仅要增加大量计算,识别性能也没提升多少,属实是事倍功半。
相比之下,MarS3D 参数量只有约 100K 大小,却能将主流点云分割模型的性能提升近 5%。
这究竟是怎么做到的?
100K 参数让模型学会识别 " 运动 " 物体
首先要了解一下 3D 点云的两种语义分割任务,单扫描(single-scan)和多扫描(multi-scan)。
这两种方法的核心差异,在于能否区分物体的运动状态。
单扫描任务只需要根据单帧点云,把场景中汽车、行人、道路等语义信息分割并标注出来。像下图,不同的颜色代表不同的物体,如蓝色的点云代表车:
多扫描任务,则需要根据时序上的多帧点云,同时分割语义信息和运动状态。
换言之,不仅要学会区分汽车、行人、道路,还得识别这些物体是否在运动。如汽车标签扩展成 " 运动的车 " 和 " 不动的车 ",以及行人扩展成 " 运动的行人 " 和 " 不动的行人 ":
目前,自动驾驶做激光雷达点云数据的处理,主要还是通过单扫描语义分割方法。
虽然能通过扩展标签、融合点云数据,直接将单扫描模型训练成多扫描模型,从而让 AI 掌握识别物体运动状态的能力,但存在两个问题:
一个是性能收效一般;另一个是融合点云数据量大,导致这种模型复杂、计算时间长,而这正是 " 争分夺秒 " 的自动驾驶系统无法接受的。
为了解决这两个问题,让语义分割模型又快又好地掌握识别 " 运动物体 " 的方法,MarS3D 横空出世。
即使之前模型只能做单扫描语义分割,给它加个 MarS3D 后,不仅能大幅提升多扫描语义分割能力,区分物体 " 是否在运动 ",效果还比其他多扫描方法更好。
所以,MarS3D 的核心思路是什么?
具体来说,模型设计了一个基于 2D CNN 网络的分支BEV Branch,这个模型能提取点云数据转换的 BEV(Bird ’ s Eye View)表征,即自上而下的鸟瞰视角。
之所以选用 BEV,主要有两个原因。
一方面,目前的运动物体基本都是在地上跑(即使在空中飞,也几乎不存在垂直上升的情况),也就是说,几乎所有的运动都在水平面上有位移,因此它能很好地反映物体在绝大部分场景中的运动状态;
另一方面,BEV 相比点云数据量更小,还能通过参考帧和特征图相减,降低点云稀疏性带来表征不稳定的问题,即同样静态区網域的表征近似,含有动态物体区網域的表征距离更远。此外,多尺寸卷积对表征抽取特征图,以保证模型对不同运动速度的物体都有很强感知力。
随后,将这个分支提取的运动状态信息特征、和其他被时序嵌入向量增强的单扫描任务模型分支3D Branch提取的语义信息特征结合起来,进行特征融合,最终实现语义分割。
那么,这样实现的 3D 点云语义分割,效果究竟怎么样?
几十毫秒计算,分割性能提升近 5%
相比和其他输入如 RGB 影像进行结合,论文重点测试了模型针对纯点云输入的分割效果。
从下表可见,对于 SemanticKITTI 数据集,在目前主流的单扫描点云分割模型如 SPVCNN、SparseConv 和 MinkUNet 上,MarS3D 在只给模型增加 0.1M 的情况下(参数量增加不到 0.5%),将性能(mIoU)分别提升了 4.96%、5.65% 和 6.24%。
同时,计算时间(延迟)只增加了 19ms、14ms 和 28ms。
5% 对于模型分割性能提升有多显著?下图是在两个扫描场景中,模型增加 MarS3D 前和增加后的效果对比,其中左图是增加前,中间是增加后,右边是真实值:
显然,增加 MarS3D 后模型识别物体的效果要更好。
直接将分割效果和真实值对比,可见增加 MarS3D 后的 " 错误值 ",比增加前要低不少:
整个推理过程,只需要一块英伟达 GeForce RTX 3090 GPU 就能搞定。
对 MarS3D 感兴趣的小伙伴们,可以去试试了 ~
项目地址:
https://github.com/CVMI-Lab/MarS3D
论文地址:
https://arxiv.org/abs/2307.09316