自动驾驶不怵恶劣天气，西电&上海AI Lab多模态融合检测端到端算法来了 - 大酷樂

今天小编分享的科学经验：自动驾驶不怵恶劣天气，西电&上海AI Lab多模态融合检测端到端算法来了，欢迎阅读。

恶劣天气下，自动驾驶汽车也能准确识别周围物体了？！

西安电子科大、上海 AI Lab 等提出多模态融合检测算法 E2E-MFD，将影像融合和目标检测整合到一个单阶段、端到端框架中，简化训练的同时，提升目标解析性能。

相关论文已入选顶会 NeurlPS 2024 Oral，代码、模型均已开源。

其中影像融合是指，把不同来源（比如可见光和红外相机）的影像合并成一张，这样就能在一张影像中同时看到不同相机捕捉到的信息；目标检测即找出并识别影像中的物体。

端到端意味着，E2E-MFD 算法可以一次性处理这两个任务，简化训练过程。

而且，通过一种特殊的梯度矩阵任务对齐（GMTA）技术，这两个任务还能互帮互助，互相优化。

最终实验结果显示，E2E-MFD 在信息传递、影像质量、训练时间和目标检测方面均优于现有方法。

E2E-MFD：多模态融合检测端到端算法

众所周知，精确可靠的目标解析在自动驾驶和遥感监测等领網域至关重要。

仅依赖可见光传感器可能会导致在恶劣天气等复杂环境中的目标识别不准确。

可见光 - 红外影像融合作为一种典型的多模态融合（MF）任务，通过利用不同模态的信息互补来解决这些挑战，从而促进了多种多模态影像融合技术的快速发展。

诸如CDDFuse 和 DIDFuse 方法采用两步流程：

首先训练多模态融合网络（MF），然后再训练目标检测（OD）网络，用来分别评估融合效果。

尽管深度神经网络在学习跨模态表征能力上取得了显著进展，并带来了多模态融合的良好结果，但大多数研究主要集中在生成视觉上吸引人的影像，而往往忽略了改进下游高级视觉任务的能力，如增强的目标解析。

最近的研究开始设计联合学习方法，将融合网络与目标检测和影像分割等高级任务结合在一起。

其中，多模态融合检测（MFD）方法中 MF 与 OD 的协同已成为一个活跃的研究领網域。

这种协同作用使得 MF 能够生成更丰富、更有信息量的影像，从而提升 OD 的性能，而 OD 则为 MF 提供了有价值的目标语义信息，从而准确地定位和识别场景中的物体。

通常，MFD 网络采用一种级联设计，其中联合优化技术使用 OD 网络来引导 MF 网络创建便于目标检测的影像。

但是依旧存在以下问题：

1）当前的优化方法依赖于多步骤、渐进的联合方法，影响训练效率；

2）这些方法过于依赖目标检测（OD）信息来增强融合，导致参数平衡困难并易于陷入单个任务的局部最优解。

因此，寻求一个统一的特征集，同时满足每个任务的需求，仍然是一项艰巨的任务。

为此，研究提出了一种名为 E2E-MFD 的端到端多模态融合检测算法。

（1）这是一种高效同步联合学习的方法，将影像融合和目标检测创新性地整合到一个单阶段、端到端的框架中，这种方法显著提升了这两项任务的成果。

（2）引入了一种新的 GMTA 技术，用于评估和量化影像融合与目标检测任务的影响，帮助优化训练过程的稳定性，并确保收敛到最佳的融合检测权重配置。

（3）通过对影像融合和目标检测的全面实验验证，展示了所提出方法的有效性和稳健性。在水平目标检测数据集 M3FD 和有向目标检测数据集 DroneVehicle 上与最先进的融合检测算法相比，E2E-MFD 表现出强大的竞争力。

其整体架构如下：

展开来说，E2E-MFD 通过同步联合优化，促进来自两个领網域的内在特征的互動，从而实现简化的单阶段处理。

为了协调细粒度的细节与语义信息，又提出了一种全新的对象 - 区網域 - 像素系统发育树（ORPPT）概念，并结合粗到细扩散处理（CFDP）机制。

该方法受视觉感知自然过程的启发，专为满足多模态融合（MF）和目标检测（OD）的具体需求而设计。

此外，研究引入了梯度矩阵任务对齐（GMTA）技术，以微调共享组件的优化，减少传统优化过程中固有的挑战。

这确保了融合检测权重的最优收敛，增强了多模态融合检测任务的准确性和有效性。

实验实验细节

E2E-MFD 在多个常用数据集（TNO、RoadScene、M3FD 和 DroneVehicle）上进行了实验，实验运行在一张 GeForce RTX 3090 GPU 上。

模型基于 PyTorch 框架实现，部分代码在 M3FD 数据集上使用了 Detectron2 框架，并通过预训练的 DiffusionDet 初始化目标检测网络。

优化器采用 AdamW，批量大小为 1，学习率设为 2.5 × 10 ⁻⁵，权重衰减为 1e-4。

模型共训练了 15,000 次迭代。

在 DroneVehicle 数据集上，实验基于 MMRotate 0.3.4 框架，使用预训练的 LSKNet 模型进行初始化，并通过 12 个 epoch 的微调进行优化，批量大小为 4。

实验结果

研究提供了不同融合方法在 TNO、RoadScene 和 M3FD 数据集上的定量结果。

模型的训练（Tr.）和测试（Te.）时间均在 NVIDIA GeForce RTX 3090 上统计。

可以看出，E2E-MFD 在MI 指标上普遍获得了最佳度量值，表明其在信息传递方面比其他方法从两个源影像中提取了更多有用的信息。

EN 值进一步显示，E2E-MFD 能够生成包含清晰边缘细节且对象与背景对比度最高的影像。

较高的VIF 值则表明，E2E-MFD 的融合结果不仅具有高质量的视觉效果，同时在失真度方面较低。

此外，该方法的训练时间最快，表明在新的数据集上能够实现更快速的迭代更新。

生成融合影像的测试时间在所有方法中排名第三。

定性结果如下图所示，所有融合方法均在一定程度上融合了红外和可见光影像的主要特征，但 E2E-MFD具备两个显著优势。

首先，它能够有效突出红外影像的显著特征，例如在 M3FD 数据集中，E2E-MFD 捕捉到了骑摩托车的人员。

与其他方法相比，E2E-MFD 展示了更高的物体对比度和识别能力。

其次，它保留了可见影像中的丰富细节，包括颜色和纹理。

在 M3FD 数据集中，E2E-MFD 的优势尤为明显，比如能够清晰显示白色汽车的后部以及骑摩托车的人。

E2E-MFD 在保留大量细节的同时，保持了影像的高分辨率，并且没有引入模糊现象。而其他方法则未能同时实现这些优势。

为了更有效地评估融合影像对下游检测任务的影响，研究在 M3FD 数据集上使用了YOLOv5s 检测器对所有 SOTA 方法进行了测试，结果如表所示。

与单模态检测相比，SOTA 方法在融合影像上的表现明显提升，表明良好融合的影像能够有效地支持下游检测任务。

E2E-MFD 生成的融合影像在 YOLOv5s 检测器上表现最佳，同时在 DiffusionDet 检测器上也取得了出色的成绩。

即使与端到端目标检测方法（E2E-OD）相比，E2E-MFD 的方法仍显示出了显著的性能提升，充分证明了其训练范式和方法的有效性。

检测结果的可视化如下图所示。

当仅使用单模态影像作为输入时，检测结果较差，常常漏检诸如摩托车和骑手等目标，尤其是在影像右侧靠近汽车和行人的区網域。

几乎所有的融合方法都通过融合两种模态的信息，减少了漏检现象并提升了检测的置信度。

通过设计端到端的融合检测同步优化策略，E2E-MFD 生成了在视觉上和检测上都非常友好的融合影像，尤其在处理遮挡和重叠的目标时表现出色，比如影像右侧蓝色椭圆中的摩托车和重叠的行人。

在DroneVehicle 数据集上的目标检测定量结果多模态如表所示，E2E-MFD 达到了最高的精度。

此外，使用生成的融合影像在 YOLOv5s-OBB 和 LSKNet 上进行检测时，较单一模态至少提高了5.7% 和 3.1% 的 AP 值，验证了方法的鲁棒性。

这证明了融合影像的优异质量，表明它们不仅在视觉上令人满意，还为检测任务提供了丰富的信息。

小结

研究提出了多模态融合检测算法E2E-MFD，仅以单步训练过程同时完成融合和检测任务。

引入了一个系统发育树结构和粗到细扩散处理机制，来模拟在不同任务需求下，不同视觉感知中需要完成的这两项任务。

此外，研究对融合检测联合优化系统中的任务梯度进行了对齐，消除联合优化过程中两个任务的梯度优化冲突。

通过将模型展开到一个设计良好的融合网络和检测网络，可以以高效的方式生成融合与目标检测的视觉友好结果，而无需繁琐的训练步骤和固有的优化障碍。

更多细节欢迎查阅原论文。

论文链接（非最终版本）：

https://arxiv.org/abs/2403.09323

代码链接：

https://github.com/icey-zhang/E2E-MFD

作者主页：

https://icey-zhang.github.io/

https://yangxue0827.github.io/

— 完 —

投稿请发邮件到：

[email protected]

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文 / 项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点这里关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

>