Deep Multi-modal Object Detection and Semantic Segmentation for Autonomous Drivi...

　　由于相机，激光雷达，毫米波雷达等传感器各有优劣，所以深度多模态数据融合在自动驾驶感知中非常重要。本文[1]以目标检测及语义分割为例，详细阐述了深度多模态数据融合的发展及挑战。
　　多模传感器融合的目标检测及语义分割任务，可分解为三大问题：What to Fuse，When to Fuse，How to Fuse。以下就从这三个方面进行分析归纳。

1. What to Fuse

　　自动驾驶中用于全范围感知的有激光雷达，毫米波雷达，相机。RadarNet 中比较详细得介绍了激光雷达与毫米波雷达的优劣，并融合二者作目标检测跟踪；CenterFusion 则融合毫米波雷达与相机二者的优势，作目标检测与速度测量；激光雷达与相机的融合，研究已经较多，这里不作举例。同时融合三个传感器的算法暂时没看到。
　　激光点云的处理方法主要有三种: 1. 将点云物理空间 3D Voxel 化处理；2. 直接在点云连续空间内进行点级别的学习；3. 将点云投影到 2D 空间，如 Bird-View，Apherical-View，Cylinder-View 等，然后作 2D 卷积处理。
　　毫米波雷达数据 x,y,v 可表示为 2D 特征图，然后用 2D 卷积来处理；也可表示为点云的形式，然后用点云的操作来处理。

2. How to Fuse

　　考虑两个不同的传感器数据源 Mi,Mj，对应的第 l 层网络特征 fMil,fMjl，以及操作 Gl(⋅)。融合方式有以下几种：

Addition or Average Mean:
将两个特征图相加或者取平均，fl=Gl−1(fMil−1+fMjl−1)。
Concatenation:
将两个特征图在深度维度进行串联，fl=Gl−1(fMil−1⌢fMjl−1)。
Ensemble:
在目标检测任务中，对 ROI 内的特征进行整合，fl=Gl−1(fMil−1)∪Gl−1(fMjl−1)。
Mixture of Experts:
用 experts 网络预测带融合特征的权重，然后作权重融合，fl=Gl(wMi⋅fMil−1+wMj⋅fMjl−1)，其中 wMi+wMj=1。

3. When to Fuse

　　如图 1 所示，融合的时间点可分为 early，middle，late 三种，本文归纳发现并没有哪一种融合是最优的，这与传感器类型，数据，网络结构等相关。设融合操作为 fl=fMil−1⊕fMjl−1，那么各融合方式可归纳为：

Early Fusion
在传感器原始数据阶段进行数据融合: fL=GL(GL−1(…Gl(…G2(G1(fMi0⊕fMj0))))) 前融合的优势是深度整合传感器数据信息，理论上能挖掘最全的特征信息，以及计算量较小；劣势是模型灵活性较差，以及对多模态数据的空间对齐准确度非常敏感，其空间对齐的精度受传感器之间参数标定，采样频率，传感器缺陷等因素影响。
Late Fusion
在网络输出后进行融合： fL=GMiL(GMiL−1(…GMi1(fMi0)))⊕GMjL(GMjL−1(…GMj1(fMj0))) 后融合是模块化的，所以有很强的灵活性；但是需要较多的计算资源，以及没有在特征层面对数据进行融合，可能丧失一定的信息量。
Middle Fusion
中融合变种非常多，如图 1. 所示，可以是 deep fusion 模式，也可以是 short-cut fusion 模式。网络结构上，还是比较难断定哪种结构是最优的。

　　对于目标检测任务来说，two-stage 方法基本都是在 ROI 内作特征融合，经典的方法如图 2. 所示，这里不做展开。

4. Datasets & Methodology

　　如图 3. 所示，目前基于多传感器融合的感知主要挑战有：

Multi-modal data preparation
公开数据量及数据的多样性还较少，数据中多传感器的标定，标注准确性存疑。
Fusion Methodology
"What to fuse" 中融合的传感器数据还较少，还可以融合超声波雷达，V2X 信息，物理模型，先验模型等；"How to fuse" 中目前都是简单的融合，或者说整合，缺少对信息源不确定性的估计(Uncertainty)，可以采用 BNN 对不确定性进行估计；"When to fuse" 中目前基本凭经验去寻找最优的网络融合结构，缺少理论指导。
Others
评估指标上，还需进一步体现模型的鲁棒性；网络结构上，目前缺少时序融合。

5. Reference

[1] Feng, Di, et al. "Deep multi-modal object detection and semantic segmentation for autonomous driving: Datasets, methods, and challenges." IEEE Transactions on Intelligent Transportation Systems (2020).

1. What to Fuse

2. How to Fuse

3. When to Fuse

4. Datasets & Methodology

5. Reference

Recommend

GitHub - hangzhaomit/semantic-segmentation-pytorch: Pytorch implementation for S...

GitHub - MSiam/TFSegmentation: RTSeg: Real-time Semantic Segmentation Comparativ...

Semantic Image Segmentation with DeepLab in Tensorflow

Research Blog: Semantic Image Segmentation with DeepLab in Tensorflow

GitHub - CSAILVision/semantic-segmentation-pytorch: Pytorch implementation for S...

GitHub - MVIG-SJTU/pointSIFT: a module for 3D semantic segmentation in point clo...

[Reading] Rich feature hierarchies for accurate object detection and semantic se...

Pure CSS Semantic UI Modal

A Review and Comparative Study on Probabilistic Object Detection in Autonomous D...

R-CNN_Rich_feature_hierarchies_for_accurate_object_detection_and_semantic_segmen...

About Joyk