

Deep Multi-modal Object Detection and Semantic Segmentation for Autonomous Drivi...
source link: https://leijiezhang001.github.io/Deep-Multi-modal-Object-Detection-and-Semantic-Segmentation/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

由于相机,激光雷达,毫米波雷达等传感器各有优劣,所以深度多模态数据融合在自动驾驶感知中非常重要。本文[1]以目标检测及语义分割为例,详细阐述了深度多模态数据融合的发展及挑战。
多模传感器融合的目标检测及语义分割任务,可分解为三大问题:What to Fuse,When to Fuse,How to Fuse。以下就从这三个方面进行分析归纳。
1. What to Fuse
自动驾驶中用于全范围感知的有激光雷达,毫米波雷达,相机。RadarNet 中比较详细得介绍了激光雷达与毫米波雷达的优劣,并融合二者作目标检测跟踪;CenterFusion 则融合毫米波雷达与相机二者的优势,作目标检测与速度测量;激光雷达与相机的融合,研究已经较多,这里不作举例。同时融合三个传感器的算法暂时没看到。
激光点云的处理方法主要有三种: 1. 将点云物理空间 3D Voxel 化处理;2. 直接在点云连续空间内进行点级别的学习;3. 将点云投影到 2D 空间,如 Bird-View,Apherical-View,Cylinder-View 等,然后作 2D 卷积处理。
毫米波雷达数据 x,y,v 可表示为 2D 特征图,然后用 2D 卷积来处理;也可表示为点云的形式,然后用点云的操作来处理。
2. How to Fuse
考虑两个不同的传感器数据源 Mi,Mj,对应的第 l 层网络特征 fMil,fMjl,以及操作 Gl(⋅)。融合方式有以下几种:
- Addition or Average Mean:
将两个特征图相加或者取平均,fl=Gl−1(fMil−1+fMjl−1)。 - Concatenation:
将两个特征图在深度维度进行串联,fl=Gl−1(fMil−1⌢fMjl−1)。 - Ensemble:
在目标检测任务中,对 ROI 内的特征进行整合,fl=Gl−1(fMil−1)∪Gl−1(fMjl−1)。 - Mixture of Experts:
用 experts 网络预测带融合特征的权重,然后作权重融合,fl=Gl(wMi⋅fMil−1+wMj⋅fMjl−1),其中 wMi+wMj=1。
3. When to Fuse
如图 1 所示,融合的时间点可分为 early,middle,late 三种,本文归纳发现并没有哪一种融合是最优的,这与传感器类型,数据,网络结构等相关。设融合操作为 fl=fMil−1⊕fMjl−1,那么各融合方式可归纳为:
Early Fusion
在传感器原始数据阶段进行数据融合: fL=GL(GL−1(…Gl(…G2(G1(fMi0⊕fMj0))))) 前融合的优势是深度整合传感器数据信息,理论上能挖掘最全的特征信息,以及计算量较小;劣势是模型灵活性较差,以及对多模态数据的空间对齐准确度非常敏感,其空间对齐的精度受传感器之间参数标定,采样频率,传感器缺陷等因素影响。Late Fusion
在网络输出后进行融合: fL=GMiL(GMiL−1(…GMi1(fMi0)))⊕GMjL(GMjL−1(…GMj1(fMj0))) 后融合是模块化的,所以有很强的灵活性;但是需要较多的计算资源,以及没有在特征层面对数据进行融合,可能丧失一定的信息量。Middle Fusion
中融合变种非常多,如图 1. 所示,可以是 deep fusion 模式,也可以是 short-cut fusion 模式。网络结构上,还是比较难断定哪种结构是最优的。
对于目标检测任务来说,two-stage 方法基本都是在 ROI 内作特征融合,经典的方法如图 2. 所示,这里不做展开。
4. Datasets & Methodology
如图 3. 所示,目前基于多传感器融合的感知主要挑战有:
Multi-modal data preparation
公开数据量及数据的多样性还较少,数据中多传感器的标定,标注准确性存疑。Fusion Methodology
"What to fuse" 中融合的传感器数据还较少,还可以融合超声波雷达,V2X 信息,物理模型,先验模型等;"How to fuse" 中目前都是简单的融合,或者说整合,缺少对信息源不确定性的估计(Uncertainty),可以采用 BNN 对不确定性进行估计;"When to fuse" 中目前基本凭经验去寻找最优的网络融合结构,缺少理论指导。Others
评估指标上,还需进一步体现模型的鲁棒性;网络结构上,目前缺少时序融合。
5. Reference
[1] Feng, Di, et al. "Deep multi-modal object detection and semantic segmentation for autonomous driving: Datasets, methods, and challenges." IEEE Transactions on Intelligent Transportation Systems (2020).
Recommend
-
177
Semantic Segmentation on MIT ADE20K dataset in PyTorch This is a PyTorch implementation of semantic segmentation models on MIT ADE20K scene parsing dataset (http://sceneparsing....
-
150
README.md Real-time Semantic Segmentation Comparative Study By: Mennatullah Siam, Mostafa Gamal,
-
137
除非特别声明,此文章内容采用知识共享署名 3.0许可,代码示例采用Apache 2.0许可。更多细节请查看我们的服务条款。
-
101
Posted by Liang-Chieh Chen and Yukun Zhu, Software Engineers, Google Research Semantic image segmentation, the task of assigning a semanti...
-
89
README.md Semantic Segmentation on MIT ADE20K dataset in PyTorch This is a PyTorch implementation of semantic segmentation models on MIT ADE20K scene parsing dataset. ADE20K is the large...
-
138
README.md PointSIFT: A SIFT-like Network Module for 3D Point Cloud Semantic Segmentation Created by Mingyang Jiang, Yiran Wu, Cewu Lu (corresponding autho...
-
9
[Reading] Rich feature hierarchies for accurate object detection and semantic segmentation Author: nex3z 2021-04-08
-
5
Pure CSS Semantic UI Modal January 31, 2018 CSS only toggle
-
8
概率目标检测是将不确定估计应用于目标检测任务中,不确定性估计之前已经描述很多了,包括 Epistemic Uncertainty,Aleatoric Uncertainty,以及 Uncertainty Calibration 相关技术。本文
-
10
Rich feature hierarchies for accurate object detection and semantic segmentationRoss Girshick Jeff Donahue Trevor Darrell Jitendra Malik UC Berkeley rbg,jdonahue,trevor,
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK