

自动驾驶中多模态三维目标检测研究综述
source link: https://mp.weixin.qq.com/s/5e_nA3n0TJFHG8TCcOkqjw
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

自动驾驶中多模态三维目标检测研究综述
1. 引言
- 自动驾驶感知模块
- 首先,它需要是准确的,并给出了驾驶环境的准确描述。
- 其次,具有鲁棒性。能在恶劣天气下、甚至当一些传感器退化甚至失效时保证AV的稳定与安全。
- 第三,实时性,能提供快速的反馈。
- 3D目标检测
- 多模态目标检测
- 多传感器校准和数据对齐:由于多模态数据的异质性(如表1所示),无论是在原始输入空间还是在特征空间,都很难对它们进行精确对齐。
- 信息丢失:我们以计算为代价,将传感器数据转换为一种可以对齐的处理格式,信息丢失是不可避免的。
- 跨模态数据增强:数据增强在3D目标检测中起着至关重要的作用,可以防止模型过拟合。全局旋转和随机翻转等增强策略在单模态融合方法中得到了广泛的应用,但由于多传感器一致性的问题,许多多传感器融合方法都缺少这种增强策略。
- 数据集与评价指标:高质量、可公开使用的多模态数据集数量有限。即使是现有的数据集也存在规模小、类别不平衡、标记错误等问题。此外,目前还没有针对多传感器融合模型的评价指标,这给多传感器融合方法之间的比较带来了困难。
- 本文贡献
- 根据输入传感器数据的不同组合,对基于多模态的3D目标检测方法进行分类。特别是range image(点云的一种信息完整形式)、pseudo-LiDARs (由相机图像生成),在过去的综述文章中没有进行讨论。
- 从多个角度仔细研究了基于多模态的3D目标检测方法的发展。重点关注这些方法如何实现跨模态数据对齐,如何减少信息损失等关键问题。
- 对基于深度学习的相机-LiDAR融合的方法进行详细对比总结。同时,我们还介绍了近年来可用于3D目标检测的多模态数据集。
- 仔细探讨具有挑战性的问题,以及可能的解决方案,希望能够启发一些未来的研究。
2. 背景
在本节中,我们将提供自动驾驶中使用的典型传感器的背景概述,包括基于于每种传感器的数据表示和3D目标检测方法。其中,我们主要讨论相机和激光雷达传感器。最后,介绍了其他的一些传感器。- 基于相机的3D目标检测
- 基于LiDAR的3D目标检测
- 基于其他传感器的3D目标检测
3. 数据集与评价指标
数据集是有效进行深度学习研究的关键。特别是,像3D目标检测这样的任务需要精细标记的数据。在这一部分,我们讨论了一些广泛使用的自动驾驶3D目标检测数据集。并且进行了详细地比较,包括年份,激光雷达数量,激光雷达通道数量、摄像头的数量,是否带有雷达,2D盒子的数量(不区分2D盒子和2D实例分割注释),3D盒子的数量,标注的类的数量,以及位置。具体如表2所展示。4. 基于深度学习的多模态3D检测网络
在本节中,我们介绍了基于多模态融合的3D检测网络。我们通过考虑以下三个融合策略中的重要因素来组织我们的文章:(1)融合位置,即多模态融合在整个网络结构中发生的位置;(2)融合输入,即每个传感器使用什么数据表示进行融合;(3)融合粒度,即多个传感器的数据在什么粒度进行融合检测。其中,融合位置是区分融合方法的最重要因素。一般来说,我们有两种可能的融合位置,如图9所示:特征融合和决策融合。特征融合是将不同模态的特征组合起来得到检测结果,而决策融合则是将每个单独的检测结果组合起来。下面,我们首先回顾了特征融合方法,然后讨论了决策融合方法。注意,由于融合方法的设计与数据集的选择是正交的,因此我们将一起讨论KITTI、Waymo和nuScenes数据集的融合方法。其中,大多数多模态三维检测方法都是在KITTI上进行评价的。从表3的评价总结中,可以清楚地看出该方法适用于哪些数据集。- 特征融合
- Point cloud view & image feature map
- point cloud voxels & image feature map
- LiDAR points & image feature map
- LiDAR points & image mask:
- point cloud voxels & image mask
- point cloud voxels & point cloud view & image feature map
- point cloud voxels & image feature map & image pseudo-LiDAR
- 决策融合
- 相机-LiDAR融合方法总结
- 其他传感器融合方式
5. 开放式挑战与可能的解决方案
在本节中,我们将讨论多模态3D目标检测的开放式挑战和可能的解决方案。我们重点讨论了如何提高多传感器感知系统的准确性和鲁棒性,并同时实现系统的实时性。表6总结了我们的讨论。包括以下几个关键问题。- 多传感器联合标定
- 跨模态数据增强
- 数据集与评价指标
6. 总结
由于3D视觉在自动驾驶等应用中的重要性日益增加,本文综述了近年来的多模态3D目标检测网络,特别是相机图像和激光雷达点云的融合。我们首先仔细比较了常用的传感器,讨论了它们的优缺点,总结了单模态方法的常见问题。然后,我们提供了几个常用的自动驾驶数据集的深入总结。为了给出一个系统的回顾,我们考虑以下三个维度对多模态融合方法进行分类:(1)融合在管道中发生的位置;(2)每个融合输入使用什么数据表示;(3)融合算法的粒度是什么。最后,我们讨论了在多模态3D目标检测中的开放式挑战和潜在的解决方案。文章链接:https://arxiv.org/abs/2106.12735备注:作者也是我们「3D视觉从入门到精通」特邀嘉宾:一个超干货的3D视觉学习社区原创征稿
初衷3D视觉工坊是基于优质原创文章的自媒体平台,创始人和合伙人致力于发布3D视觉领域最干货的文章,然而少数人的力量毕竟有限,知识盲区和领域漏洞依然存在。为了能够更好地展示领域知识,现向全体粉丝以及阅读者征稿,如果您的文章是3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、硬件选型、求职分享等方向,欢迎砸稿过来~文章内容可以为paper reading、资源总结、项目实战总结等形式,公众号将会对每一个投稿者提供相应的稿费,我们支持知识有价!投稿方式
邮箱:[email protected] 或者加下方的小助理微信,另请注明原创投稿。
▲长按关注公众号
Recommend
-
51
视口合辑 - 在同屏中多开 Web 视口页面的浏览器扩展. 同一时间内享受更多的 Web (视频) - NEXT
-
36
-
30
多租户(Multi-Tenancy)是SaaS中一个基础功能,本文介绍多租户下的数据库设计。 数据库中的层次结构 一般的关系型数据库中分三个层级: database.schema.table : database
-
19
点击上方“3D视觉工坊”,选择“星标”干货第一时间送达本文转载自「计算机视觉工坊」,该公...
-
13
点击上方“3D视觉工坊”,选择“星标”干货第一时间送达本文转载自「计算机视觉工坊」,该公...
-
6
使用 YOLO V5 训练自动驾驶目标检测网络精选 技术讨论 hello_uncle · 发表于 2021-11-09 14:27:37 文章来源: 人脸识别 作者丨William 来源丨自动驾驶全栈工程师知乎专栏:
-
10
工业应用中基于三维模型的6D目标检测综述3D视觉工坊专注SLAM、点云、三维重建...
-
11
自动驾驶/三维重建/SLAM/点云/相机标定/深度估计/3D检测课程推荐3D视觉工坊专...
-
7
ICRA 2022 | 基于多模态变分自编码器的任意时刻三维物体重建3D视觉工坊专注SLA...
-
5
AmodalSynthDrive:一个用于自动驾驶的合成非模态感知数据集 作者:自动驾驶专栏 2023-10-11 10:22:55 本文介绍了AmodalSynthDrive:一个用于自动驾驶的合成非模态感知数据集。与人类不同,即使在部分遮挡的情况下...
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK