

CVPR 2020 | 基于深度引导卷积的单目3D目标检测
source link: https://mp.weixin.qq.com/s/oL0VQo3pRFBY2nQ0kJdL3w
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

CVPR 2020 | 基于深度引导卷积的单目3D目标检测
论文、代码地址:在公众号「计算机视觉工坊」,后台回复「D4LCN」,即可直接下载。
参考paddle复现:3D目标检测(单目)D4LCN论文复现(https://aistudio.baidu.com/aistudio/projectoverview/public)Abstract
单目3D目标检测最大的挑战在于无法得到精确的深度信息,传统的二维卷积算法不适合这项任务,因为它不能捕获局部目标及其尺度信息,而这对三维目标检测至关重要.为了更好地表示三维结构,现有技术通常将二维图像估计的深度图转换为伪激光雷达表示,然后应用现有3D点云的物体检测算法.因此他们的结果在很大程度上取决于估计深度图的精度,从而导致性能不佳.在本文中,作者通过提出一种新的称为深度引导的局部卷积网络(LCN),更改了二维全卷积 (D4LCN),其中的filter及其感受野可以从基于图像的深度图中自动学习,使不同图像的不同像素具有不同的filter.克服了传统二维卷积的局限性,缩小了图像表示与三维点云表示的差距.D4LCN对于最先进的KITTI的相对改进是9.1%,单目3D检测的SOTA方法.Introduction
3D目标检测有许多应用,如自动驾驶和机器人技术.LiDAR设备可以获得三维点云,从而获得精确的深度信息.但是,LiDAR高成本和稀疏输出的特点让人们希望寻找到更便宜的替代品,这些替代品的其中之一维单目相机.虽然单目相机引起了人们的广泛关注,但在很大程度上不能够解决3D目标检测问题.实现上述目标的方法通常是分为基于2图像的方法和基于伪激光雷达点的方法两种.基于图像的方法通常利用几何体约束,包括对象形状、地平面和关键点.这些约束条件在损失函数中用不同的项表示,以提高检测结果.基于伪激光雷达的图像深度变换方法是通过模拟激光雷达信号的点云表示.如图1所示,这两种方法各有缺点,都导致了性能不理想.- 基于图像的方法通常无法获取有意义的局部对象尺度和结构信息,这主要是由于以下两个因素,远近距离的单眼视觉会引起物体尺度的显著变化.传统的二维卷积核很难同时处理不同尺度的对象(见图2).二维卷积的局部邻域定义在摄像机平面上,其中深度维数丢失.在这个非度量空间(e像素之间的距离没有一个明确的物理意义),过滤器无法区分对象和背景.在这种情况下,汽车区域和背景区域将被同等对待.
- 虽然基于伪激光雷达点的方法已经取得了一些进展,但它们仍然存在两个关键问题,这些方法的性能在很大程度上依赖于估计深度图的精度(见图1).从单目图像中提取的深度图通常是粗糙的(使用它们估计的点云具有错误的坐标),导致不准确的三维预测.换句话说,深度图的精度限制了三维目标检测的性能.伪激光雷达方法不能有效地利用从RGB图像中提取的高层语义信息,导致大量的虚警,这是因为点云提供了空间信息,却丢失了语义信息.
- 为了解决上述问题,我们提出了一种新的卷积网络D4LCN,其中卷积核由深度映射生成,并局部应用于单个图像样本的每个像素和通道,而不是学习全局内核来应用于所有图像.如图2所示,D4LCN以深度图为指导,从RGB图像中学习局部动态深度扩展核,以填补二维和三维表示之间的空白,其中每个核都有自己的扩张率.
网络结构
我们的框架由三个关键组件组成:网络主干、深度引导滤波模块和2D-3D head损失函数
比较结果
我们在kitti数据集的官方测试集和两组验证集上进行了实验.表一包括排名前14位的方法,其中我们的方法排名第一.可以观察到:(1)我们的方法比第二个最好的竞争对手三维汽车检测的提高9.1%(2)大多数竞争对手在COCO/KITTI上预先训练的检测器(例如更快的rcnn)或采用多阶段训练来获得更好的2D检测和稳定的3D结果.而我们的模型是使用标准的ImageNet预训练模型进行端到端训练的.然而,我们仍然取得了最优异的三维检测结果,验证了我们的D4LCN学习三维结构的有效性.总结
本文提出了一种用于单眼三维目标检测D4LCN,其卷积核和感受野(扩张率)对于不同图像的不同像素和通道是不同的.这些核是在深度映射的基础上动态生成的,以弥补二维卷积的局限性,缩小二维卷积与基于点云的三维算子之间的差距.结果表明,该算法不仅能解决二维卷积的尺度敏感和无意义的局部结构问题,而且能充分利用RGB图像的高级语义信息.而且D4LCN能更好地捕获KITTI数据集上的三维信息,并能在KITTI数据集上进行单目三维目标检测.备注:作者也是我们「3D视觉从入门到精通」特邀嘉宾:一个超干货的3D视觉学习社区原创征稿
初衷3D视觉工坊是基于优质原创文章的自媒体平台,创始人和合伙人致力于发布3D视觉领域最干货的文章,然而少数人的力量毕竟有限,知识盲区和领域漏洞依然存在。为了能够更好地展示领域知识,现向全体粉丝以及阅读者征稿,如果您的文章是3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、硬件选型、求职分享等方向,欢迎砸稿过来~文章内容可以为paper reading、资源总结、项目实战总结等形式,公众号将会对每一个投稿者提供相应的稿费,我们支持知识有价!投稿方式
邮箱:[email protected] 或者加下方的小助理微信,另请注明原创投稿。
▲长按关注公众号
Recommend
-
16
点击上方“3D视觉工坊”,选择“星标”干货第一时间送达3D视觉工坊的第69篇文章 论文的主要思想如图1所示,网络的输入只需左相机图像,在训练阶段通过左右相机图像作为监督。注意,这里的无监督学习指的是,不需要...
-
17
点击上方“3D视觉工坊”,选择“星标”干货第一时间送达主要思想与创新点大多数最先进的三维目标检测器严重依赖激光雷达传感器。由于在三维场景中的预测不准确,基于图像的方法与基于激光雷达的方法在性能上仍有很大差距。本...
-
10
深度学习-卷积神经网络-目标检测之YOLOV3模型-代码运行图片检测实践2_firemonkeycs的专栏-CSDN博客 深度学习-卷积神经网...
-
11
MO-LTR:基于单目RGB视频的多目标定位、跟踪与重建 ...
-
15
基于深度学习的单目人体姿态估计方法综述(一) ...
-
5
CVPR2021|基于分类深度分布网络的单目3D物体检测 ...
-
13
从FFmpeg的代码提交记录
-
8
最新综述:基于深度学习方式的单目物体姿态估计与跟踪 Original...
-
8
【置顶】基于深度学习的目标检测 置顶 | ...
-
8
一,理论基础-相机与图像 相机将三维世界中的坐标点(单位为米)映射到二维图像平面(单位为像素)的过程能够用一个几何模型进行描述,这个模型有很多种,其中最简单的称为针孔相机模型。相机的成像过程是也一个射影变换(透视...
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK