13

自动驾驶领域:一种实时高精度的城市道路场景语义分割方法

 3 years ago
source link: https://mp.weixin.qq.com/s/pwHsABMUZk4jXsisQsuyiQ
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

自动驾驶领域:一种实时高精度的城市道路场景语义分割方法

Original Danny明泽 3D视觉工坊 7/4
收录于话题
#深度学习&自动驾驶

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

Image

Image
论文下载:https://arxiv.org/pdf/2003.08736.pdf简介:近年来,深度卷积神经网络(DCNNs)在语义图像分割方面表现出了优异的性能。然而,由于使用复杂的网络架构,基于DCNN的语义分割方法往往存在计算复杂度高的问题。这极大地限制了在实时处理的真实场景中的应用。本文提出了一种基于实时高性能DCNN的城市街道场景语义分割方法,在准确性和速度之间取得了良好的平衡。首先使用一个具有空洞卷积和注意力机制的轻量级基线网络(LBN-AA)作为基线网络,有效地获取密集的feature map。利用不同规模的池化操作提取丰富而独特的语义信息,开发了空间金字塔池化算法,实现了多尺度的目标检测。同时,设计了具有浅层卷积层的空间细节保护网络(SPN),生成高分辨率的保留空间细节信息的地形图。最后,利用一种简单实用的特征融合网络(FFN),分别对语义分支(DASPP)和空间分支(SPN)的深、浅特征进行了有效的融合。实验结果表明,在具有挑战性的Cityscapes和CamVid测试数据集上(仅使用一张NVIDIA TITAN X卡),该方法在51.0 fps和39.3 fps的推理速度下,分别实现了73.6%和68.0%的mIoU的准确率。实验结果表明,该方法对城市街道场景的语义分割具有较好的实时性。本文主要贡献如下:采用了一个轻量级网络,其改进的MobileNetV2具有Atrous convolution和Attention (LBN-AA),该算法只需较小的内存和少量的参数,可实现快速推理和较好的精度。DASPP利用不同大小的池化操作和每个像素的邻近信息,得到的特征更加丰富。分别采用SPN和FFN来进一步提高算法的精度,同时又不会造成很大的速度损失。SPN能够准确地保留丰富的空间信息,弥补深层空间细节的缺失,而FFN则有效地结合了语义分支(DASPP)和空间分支(SPN)的深、浅特征。相关知识:2D空洞卷积下不同的空洞率:
640?wx_fmt=png
数据城市景观数据集上具有挑战性的多尺度变化的说明:从图片中可以看出,同一类别的物体(如人或车)在尺度上有很大差异。
640?wx_fmt=png
空间金字塔池ASPP:利用多个具有不同速率的并行分支来捕获多尺度的上下文。
640?wx_fmt=png
方法:实时高性能语义分割方法由四个主要部分组成:带孔卷积和注意力机制的轻量级基线网络(LBN-AA)、DASPP、细节保留网络(SPN)和特征融合网络(FFN)。如下图所示。
640?wx_fmt=png
(a)是提出的Atrous Convolution and Attention的轻量级基线网络(LBN-AA)。(b)是独特的空间金字塔池(DASPP)。(c)为空间细节保护网络(SPN)。(d)为特征融合网络(FFN)。可以看到在MobileNetV2采用带孔卷积,特征图尺寸最小为1/8,而不会丢失太多信息。进一步在改进的MobileNetV2中添加了几个卷积注意模块(CAM)来选择信息通道。利用CAM生成的权值来指导网络学习,从而得到加权特征图。这种方法有利于突出重要信息,抑制不相关信息。具体配置参数如图所示:
640?wx_fmt=png
CAM:通道注意力机制640?wx_fmt=pngCAM首先采用全局平均池化和1×1卷积,再采用批处理归一化和LeakyReLU将输出特征的重要性编码为一个向量。注意,输入通道的数量减少了1×1卷积操作,有效地提高了凸轮的效率。然后,全连通层和Sigmoid函数得到关注向量。最后,根据注意向量对特征图的不同通道进行加权。640?wx_fmt=png由于只采样非零值的位置,接受域覆盖了棋盘格模式的区域,导致一些邻近信息丢失(见上中的灰色网格)。因此,LBN-AA可以通过将这些块的特征图连接起来,生成一个稠密的采样图,其中不同块的相邻信息可以进行互补。独特的空间金字塔池DASPP:在并行的带孔卷积分支中,分别采用池大小为3×3、5×5和7×7。三个支路的3×3 带孔卷积运算对应的atrous率分别为12、24和36。将ASPP中原始的1×1卷积分支改为1×1卷积和3×3卷积运算,有效地提高了特征提取的能力。仍然采用图像级池化层来捕获全局上下文信息。如下图所示:
640?wx_fmt=png
空间细节保护网络(SPN)使用一个精简版的ResNet-18前两层为SPN(详见下表)。将LBN-AA中的layer1和block2的输出连接起来作为SPN的最终输出。SPN最终输出的feature map是原始输入图像大小的1/4,包含88个通道。虽然SPN得到的feature map分辨率较大,但计算代价较小(因为压缩版ResNet-18只使用了浅卷积层)。
640?wx_fmt=png
特征融合网络(FFN)首先将两个分支的特征图沿通道连接起来。然后应用BN操作缩短特征距离,平衡特征尺度。两个特征图相同位置的像素不一定相似,它们可能与该位置上相邻的像素相似。采用size为3×3,arous rate d = 2的带孔卷积来融合特征。该操作能够有效地结合目标像素周围相邻像素的特征信息,而不是仅仅依赖于一个位置。然后用大小为1×1的投影卷积将输出通道的数量减少到语义类别的数量(216个减少到19个-标签的类别个数)。在带孔卷积和投影卷积之间也使用了BN层。最后,利用简单而高效的双线性插值,直接将融合结果上采样到原始输入图像的大小。双线性插值只需要很少的参数,可以达到与转置卷积相似的精度。在Cityscapes数据及上获取的结果如下图:
640?wx_fmt=png
与其他先进网络的结果对比:
640?wx_fmt=png
对于每个类的分类正确性比较:
640?wx_fmt=png
在CmaVid数据集上的比较结果:
640?wx_fmt=png
总结:在本文中,提出了一种新的实时高性能语义分割方法,以实现在准确性和速度之间的平衡。该方法由四个主要部分组成:LBN-AA、DASPP、SPN和FFN。LBN-AA利用轻量化网络、卷积、卷积关注模块提取特征,得到密集的特征图。DASPP增加了输入特征的多样性,利用丰富的上下文信息有效地解决了语义分割的多尺度问题。SPN的设计是为了保留丰富的空间信息,弥补细节的缺失。FFN负责融合高级和低级特性。这些组件通过紧密耦合和联合优化来保证语义分割的有效性。在城市景观和CamVid数据集上的定性和定量结果证明了该方法的有效性和效率。该方法中的一些模块不仅可以用于实时语义分割,而且可以用于精确的语义分割。本文仅做学术分享,如有侵权,请联系删文。推荐阅读:

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

640?wx_fmt=jpeg▲长按加微信群或投稿

640?wx_fmt=jpeg

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近1000+星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款640?wx_fmt=jpeg 圈里有高质量教程资料、可答疑解惑、助你高效解决问题


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK