7

ESPNet: 自动驾驶领域轻量级分割模型

 3 years ago
source link: https://mp.weixin.qq.com/s/C4djvrSFjoMU_0ACKS8quQ
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

原文:ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation

论文链接:https://arxiv.org/abs/1803.06815v2

主要思想

基于传统卷积模块设计,提出一种高效空间金字塔卷积模块(ESP Module),有助于减小模型运算量和内存、功率消耗,以提高在终端设备上的适用性。这款模型和MobileNet系列、ShuffNet系列相似,都是轻量级模型,可以部署到移动端。

模型具体结构

如下图所示,模型主要有两个模块构成,一个是Efficient spatial pyramid模块,一个是HFF模块。

640
 

Efficient spatial pyramid

这个部分由两个子部分构成,前面部分是逐点卷积,就是采用K个1x1xM的小卷积核对原图进行卷积操作,1x1卷积的作用其实就是为了降低维度,这样就可以减少参数,这也是轻量级模型的思路。后面的部分是空洞卷积,即在没有进行下采样(pooling)的操作下,扩大感受野。使用不同膨胀率的卷积核,可以得到不同感受野下的feature,这一点有点类似金字塔池化,所以这个模块也叫ESP。

参数计算

下面来计算下一共包含的参数,其实在效果上,以这种轻量级的网络作为backbone效果肯定不如那些重量级的,比如Resnet,但是在运行速度上有很大优势。

如上图所示,对Efficient spatial pyramid第一部分来说,d个1*1*M的卷积核,将M维的输入feature map降至d维。此时参数为:M*N/K,第二部分参数量为K*n2*(N/K)2,和标准卷积结构相比,参数数量降低很多。

HFF模块

640
 

如上图所示,因为使用了大感受野的膨胀卷积,导致了gridding artifacts现象,如下图所示。本文提出了使用HFF方法来解决该问题,具体做法就是从最小的膨胀卷积核输出的那张feature map开始,逐级叠加。这样的做法并没有引入任何新的参数,同时计算量上也没有增加太多,但却有效地改善了网格效应。

640
 

这里其实就是对空洞卷积的结果进行逐层点加向下传递,然后在通道方向上进行concat,concat之后,再对之前的特征做一个点加,这一点采用了残差的思想。

和其它模型的对比

这里,文章对其它模型和该模型做了一个对比,包括参数的数量以及核心网络结构,如下图所示。在这里,不再一一阐述。

640
 

ESPNet模型

作者提出了四种模型,分别如下图所示。

640
 

下面是以不同网络模型作为backbone的语义分割网络在VOC数据上的表现效果。

640
 

可以发现,ESPNet在较少的参数下,依然取得了很好的效果。

源代码

作者开源了基于ESPNet的语义分割网络源代码,支持测试和训练。下面为kitti数据集上的测试效果。

源代码链接:

https://github.com/sacmehta/ESPNet

640?wx_fmt=png
640

上述内容,如有侵犯版权,请联系作者,会自行删文。

交流群

欢迎加入我们公众号读者群一起和同行交流,目前有3D视觉深度学习激光SLAM、VSLAM、三维重建、点云后处理、图像处理、手眼标定、自动驾驶、位姿估计等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。

640?wx_fmt=jpeg

知识星球

学习3D视觉核心技术,扫描查看详情,3天内无条件退款

640

圈里有高质量教程资料、可答疑解惑、助你高效解决问题


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK