9

MSFNet:多重空间融合网络进行实时语义分割(北航和旷视联合提出)

 3 years ago
source link: https://mp.weixin.qq.com/s/AgvJC7Oge733DEMWRu_kXQ
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

MSFNet:多重空间融合网络进行实时语义分割(北航和旷视联合提出)

Original Tom Hardy 3D视觉工坊 2/1
收录于话题
#深度学习&自动驾驶

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

原文链接:https://arxiv.org/abs/1911.07217

实时语义分割是一项具有挑战性的任务,因为需要同时考虑效率和性能,其在自动驾驶、机器人等工业应用中发挥着重要的作用。针对这一复杂的任务,论文提出了一种高效的卷积网络结构:多重空间融合网络(MSFNet)来完成快速和准确的感知。MSFNet在多特征融合模块的基础上,利用类边界监督来处理相关的边界信息,从而获得空间信息,扩大接收范围。网络最后对原始图像1/8大小的特征图进行上采样,在保持较高速度的同时,可以获得良好的分割结果。网络在Cityscapes和CAMVID数据集上的实验表明,与现有方法相比,所提出的方法具有明显的优势。更为具体地,对于1024×2048输入图像,它以41 FPS的速度在Cityscapes测试数据集上达到77.1%的mean IOU,而在Camvid测试数据集上以91 FPS的速度达到75.4%的mean IOU。

创新和改进点

1、论文提出了一种新的多特征融合模块(MFM),利用精心设计的空间感知池(SAP),在保持较小计算开销的同时,扩大接收范围,恢复空间信息的丢失

2、为了解决边缘相关空间信息的丢失问题,论文提出了一种新的类边界监控方法。

3、现有的分割方法主要集中在提高精度上,但是低延时实现实时性能是实际应用中最关键的问题,MSFNet主要针对速度进行改进。

4、在两个基准数据集上的实验表明,论文提出的方法在精度和推理时间上都优于大多数state-of-the-art方法。

先前的大多数网络结构通过降低输入分辨率来加快推理速度,但这会严重丢失空间信息,尤其是和边缘相关的信息;还有一些方法通过减少通道来降低计算成本,但这会导致网络的精度急剧下降;除此之外,还有一些轻量级的浅层网络,但这些网络有明显的缺陷,因为它们通常太浅而无法获得足够的感受野。基于上述的种种缺陷,MSFNet在结构上做了相关改进和优化。

640?wx_fmt=png

MSFNet网络结构

MSFNet的这种结构扩大了感受野并重新弥补空间信息损失,同时保持较小的计算成本。MSFNet中的两个核心:MFM(多特征融合)和SAP(空间感知池化)。

640?wx_fmt=png
640?wx_fmt=png

针对SAP

1、多分支pooling进行处理,论文分支数设为5个pooling和1个unpooling。

2、输出多尺度feature map

针对MFM

1、将SAP模块中具有相同分辨率的特征图进行聚合输出,最后一个32x down经过SAP处理后,产生6个尺度的feature map,其中,第3~5个feature map分别和前面4x down、8x down、16x down经过SAP处理后与之对应相同分辨率的feature map进行concat。

2、使用3x3的深度可分离卷积进行特征融合,由于聚合后通道数量很多,使用深度可分离卷积可以显著降低成本。

类别边缘信息监督模块:

为了恢复边缘空间信息,进一步提高分割效果,论文提出了两个独立的上采样分支。在上采样过程中,两个上采样分支不相互传递信息。在类别边缘方面,利用Ground Truth边界来监督分割任务,使得网络更加关注边缘类别信息,降低像素级别的错分率。

640?wx_fmt=png
640?wx_fmt=png

最后将类别边缘监督信息和上分支feature map进行concat,然后使用深度可分离卷积进行特征融合,输出最终分割结果。

网络损失函数:

这里一共两类损失函数,一个是基于边缘信息的,一个是基于整体输出的,两类损失构成最终的loss,并用一个超参数λ来平衡:

640?wx_fmt=png

论文给出的实验结果,综合考虑速度和mIoU,MSFNet效果最佳!

640?wx_fmt=png
640?wx_fmt=png
 
640?wx_fmt=png

上述内容,如有侵犯版权,请联系作者,会自行删文。

重磅!3DCVer-学术交流群已成立

欢迎加入我们公众号读者群一起和同行交流,目前有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

640?wx_fmt=jpeg

▲长按加群或投稿

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款640? 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK