MSFNet:多重空间融合网络进行实时语义分割（北航和旷视联合提出）

Original Tom Hardy 3D视觉工坊 2/1

收录于话题

#深度学习&自动驾驶

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

原文链接：https://arxiv.org/abs/1911.07217

实时语义分割是一项具有挑战性的任务，因为需要同时考虑效率和性能，其在自动驾驶、机器人等工业应用中发挥着重要的作用。针对这一复杂的任务，论文提出了一种高效的卷积网络结构：多重空间融合网络（MSFNet）来完成快速和准确的感知。MSFNet在多特征融合模块的基础上，利用类边界监督来处理相关的边界信息，从而获得空间信息，扩大接收范围。网络最后对原始图像1/8大小的特征图进行上采样，在保持较高速度的同时，可以获得良好的分割结果。网络在Cityscapes和CAMVID数据集上的实验表明，与现有方法相比，所提出的方法具有明显的优势。更为具体地，对于1024×2048输入图像，它以41 FPS的速度在Cityscapes测试数据集上达到77.1%的mean IOU，而在Camvid测试数据集上以91 FPS的速度达到75.4%的mean IOU。

创新和改进点

1、论文提出了一种新的多特征融合模块（MFM），利用精心设计的空间感知池（SAP），在保持较小计算开销的同时，扩大接收范围，恢复空间信息的丢失

2、为了解决边缘相关空间信息的丢失问题，论文提出了一种新的类边界监控方法。

3、现有的分割方法主要集中在提高精度上，但是低延时实现实时性能是实际应用中最关键的问题，MSFNet主要针对速度进行改进。

4、在两个基准数据集上的实验表明，论文提出的方法在精度和推理时间上都优于大多数state-of-the-art方法。

先前的大多数网络结构通过降低输入分辨率来加快推理速度，但这会严重丢失空间信息，尤其是和边缘相关的信息；还有一些方法通过减少通道来降低计算成本，但这会导致网络的精度急剧下降；除此之外，还有一些轻量级的浅层网络，但这些网络有明显的缺陷，因为它们通常太浅而无法获得足够的感受野。基于上述的种种缺陷，MSFNet在结构上做了相关改进和优化。

MSFNet网络结构

MSFNet的这种结构扩大了感受野并重新弥补空间信息损失，同时保持较小的计算成本。MSFNet中的两个核心：MFM（多特征融合）和SAP（空间感知池化）。

针对SAP：

1、多分支pooling进行处理，论文分支数设为5个pooling和1个unpooling。

2、输出多尺度feature map

针对MFM：

1、将SAP模块中具有相同分辨率的特征图进行聚合输出，最后一个32x down经过SAP处理后，产生6个尺度的feature map，其中，第3~5个feature map分别和前面4x down、8x down、16x down经过SAP处理后与之对应相同分辨率的feature map进行concat。

2、使用3x3的深度可分离卷积进行特征融合，由于聚合后通道数量很多，使用深度可分离卷积可以显著降低成本。

类别边缘信息监督模块：

为了恢复边缘空间信息，进一步提高分割效果，论文提出了两个独立的上采样分支。在上采样过程中，两个上采样分支不相互传递信息。在类别边缘方面，利用Ground Truth边界来监督分割任务，使得网络更加关注边缘类别信息，降低像素级别的错分率。

最后将类别边缘监督信息和上分支feature map进行concat，然后使用深度可分离卷积进行特征融合，输出最终分割结果。

网络损失函数：

这里一共两类损失函数，一个是基于边缘信息的，一个是基于整体输出的，两类损失构成最终的loss，并用一个超参数λ来平衡：

论文给出的实验结果，综合考虑速度和mIoU，MSFNet效果最佳！

上述内容，如有侵犯版权，请联系作者，会自行删文。

重磅！3DCVer-学术交流群已成立

欢迎加入我们公众号读者群一起和同行交流，目前有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

640?wx_fmt=jpeg

▲长按加群或投稿

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款 640?

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

MSFNet:多重空间融合网络进行实时语义分割（北航和旷视联合提出）

MSFNet:多重空间融合网络进行实时语义分割（北航和旷视联合提出）

创新和改进点

Recommend

FDDWNET:模型参数仅为0.8M，速度和准确率综合性能在轻量级分割网络中达到SOTA

系列篇|单目结构光三维成像系统的标定方法

LiteSeg: 一种用于语义分割的轻量级ConvNet

RGPNET: 复杂环境下实时通用语义分割网络

FusionNet：基于稀疏雷达点云和RGB图像的深度图补全

基于深度法向约束的稀疏雷达数据深度补全（商汤科技和香港大学联合提出）

视觉里程计的轨迹评估的工具：evo

VoxelNet阅读笔记

汇总|3D点云目标检测算法

机器人抓取领域性能评估标准

About Joyk