主要思想

提出了一种基于端到端学习的全景分割方法，一种新的任务统一实例分割（things）和语义分割（stuff）方法。论文中的模型，TASCNet，使用来自共享主干网络的特征映射，在一个前馈过程中同时预测thing和stuff的分割。通过一个全局的things-and-stuff二进制掩码显式地约束这两个输出分布，以增强跨任务一致性。论文提出的统一网络在多个用于全景分割的基准数据集上，以及在单个语义和实例分割任务上，都能够与当前SOTA算法相竞争~

主要贡献

端到端的全景分割方法，能够最佳的融合thing和stuff。
大多数参数在ResNet主干网络和四级特征金字塔网络（FPN）中共享，后者能够学习对后续语义分割和实例分割Head有用的表示。
提出了一个新的可微thing和stuff一致性（TASC），来维持训练过程中两个子任务输出分布的一致性。
本文的统一架构，TASCNet，保持或改善了单独训练模型的性能，并在Mapillary Vistas 、Cityscapes datasets和COCO数据集上取得了竞争性的结果。
实验证明本文的交叉任务约束是提高训练稳定性和准确性的关键。
证明了使用单一的网络有助于简化训练和推理过程，同时本文通过较大程度减少参数的数量来提高效率。

网络结构

如上图所示，网络分为两个模块：Things Head和Stuff Head。Things Head主要完成实例分割，Stuff Head主要完成语义分割，论文中采用了ResNet50和FPN结构作为backbone。

关于Things Head论文中采用类似于Mask RCNN结构的网络，输出目标的box坐标、类别信息以及mask掩码。
关于Stuff Head论文采用SegNet+FPN的思想，最终输出语义分割的结果和mask二进制掩码。

论文中还提到Things and Stuff Consistency (TASC)，如下图红色方形框所示，主要用来衡量实例分割出的mask和语义分割出的mask的一致性，这可以监督两个任务的同步性。其中M1,M2……Mn代表实例分割中每个物体的掩码，论文采用将其合并的方式来生成语义分割的整体mask图像。

实例分割和语义分割结果融合：在一个聚合的TASCNet中，论文使用语义分割掩码来选择哪些像素是从实例分割输出中获得的，哪些像素是从语义分割输出中获得的。因此，论文定义了一个简单的后处理过程：将回归实例按置信度的降序添加到最终的全景输出中，仅当其和实例之间的IoU低于0.4且其与mask掩码的IoU大于0.7时才将添加到输出中。

实验结果

评估标准还是沿用何凯明提出的PQ标准： 640?wx_fmt=png

其中P和Q是匹配的预测值和Ground Truth，TP、FP、FN分别表示真正、假正和假负。论文在Cityscapes、Vistas和COCO三类数据集下做了实验，结果如下~

上述内容，如有侵犯版权，请联系作者，会自行删文。重磅！3DCVer-学术交流群已成立欢迎加入我们公众号读者群一起和同行交流，目前有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。 640?wx_fmt=jpeg

▲长按加群或投稿

▲长按关注我们

▲CV入门交流群

全景分割 | Learning to Fuse Things and Stuff

主要思想

主要贡献

网络结构

实验结果

Recommend

混合深度卷积，更少参数下的轻量级网络

汇总|医学图像分析领域论文

汇总|医学图像数据集

3D U-Net：从稀疏注释中学习密集的体积分割

大盘点|OCR算法汇总

超全的OCR数据集

系列篇|结构光三维重建基本原理

MSFNet:多重空间融合网络进行实时语义分割（北航和旷视联合提出）

FDDWNET:模型参数仅为0.8M，速度和准确率综合性能在轻量级分割网络中达到SOTA

系列篇|单目结构光三维成像系统的标定方法

About Joyk