12
全景分割 | Learning to Fuse Things and Stuff
source link: https://mp.weixin.qq.com/s/KFzKFOj4CMXOJHbmt-dqFA
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
论文链接:https://arxiv.org/pdf/1812.01192.pdf这是一篇来自丰田的全场景分割论文~
主要思想
提出了一种基于端到端学习的全景分割方法,一种新的任务统一实例分割(things)和语义分割(stuff)方法。论文中的模型,TASCNet,使用来自共享主干网络的特征映射,在一个前馈过程中同时预测thing和stuff的分割。通过一个全局的things-and-stuff二进制掩码显式地约束这两个输出分布,以增强跨任务一致性。论文提出的统一网络在多个用于全景分割的基准数据集上,以及在单个语义和实例分割任务上,都能够与当前SOTA算法相竞争~主要贡献
- 端到端的全景分割方法,能够最佳的融合thing和stuff。
- 大多数参数在ResNet主干网络和四级特征金字塔网络(FPN)中共享,后者能够学习对后续语义分割和实例分割Head有用的表示。
- 提出了一个新的可微thing和stuff一致性(TASC),来维持训练过程中两个子任务输出分布的一致性。
- 本文的统一架构,TASCNet,保持或改善了单独训练模型的性能,并在Mapillary Vistas 、Cityscapes datasets和COCO数据集上取得了竞争性的结果。
- 实验证明本文的交叉任务约束是提高训练稳定性和准确性的关键。
- 证明了使用单一的网络有助于简化训练和推理过程,同时本文通过较大程度减少参数的数量来提高效率。
网络结构
如上图所示,网络分为两个模块:Things Head和Stuff Head。Things Head主要完成实例分割,Stuff Head主要完成语义分割,论文中采用了ResNet50和FPN结构作为backbone。
- 关于Things Head论文中采用类似于Mask RCNN结构的网络,输出目标的box坐标、类别信息以及mask掩码。
- 关于Stuff Head论文采用SegNet+FPN的思想,最终输出语义分割的结果和mask二进制掩码。
实验结果
评估标准还是沿用何凯明提出的PQ标准:其中P和Q是匹配的预测值和Ground Truth,TP、FP、FN分别表示真正、假正和假负。论文在Cityscapes、Vistas和COCO三类数据集下做了实验,结果如下~上述内容,如有侵犯版权,请联系作者,会自行删文。重磅!3DCVer-学术交流群已成立欢迎加入我们公众号读者群一起和同行交流,目前有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。▲长按加群或投稿▲长按关注我们▲CV入门交流群Recommend
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK