基于尺寸划分的RGB显著物体检测方法

明泽danny 3D视觉工坊 1 week ago

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达 640?wx_fmt=jpeg

SDCNet: Size Divide and Conquer Network for Salient Object DetectionSenbo Yan, Xiaowen Song, and Chuer Yu论文及代码下载：在微信公众号「3D视觉工坊」后台，回复「RGB检测」，即可获取论文及代码下载链接。简介：为了解决现有的显著物体检测方法在检测小对象或大对象方面比较困难这一问题，该文提出了一种大小划分和征服网络(SDCNet)，用以分别学习不同大小的突出对象的特征，以便提高检测性能。具体来说，SDCNet包含两个主要方面：（1）通过计算具有像素级的地面真相图像中物体的比例，并训练一个大小推理模块（SIM）来预测突出物体的大小。（2）提出了一种多通道尺寸划分模块(MSDM)，分别学习不同尺寸的显著物体的特征。详细地，使用MSDM跟踪骨干网络的每个块，并使用不同的通道在不同的分辨率下提取不同大小范围内的突出对象的特征。与耦合附加特征不同，该文基于对不同数据分布的分治思想对网络进行编码，并专门学习不同大小的显著对象的特征。实验结果表明，SDCNet在五个基准数据集上的性能优于14种最先进的方法。主要贡献：

该文提出了一种新的网络设计方法来划分和克服不同的数据分布。MSDM可以分别学习不同大小范围的突出对象的特征。这种基于数据特征的网络设计是有意义的。
该文提供了一个有效的思路，将数据集划分为不同的大小分类，来解决显著对象之间巨大的尺寸偏差，从而显著提高了显着性映射的准确性。
该文比较了所提出的方法和14种最先进的方法在五个基准数据集。在没有预处理和后处理的情况下，在三个评估指标上取得了更好的性能。

与其他方法的比较的可视化图片：

模型：

1）建立了一个基于FPN（参考论文Feature Pyramid Networks for Object Detection）的侧输出体系结构，实现了高、低层次特征的融合。2）通过大小引用模块(SIM)获得突出对象的大小推断，该模块与SDCNet共享相同的主干。SIM生成二值化的粗糙显着性推理，并通过计算SOP（突出的对象比例）得到突出对象的预测尺寸范围。根据SOP将尺寸范围分为（0-10%，10%-20%，20%-30%，30%-40%和40%以上五类）见表1。SOP计算方式：

3）在侧输出结构中，我们在特征融合的过程中加入了MSDM。MSDM将每个边层的特征映射划分为大小无关流和大小相关流。将与大小无关的流放入一个公共卷积层，并将与大小相关的流放入多通道卷积层。多通道卷积层的每个通道对应于特定的大小范围，再将与大小无关的特征与互补的大小相关特征集成在一起。MSDM的结构：

使用通用特征提取模块(CFEM)来获得大小无关的特征和大小特征提取模块(SFEM)来获得大小相关的特征。根据尺寸推断θ在SFEM中激活不同的卷积信道。CFi表示大小无关的特征映射，SFi表示大小相关的特征映射。Up(∗；Fi)是指通过双线性插值将上采样*采样到与Fi相同大小的。Cat(A，B)是指级联特征映射A和B。f(i)conv表示由三个卷积层和非线性激活函数组成的CFEM。f(i)(conv，θ)的结构由几个平行的f(i)conv组成，根据大小推断θ为每幅图像激活其中一幅。θ的计算方式与SOP相同。各模块的具体结构如下：

损失函数：为了快速收敛，将深度监督应用于各侧路径。gxy和pixy表示GT的像素值和归一化显着性预测。用wi表示每个层的损失函数的权重，值为1。总损失函数是:

实验结果：SDCNet和其他14种最先进的方法在5个数据集上的定量评价结果：

总结：该文致力于解决显著大小差异的显著目标检测。首先，划分了基准数据集中突出对象的大小分布，并训练了一个SIM来使用逐像素计算来执行大小推断。其次，使用一个由上到下的多尺度特征融合网络作为基本结构。该文设计了一个MSDM，根据SIM获得的大小推断激活不同的通道，并学习了不同大小的突出对象的特征。最后，利用低级特征映射作为一对一的指导，以保留更多关于小突出对象的信息。实验结果表明，该方法对小尺寸物体的检测性能有了显著的提高。该方法在三个评估指标下在五个基准数据集中获得最先进的性能。备注：作者系我们「3D视觉从入门到精通」特邀嘉宾：一个超干货的3D视觉学习社区本文仅做学术分享，如有侵权，请联系删文。下载1在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。下载2在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。下载3在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

640?wx_fmt=jpeg

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

基于尺寸划分的RGB显著物体检测方法