14

DivideMix: Salesforce提出使用半监督学习大幅改进含噪声标签的学习

 4 years ago
source link: http://mp.weixin.qq.com/s?__biz=MzIwMTE1NjQxMQ%3D%3D&%3Bmid=2247491015&%3Bidx=2&%3Bsn=e0cb2bc26866c4212950d7069d7f1e1d
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

点击 我爱计算机视觉 标星,更快获取CVML新技术

分享一篇今天新出的论文 DivideMix: Learning with Noisy Labels as Semi-supervised Learning ,来自SalesForce研究院的工程师提出一种使用半监督学习方法改进含噪声标签数据的学习,显著改进了精度,大幅超越之前的State-of-the-art。

该文作者信息:

jyY7jyQ.png!web

众所周知,近年来深度学习的长足进步离不开大规模高标准的标注数据,但在大多数现实问题中,获得数量可观的标注数据需要付出大量的时间和金钱代价。

而互联网上可以获得大量的含有标签噪声的数据,比如从搜索引擎查找返回的数据、从社交网络下载的含有tag的数据等,如何利用这些大规模含噪声标签的数据是降低标注成本的重要方向。

该文提出DivideMix方法, 核心思想为  co-divide +  改进的MixMatch ,其算法流程如下:

uEVRBbA.jpg!web

1. 提出了 co-divide ,该过程同时训练两个网络。对于每个网络,在其每个样本的损失分布上动态拟合高斯混合模型(GMM),以将训练样本分为有标签数据(最可能干净的数据)和无标签数据(最可能是噪声的数据)。然后,将分割后的数据用于训练另一个网络。同分使两个网络保持分开,以便它们可以过滤不同类型的错误并避免自训练中的确认偏差。

2. 在后续的半监督学习阶段,通过标签 co-refinementco-guessing 来改进MixMatch,解决标签噪音问题。对于有标签的样本,我们使用GMM针对另一个网络的网络预测来完善其真实标签。对于没有标签的样本,我们使用两个网络的集成为它们的标记做出可靠的猜测。

算法流程:

FfMZZ3b.jpg!web

实验结果

作者在多个数据集上不同的噪声比例下进行了实验,结果表明,DivideMix在多个基准数据集上显著提高了精度。 齐刷刷站到最高点!

eUjiUvy.jpg!web

6Bf2ee7.png!web

Y7NrUjQ.png!web

3UZVvaR.png!web

该文已经被ICLR 2020录用,作者也已将代码开源,感兴趣的小伙伴,赶紧实验下吧。

论文地址:

https://arxiv.org/pdf/2002.07394.pdf

代码地址:

https://github.com/LiJunnan1992/DivideMix

半监督学习交流群

关注最新最前沿的半监督学习、自监督学习技术,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)

请务必注明:半监督

jauQfyb.jpg!web

喜欢在QQ交流的童鞋,可以加52CV官方 QQ群805388940

(不会时时在线,如果没能及时通过验证还请见谅)

UbiEbaU.png!web

长按关注 我爱计算机视觉


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK