DivideMix: Salesforce提出使用半监督学习大幅改进含噪声标签的学习

点击我爱计算机视觉标星，更快获取CVML新技术

分享一篇今天新出的论文 DivideMix: Learning with Noisy Labels as Semi-supervised Learning ，来自SalesForce研究院的工程师提出一种使用半监督学习方法改进含噪声标签数据的学习，显著改进了精度，大幅超越之前的State-of-the-art。

该文作者信息：

jyY7jyQ.png!web

众所周知，近年来深度学习的长足进步离不开大规模高标准的标注数据，但在大多数现实问题中，获得数量可观的标注数据需要付出大量的时间和金钱代价。

而互联网上可以获得大量的含有标签噪声的数据，比如从搜索引擎查找返回的数据、从社交网络下载的含有tag的数据等，如何利用这些大规模含噪声标签的数据是降低标注成本的重要方向。

该文提出DivideMix方法，核心思想为 co-divide + 改进的MixMatch ，其算法流程如下：

uEVRBbA.jpg!web

1. 提出了 co-divide ，该过程同时训练两个网络。对于每个网络，在其每个样本的损失分布上动态拟合高斯混合模型（GMM），以将训练样本分为有标签数据（最可能干净的数据）和无标签数据（最可能是噪声的数据）。然后，将分割后的数据用于训练另一个网络。同分使两个网络保持分开，以便它们可以过滤不同类型的错误并避免自训练中的确认偏差。

2. 在后续的半监督学习阶段，通过标签 co-refinement 和 co-guessing 来改进MixMatch，解决标签噪音问题。对于有标签的样本，我们使用GMM针对另一个网络的网络预测来完善其真实标签。对于没有标签的样本，我们使用两个网络的集成为它们的标记做出可靠的猜测。

算法流程：

FfMZZ3b.jpg!web