25

更少的标签，更好的学习，谷歌半监督学习算法FixMatch

4 years ago

source link: http://mp.weixin.qq.com/s?__biz=MzIwMTE1NjQxMQ%3D%3D&%3Bmid=2247495367&%3Bidx=2&%3Bsn=989859d14cd96b08744e23218e749bc6
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

点击我爱计算机视觉标星，更快获取CVML新技术

本文向大家推荐谷歌前段时间发布的论文 FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence ，该文提出了新的简单又有效的半监督学习算法 FixMatch ，结合伪标签（pseudo labeling）和一致性正则化（Consistency regularization）两种半监督学习方法，取得了显著的效果提升。

该文作者信息：

BfQnInU.png!web

作者均来自谷歌研究院。

半监督学习算法，即利用少量有标签数据和大量无标签数据的机器学习算法，最近获得了大量关注。

如何利用无标签数据是半监督学习的关键，一种常见的学习策略，使用在少量有标签数据中训练的模型对大量无标签数据进行预测，使用预测的结果标签重新训练模型。该类方法被称为伪标签。

该文提出的方法，用下面这张图即可完全概括：

m2iq2uy.jpg!web

首先，使用有标签数据训练Model；

然后，对于无标签数据，将其进行弱数据增广（比如反转、拉伸、缩放等），然后交给Model预测，对于置信度高过某阈值的样本，使用one-hot编码打上伪标签；

最后，使用上述伪标签数据训练Model，此时对数据进行强数据增广（无监督数据增广UDA、Mixup等），使得训练后的模型对强数据增广的数据作出的预测与伪标签匹配，使用标准的交叉熵损失函数。

下表为FixMatch方法与其他半监督学习算法的比较：

NZv2ma6.png!web

下图为作者在CIFAR-10、CIFAR-100、SVHN数据上半监督学习分类结果：

UFF7VfZ.jpg!web

相比以往的State-of-the-art，FixMatch取得了显著的精度提升，在仅使用40个标签数据（每类4个样本）时于CIFAR-10数据集上取得了 88.61%正确率，在使用250个标签数据（每类25个样本）时取得了 94.93%正确率。

在STL-10数据集上，同样取得了精度提升：

Y736Bnn.png!web

作者又做了一个极端的实验，CIFAR-10数据集每类仅用 1 个标签样本，仍然取得了 78% 正确率。

VrIZJrj.png!web

作者针对学习策略、数据增广策略等做了很多消融实验，欢迎阅读原论文。

总之，该文提出的方法简单又有效，将有助于半监督学习投入更多实用场景，代码已开源，欢迎大家继续研究。

论文地址：

https://arxiv.org/abs/2001.07685

代码地址：

https://github.com/google-research/fixmatch （官方）

https://github.com/kekmodel/FixMatch-pytorch （非官方）

在我爱计算机视觉公众号后台回复“ FixMatch ”，即可收到论文下载地址。

推荐阅读：

半监督学习价值凸显！谷歌大脑83页PPT介绍最新进展

半监督学习交流群

关注最新最前沿的半监督学习技术，扫码添加CV君拉你入群，（如已为CV君其他账号好友请直接私信）

（请务必注明:半监督）：

喜欢在QQ交流的童鞋可以加52CV官方QQ群： 805388940 。

（不会时时在线，如果没能及时通过还请见谅）

byA7ju3.jpg!web

长按关注我爱计算机视觉

Recommend

About Joyk

Aggregate valuable and interesting links.
Joyk means Joy of geeK