CVPR2022 | 弱监督多标签分类中的损失问题

前言本文提出了一种新的弱监督多标签分类（WSML）方法，该方法拒绝或纠正大损失样本，以防止模型记忆有噪声的标签。由于没有繁重和复杂的组件，提出的方法在几个部分标签设置（包括Pascal VOC 2012、MS COCO、NUSWIDE、CUB和OpenImages V3数据集）上优于以前最先进的WSML方法。各种分析还表明，方法的实际效果很好，验证了在弱监督的多标签分类中正确处理损失很重要。

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

085c7c95232048c08c430a9500b26916~tplv-k3u1fbpfcp-zoom-1.image

论文：Large Loss Matters in Weakly Supervised Multi-Label Classification

论文：http://arxiv.org/pdf/2206.03740

代码：https://github.com/snucml/LargeLossMatters

弱监督多标签分类（WSML）任务是利用每幅图像的部分观察标签来学习多标签分类，由于其巨大的标注成本，变得越来越重要。

目前，有两种简单的方法可以使用部分标签来训练模型。一种是只使用观察到的标签来训练模型，而忽略未观察到的标签。另一种是假设所有未观察到的标签都是负面的，并将其纳入训练，因为在多标签设置中，大多数标签都是负面的。

但第二种方法有一个局限性，即这种假设会在标签中产生一些噪声，从而妨碍模型学习，因此之前的工作大多遵循第一种方法，并尝试使用各种技术（如引导或正则化）探索未观察标签的线索。然而，这些方法包括大量计算或复杂的优化管道。

基于以上思路，作者假设，如果标签噪声能够得到妥善处理，第二种方法可能是一个很好的起点，因为它具有将许多真正的负面标签纳入模型训练的优势。因此，作者就从噪声标签学习的角度来看待WSML问题。

众所周知，当训练带有噪声标签的模型时，该模型首先适应干净的标签，然后开始记忆噪声标签。虽然之前的研究表明记忆效应仅在有噪声的多类别分类场景中存在，但作者发现，在有噪声的多标签分类场景中也存在同样的效应。如图1所示，在训练期间，来自干净标签（真负样本）的损失值从一开始就减小，而来自噪声标签（假负样本）的损失从中间减小。

cc903c24885541ec8d46914f3f53d09e~tplv-k3u1fbpfcp-zoom-1.image

图1 WSML中的记忆效应

基于这一发现，作者开发了三种不同的方案，通过在训练过程中拒绝或纠正大损失样本，防止误报标签被记忆到多标签分类模型中。

1）首次通过实验证明，记忆效应发生在有噪声的多标签分类过程中。

2）提出了一种新的弱监督多标签分类方案，该方案明确利用了带噪声标签的学习技术。

3）提出的方法轻巧且简单，在各种部分标签数据集上实现了最先进的分类性能。

在本文中，作者提出了新的WSML方法，其动机是基于噪声多类学习的思想，它忽略了模型训练过程中的巨大损失。通过在损失函数中进一步引入了权重项λi：

ea1e25e58c4042f5b8925c6db6a21199~tplv-k3u1fbpfcp-zoom-1.image

作者提出了三种提供权重λi的不同方案，示意图描述如图2所示。

d8967fe6a96f464d8ef00b0e7fbb0159~tplv-k3u1fbpfcp-zoom-1.image

图2 提出的方法的总体管道

1.损失拒绝

处理大损耗样本的一种方法是通过设置λi=0来拒绝它。在有噪声的多类任务中，B.Han等人提出了一种在训练过程中逐渐增加拒绝率的方法。作者同样设置函数λi，

0958bb96e77c45ca8dab9a6443bb5781~tplv-k3u1fbpfcp-zoom-1.image

由于模型在初始阶段学习干净的模式，因此在t=1时不拒绝任何损失值。在每次迭代中使用小批量而不是完整批量D′来组成损失集。作者将此方法称为LL-R。

2. 损失纠正（临时）

处理大损失样本的另一种方法是纠正而不是拒绝它。在多标签设置中，可以通过将相应的注释从负值切换到正值来轻松实现这一点。“临时”一词的意思是，它不改变实际标签，而只使用根据修改后的标签计算的损失，将函数λi定义为

78f917f5750d43d2a52f2bd5b0a532f6~tplv-k3u1fbpfcp-zoom-1.image

作者将此方法命名为LL-Ct。这种方法的优点是，它从未观察到的标签中增加了真实阳性标签的数量。

3. 损失纠正（永久）

通过永久更正标签来更积极地处理较大的损失值。直接将标签从阴性改为阳性，并在下一个训练过程中使用修改后的标签。为此，为每种情况定义λi=1，并修改标签如下：

f21a3ec096b044a49cf11ab7ab0284b8~tplv-k3u1fbpfcp-zoom-1.image

作者将此方法命名为LL-Cp。

表2 人为创建的部分标签数据集的定量结果

c81ca5a3746241e49aac12bdcdfba344~tplv-k3u1fbpfcp-zoom-1.image

表3 OpenImages V3数据集中的定量结果

f86e2cf91c0f4642a4f05dda70d6ee42~tplv-k3u1fbpfcp-zoom-1.image

图3 人为生成COCO部分标签数据集的定性结果

f5a544f2c60341a28f9e495a3a89d97a~tplv-k3u1fbpfcp-zoom-1.image

图4 COCO数据集上建议的方法的精度分析

22020f8278cc424c9208a21e22e035d2~tplv-k3u1fbpfcp-zoom-1.image

图5 LL-Ct对COCO数据集的超参数效应

5b5e7914a8634352968badf11079f8bd~tplv-k3u1fbpfcp-zoom-1.image

图6 使用较少数量的图像进行训练

8a8afbaa735a4174bea11d47192b5dd8~tplv-k3u1fbpfcp-zoom-1.image

表4 Pointing Game

5e2edfff3241435193a7aebadbf013b3~tplv-k3u1fbpfcp-zoom-1.image

在本文中，作者提出了损失修改方案，该方案拒绝或纠正了在训练带有部分标记注释的多标签分类模型时出现的大损失样本。这源于经验观察，即记忆效应也发生在嘈杂的多标签分类场景中。

虽然不包括繁重的和复杂的组件，但作者的方案成功地防止了多标签分类模型记忆有噪声的假阴性标签，在各种部分标记的多标签数据集上实现了最先进的性能。

---------------------------------------------------------------------------------

CV技术指南创建了一个计算机视觉技术交流群和免费版的知识星球，目前星球内人数已经700+，主题数量达到200+。

知识星球内将会每天发布一些作业，用于引导大家去学一些东西，大家可根据作业来持续打卡学习。CV技术群内每天都会发最近几天出来的顶会论文，大家可以选择感兴趣的论文去阅读，持续follow最新技术，若是看完后写个解读给我们投稿，还可以收到稿费。另外，技术群内和本人朋友圈内也将发布各个期刊、会议的征稿通知，若有需要的请扫描加好友，并及时关注。

加群加星球方式：关注公众号CV技术指南，获取编辑微信，邀请加入。

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

欢迎可以写以下内容的朋友联系我（关注公众号后获取联系方式）。

最新顶会的解读。例如最近的CVPR2022论文。
各个方向的系统性综述、主要模型发展演变、各个模型的创新思路和优缺点、代码解析等。如目标检测大总结：对目标检测从传统方法到深度学习的所有大总结，主要包括传统方法检测、RCNN系列、YOLO系列、anchor-free系列、小目标检测方法总结、小样本目标检测方法总结、视频中的目标检测方法总结、目标检测使用的损失函数总结等内容。支持边学边写。
TVM入门到实践的教程
MNN入门到实践的教程
OpenVINO入门到实践的教程
libtorch入门到实践的教程
Oneflow入门到实践的教程
Detectron入门到实践的教程
caffe源码阅读
深度学习从入门到精通（从卷积神经网络开始讲起）
若自己有想写的且这上面没提到的，可以跟我联系。声明：有报酬，具体请联系详谈。