再谈类别不平衡问题：调节权重与魔改Loss的综合分析

EnAnQz.gif!mobile

©PaperWeekly 原创 · 作者｜苏剑林

单位｜追一科技

研究方向｜NLP、神经网络

类别不平衡问题，也称为长尾分布问题，在之前的文章里已经有好几次相关讨论了，比如从 loss 的硬截断、软化到 focal loss [1] 、将“softmax+交叉熵”推广到多标签分类问题、通过互信息思想来缓解类别不平衡问题。

对于缓解类别不平衡，比较基本的方法就是调节样本权重，看起来“高端”一点的方法则是各种魔改 loss了（比如 Focal Loss、Dice Loss、Logits Adjustment 等），本文希望比较系统地理解它们之间的联系。

VVNzemB.png!mobile

▲长尾分布：少数类别的样本数目非常多，多数类别的样本数目非常少。

jiuMzu2.png!mobile

从光滑准确率到交叉熵

这里的分析主要以 sigmoid 的 2 分类为主，但多数结论可以平行推广到 softmax 的多分类。设 x 为输入，为目标，为模型。理想情况下，当然是要评测什么指标，我们就去优化那个指标。对于分类问题来说，最朴素的指标当然就是准确率，但准确率并没有办法提供有效的梯度，所以不能直接来训练。

为此，我们一个光滑化的指标。从之前的文章函数光滑化杂谈：不可导函数的可导逼近 [2] ，准确率的光滑化近似是：

其中是训练数据集合。所以按道理，我们应该以为最小化的目标。但事实上，直接优化这个目标的效果并不好，更好的是去优化交叉熵：

这就有点耐人寻味了，明明更接近我们的评测指标，为什么用交叉熵反而对评测指标更有利呢？

这需要用梯度来解释。对于，它通常是经过了 sigmoid 激活的，也就是，其中，它的导数，而就是我们通常称的“ logits ”。

假设 y 是 1，那么对应的就是，它的梯度是：

刚才说了，y 是 1，所以训练目标是，因此我们期望当接近于0时（误差较大），会带来一个较大的梯度，当接近于 1 时（误差较小），会带来一个较小的梯度。

但上述显然不是如此，它的调节项在 0.5 处取到最大值，至于 0 和 1 都是最小值，这就意味着如果误差太大了，梯度反而也小，这就带来优化效率的低下，最终导致整体效果不好。相反，对于交叉熵来说，有：

刚好把梯度里边带来负面作用的因子去掉了，因此优化效率更高，最终效果也好些。上述分析针对的是 y=1，如果 y=0，那么结论也是一样的。

IbQFVj6.png!mobile

从光滑F1到加权交叉熵

从这个过程中，我们可以感觉到，对 loss 的各种魔改，本质上来说都只是在调整梯度，得到更合理的梯度，我们就能实现更有效的优化，得到更好的模型。此外，我们再思考上述转换过程，本来近似目标的梯度是，结果效果更好。

如果我们不去仔细分析背后的原因，直接把当作一个“ 公理 ”来使用，那能否成立呢？会不会带来一些有意思的结果呢？

举个例子，当负样本远远多于正样本时，我们的评测指标通常都不再是准确率了（不然直接全部输出 0 准确率就很高了），我们通常关心正类的 F1，而 F1 的直接优化也是不容易的，所以我们也需要一个光滑版，文章函数光滑化杂谈：不可导函数的可导逼近 [3] 同样也给出了结果：

BRB3yea.png!mobile

所以我们的最小化目标原本是。根据上述“公理”，我们先直接对求梯度：

QreeYjy.png!mobile

其中是整体的一个缩放因子，我们主要关心的还是每个样本的梯度，所以结果是：

根据“公理”（负样本则是），我们得到最后的梯度为：

这等价于优化目标：

的梯度（其中不求梯度），所以这其实就是用调节正样本的交叉熵，用调节负样本的交叉熵。

一开始 F1 值会比较小，所以模型集中精力在优化正样本，后期 F1 比较大后，模型反而集中精力在优化负样本了，这其实正体现了 F1 指标的特殊性：对于 F1 来说，既要尽可能挖掘出正样本，但是负样本也不能错得太多，所以不大适合设置固定不变的调节因子，而是需要动态的调节。

ZJfe2i7.png!mobile

从扩大边界到Logits调整

其实无论评测指标是什么，我们肯定都是希望每一个样本都尽可能预测对。问题在于，样本数目比较少的类别，因为学习得不够充分，所以泛化性能不会太好。

让我们从几何角度来思考这个问题。理想情况下，在编码空间里边，每一类样本都占据着自己的一个“地盘”，不同类的“地盘”是互不相交的。

样本数目较少的类别泛化性能不大好，主要就体现为其类别所占据的“地盘”比较小，而且往往还会受到类别数目较多的样本的“打压”，因此“生存”几乎都成了问题，更不用说照顾到训练集没有出现过的新样本了。

怎么解决这个问题呢？其实也很形象，如果样本数目少的类别，里边的样本个个都是“大佬”，一个打十个的那种，那么就算样本少，也能在“地盘之争”中不落下风。让我们考虑一个 n 分类问题，某个样本的编码向量为，类别向量为，那么该样本与类别向量的相似度，一般用内积来度量。

假设每个样本能占据半径为的“地盘”，这样就是说，满足的任意z都算是该样本的编码向量，这也就意味着，满足这个条件的任意 z，它跟的相似度都应该大于它跟其他类别的相似度。

现在我们考虑：

由于，所以显然有：

所以，为了达到“ z 跟的相似度都应该大于它跟其他类别的相似度”这个目的，只需要“ z 跟的最小相似度都应该大于它跟其他类别的最大相似度”，因此我们的优化目标变为：

BVZBfe6.png!mobile

可以看到，这其实就相当于 am-softmax、circle loss 等带有 margin 的 softmax 变种，具体形式其实不重要，只需要为类别小的类设置更大的 margin 就好（样本少的类别每个样本都更“能打”）。那怎么设计每个类的 margin 呢？

之前的文章通过互信息思想来缓解类别不平衡问题就提供了一个方案：，这里的 p(y) 是先验分布，那么就有：

QBNfMfu.png!mobile

这样我们就联系到了 logit adjustment loss 了，或者说给 logit adjustment loss 提供了一种几何直观理解。本质上来说，logit adjustment 也是在调节权重，只不过一般的调节权重是在损失函数的之后调整，而 logit adjustment 则是在之前调整。

JFbIRjv.png!mobile