新智元长尾问题太严重？半监督和自监督就可以有效缓解！( 二 )

重采样（re-sampling）：更具体可分为对少样本的过采样[3] ，或是对多样本的欠采样[8] 。但因过采样容易overfit到minor class ，无法学到更鲁棒易泛化的特征，往往在非常不平衡数据上表现会更差；而欠采样则会造成major class严重的信息损失，导致欠拟合发生。

数据合成（synthetic samples）：即生成和少样本相似的“新”数据。经典方法SMOTE[9] ，思路简单来讲是对任意选取的少类样本，用K近邻选取其相似样本，通过对样本线性插值得到新样本。这里会想到和mixup[10]很相似，于是也有imbalance的mixup版本出现[11] 。

重加权（re-weighting）：对不同类别（甚至不同样本）分配不同权重。注意这里的权重可以是自适应的。此类方法的变种有很多，有最简单的按照类别数目的倒数来做加权[12] ，按照“有效”样本数加权[1] ，根据样本数优化分类间距的loss加权[4] ，等等。

迁移学习（transfer learning）：这类方法的基本思路是对多类样本和少类样本分别建模，将学到的多类样本的信息/表示/知识迁移给少类别使用。代表性文章有[13][14] 。

度量学习（metric learning）：本质上是希望能够学到更好的embedding ，对少类附近的boundary/margin更好的建模。有兴趣的同学可以看看[15][16] 。

元学习/域自适应（meta learning/domain adaptation）：分别对头部和尾部的数据进行不同处理，可以去自适应的学习如何重加权[17] ，或是formulate成域自适应问题[18] 。

解耦特征和分类器（decoupling representation & classifier）：最近的研究发现将特征学习和分类器学习解耦，把不平衡学习分为两个阶段，在特征学习阶段正常采样，在分类器学习阶段平衡采样，可以带来更好的长尾学习结果[5][6] 。这也是目前的最优长尾分类算法。

至此大概总结了研究背景和常用方法；然而，即使有如数据重采样或类平衡损失等专门设计的算法，在极端的类别失衡下，深度模型性能的下降仍然广泛存在。因此，理解类别不均衡的数据标签分布所带来的影响是非常重要的。我们的研究动机和思路
不同于之前对于长尾分布研究方法，我们从“the value of labels” ，即这些本身就不平衡的数据标签具有的“价值”这一思路去考虑。与理想情况下平衡的标签不同，这些不平衡的数据标签存在一个非常有趣的dilemma 。一方面，这些标签提供了非常珍贵的监督信息。有监督的学习通常都比无监督的学习在给定任务上具有更高准确性，因此即使不平衡，这些标签也拥有“正面价值” 。但是另一方面，由于标签非常不平衡，训练模型的过程中可以非常自然的强加上label bias ，从而使得最后的决策区域很大程度上被major class影响；这样的结果又证明了不平衡标签的“负面价值” 。作为总结，在不平衡的训练集中，这些标签就像一把双刃剑；想要得到更好的结果，一个非常重要的问题就是如何最大程度的利用不平衡标签的“价值”？于是，我们尝试系统性的分解并且分别分析上述两种不同的角度。我们的结论表明对于正面的和负面的角度，不平衡标签的价值都可被充分利用，从而极大的提高最后分类器的准确性：