新智元长尾问题太严重?半监督和自监督就可以有效缓解!( 二 )

  • 重采样(re-sampling):更具体可分为对少样本的过采样[3] , 或是对多样本的欠采样[8] 。 但因过采样容易overfit到minor class , 无法学到更鲁棒易泛化的特征 , 往往在非常不平衡数据上表现会更差;而欠采样则会造成major class严重的信息损失 , 导致欠拟合发生 。
  • 数据合成(synthetic samples):即生成和少样本相似的“新”数据 。 经典方法SMOTE[9] , 思路简单来讲是对任意选取的少类样本 , 用K近邻选取其相似样本 , 通过对样本线性插值得到新样本 。 这里会想到和mixup[10]很相似 , 于是也有imbalance的mixup版本出现[11] 。
  • 重加权(re-weighting):对不同类别(甚至不同样本)分配不同权重 。 注意这里的权重可以是自适应的 。 此类方法的变种有很多 , 有最简单的按照类别数目的倒数来做加权[12] , 按照“有效”样本数加权[1] , 根据样本数优化分类间距的loss加权[4] , 等等 。
  • 迁移学习(transfer learning):这类方法的基本思路是对多类样本和少类样本分别建模 , 将学到的多类样本的信息/表示/知识迁移给少类别使用 。 代表性文章有[13][14] 。
  • 度量学习(metric learning):本质上是希望能够学到更好的embedding , 对少类附近的boundary/margin更好的建模 。 有兴趣的同学可以看看[15][16] 。
  • 元学习/域自适应(meta learning/domain adaptation):分别对头部和尾部的数据进行不同处理 , 可以去自适应的学习如何重加权[17] , 或是formulate成域自适应问题[18] 。
  • 解耦特征和分类器(decoupling representation & classifier):最近的研究发现将特征学习和分类器学习解耦 , 把不平衡学习分为两个阶段 , 在特征学习阶段正常采样 , 在分类器学习阶段平衡采样 , 可以带来更好的长尾学习结果[5][6] 。 这也是目前的最优长尾分类算法 。
至此大概总结了研究背景和常用方法;然而 , 即使有如数据重采样或类平衡损失等专门设计的算法 , 在极端的类别失衡下 , 深度模型性能的下降仍然广泛存在 。 因此 , 理解类别不均衡的数据标签分布所带来的影响是非常重要的 。 我们的研究动机和思路
不同于之前对于长尾分布研究方法 , 我们从“the value of labels” , 即这些本身就不平衡的数据标签具有的“价值”这一思路去考虑 。 与理想情况下平衡的标签不同 , 这些不平衡的数据标签存在一个非常有趣的dilemma 。 一方面 , 这些标签提供了非常珍贵的监督信息 。 有监督的学习通常都比无监督的学习在给定任务上具有更高准确性 , 因此即使不平衡 , 这些标签也拥有“正面价值” 。 但是另一方面 , 由于标签非常不平衡 , 训练模型的过程中可以非常自然的强加上label bias , 从而使得最后的决策区域很大程度上被major class影响;这样的结果又证明了不平衡标签的“负面价值” 。 作为总结 , 在不平衡的训练集中 , 这些标签就像一把双刃剑;想要得到更好的结果 , 一个非常重要的问题就是如何最大程度的利用不平衡标签的“价值”?于是 , 我们尝试系统性的分解并且分别分析上述两种不同的角度 。 我们的结论表明对于正面的和负面的角度 , 不平衡标签的价值都可被充分利用 , 从而极大的提高最后分类器的准确性:
  • 从正面价值的角度 , 我们发现当有更多的无标签数据时 , 这些不平衡的标签提供了稀缺的监督信息 。 通过利用这些信息 , 我们可以结合半监督学习去显著的提高最后的分类结果 , 即使无标签数据也存在长尾分布 。