新智元长尾问题太严重？半监督和自监督就可以有效缓解！( 五 )

同样的，我们尝试直观的解释这个定理的意义。我们发现在这样简单的情况下，如果通过一个好的self-supervised task学习到了有用的表达形式，我们能得到：
有很高的概率，我们能得到一个更好的分类器。这个分类器的error probability随数据维度的增加而指数型减小。对于如今常见的高维数据（如图像）这种性质是我们希望得到的。
训练数据的不平衡性会影响我们能够得到这样一个好的分类器的概率。上文中，和代表训练数据里不同类的数量。从和这两项中我们可以发现，当数据越多且越平衡，我们就有更高的概率得到一个好的分类器。
自监督的不平衡学习框架：为利用自监督来克服固有的“label bias” ，我们提出在长尾学习的第一阶段先放弃标签信息，并进行自监督预训练（self-supervised pre-training ， SSP）。此过程旨在从不平衡数据集中学到更好的、与标签无关的初始化特征信息。在此阶段后，我们可以使用任何标准的训练方法，去训练得到最终的模型。由于预训练与正常训练阶段所采用的学习方法无关，因此这种策略可与任何现有的不平衡学习算法兼容。一旦自监督产生良好的初始化，网络就可以从预训练任务中受益，并最终学习到更通用的表示形式。实验：那么又一次到了激动人心的实验部分 ;) 这次由于不需要额外数据，我们除了在长尾的CIFAR-10/100上验证算法，也在大型数据集ImageNet的长尾版本，以及一个真实的大型长尾数据集iNaturalist[7]上进行测试，并和相应state-of-the-art对比。对于自监督算法，我们采用了经典的Rotation prediction[19]和最新的对比学习方法MoCo[20] 。在Appendix里我们也提供了更多ablation study ，比较了4种不同自监督方法的效果，以及不同的Imbalance Type 。具体实验结果如以下两表格所示。一言以蔽之，使用SSP能够对不同的 (1) 数据集， (2) 不平衡比率，以及 (3) 不同的基础训练算法，都带来了一致的、肉眼可见的提升，并且在不同数据集上都超过了之前最优的长尾分类算法。

最后同样展示一下自监督下的定性实验结果。与之前一样，我们分别画出了训练和测试集的特征t-SNE投影。从图中不难发现，正常CE训练的决策边界会很大程度被头类样本改变，从而导致在（平衡的）测试集中尾类样本的大量“泄漏” ，无法很好泛化。相比之下，使用SSP可以保持清晰的分离效果，并减少尾类样本的泄漏，尤其是在相邻的头类和尾类之间。这样的结果同样也能直观理解：自监督学习通过额外的task来约束学习过程，对数据空间的结构学习的更完整、提取的信息更全面，相比不平衡的标签信息带来的语义信息的不平衡，其能有效减轻网络对高层语义特征的依赖，以及对尾部数据的过拟合，学到的特征表示会更鲁棒易泛化，从而在下游任务中表现更好。

结语
最后总结一下本文，我们首次通过半监督和自监督这两个不同的viewpoint去尝试理解和利用不平衡的数据（标签），并且验证了这两种框架均能提升类别不均衡的长尾学习问题。我个人还是挺喜欢这篇文章的，有很直观的理论分析与解释，以及用非常简洁并且通用的框架去提升长尾分布下的学习任务。拿一位给我们很高分数的reviewer的原话， “The results could be of interest to even broader area of different applications” ，即不只是局限于文中做的几个academic datasets ，而对于现实中许多常见的imbalance或long-tail的任务，都是能即插即用，或是对如何有效收集无标签数据提供一些insight的。当然，宣传归宣传，我们的工作还是存在其局限性。虽然我们考虑到了无标签数据的不平衡性，但是对于半监督（或是自监督）的算法本身，并没有整合不平衡学习的策略，而是直接使用了vanilla的算法。其次，如我们标题所带词语“improving”所示，我们能提升现有的最优算法，但长尾问题本身仍未完全解决，甚至还有很大的提升空间。参考文献：[1]Yin Cui, Menglin Jia, Tsung-Yi Lin, Yang Song, and Serge Belongie. Class-balanced loss based on effective number of samples. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 9268–9277, 2019.[2]Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. Focal loss for dense object detection. In ICCV, pages 2980–2988, 2017.[3]Samira Pouyanfar, et al. Dynamic sampling in convolutional neural networks for imbalanced data classification.[4]Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss. NeurIPS, 2019.[5]BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition. CVPR, 2020.[6]Decoupling representation and classifier for long-tailed recognition. ICLR, 2020.[7]iNatrualist 2018 competition dataset. https://github.com/visipedia/inat_comp/tree/master/2018[8]He, H. and Garcia, E. A. Learning from imbalanced data. TKDE, 2008.[9]Chawla, N. V., et al. SMOTE: synthetic minority oversampling technique. JAIR, 2002.[10]mixup: Beyond Empirical Risk Minimization. ICLR 2018.[11]H. Chou et al. Remix: Rebalanced Mixup. 2020.[12]Deep Imbalanced Learning for Face Recognition and Attribute Prediction. TPAMI, 2019.[13]Large-scale long-tailed recognition in an open world. CVPR, 2019.[14]Feature transfer learning for face recognition with under-represented data. CVPR, 2019.[15]Range Loss for Deep Face Recognition with Long-Tail. CVPR, 2017.[16]Learning Deep Representation for Imbalanced Classification. CVPR, 2016.[17]Meta-Weight-Net: Learning an Explicit Mapping For Sample Weighting. NeurIPS, 2019.[18]Rethinking Class-Balanced Methods for Long-Tailed Recognition from a Domain Adaptation Perspective. CVPR, 2020.[19]Spyros Gidaris, Praveer Singh, and Nikos Komodakis. Unsupervised representation learning by predicting image rotations. arXiv preprint arXiv:1803.07728, 2018.[20]Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised visual representation learning. arXiv preprint arXiv:1911.05722, 2019.