新智元长尾问题太严重?半监督和自监督就可以有效缓解!( 四 )


本文插图
最后展示一下定性的实验结果 。 我们分别画出了不使用/使用无标签数据 , 在训练集和测试集上的t-SNE可视化图 。 从图中可以直观看出 , 使用未标记数据有助于建模更清晰的类边界 , 并促成更好的类间分离 , 尤其是对于尾类的样本 。 这样的结果也符合我们的直观理解 , 对于尾类样本 , 其所处区域的数据密度低 , 模型在学习过程中不能对这些low-density区域很好建模边界 , 从而造成模糊性(ambiguity)导致较差的泛化;而无标记数据则能有效提高低密度区域样本量 , 加上了更强的regularization使得模型重新更好地建模边界 。


新智元长尾问题太严重?半监督和自监督就可以有效缓解!
本文插图
关于半监督不均衡学习的进一步思考
虽然通过半监督学习 , 模型在不平衡数据上的表现能够得到显著的提升 , 但是半监督学习本身也存在一些实际应用的问题 , 而这些问题在不平衡学习中可能会被进一步放大 。 接下来我们通过设计相应实验来系统地阐述和分析这些情况 , 并motivate接下来对于不平衡标签“负面价值”的思考和研究 。 首先 , 无标签数据与原始数据的相关性对于半监督学习的结果有很大的影响 。 举个栗子 , 对于CIFAR-10(10类分类)来说 , 获得的无标签数据可能并不属于原本10类中的任何一类(比如高山兀鹫...) , 这时多余的信息则可能对训练和结果造成不小影响 。 为了验证这一观点 , 我们固定无标签数据和原始训练数据有相同的不平衡比率 , 但是通过改变无标签数据和原始训练数据的相关性去构造不同的无标签数据集 。 从Figure 2中我们可以看出 , 无标签数据的相关性需要达到将近60%以上才能过对不平衡学习有正面的帮助 。 既然原始训练数据是不平衡的 , 能够采集到的无标签数据也大概率是极度不平衡的 。 譬如医疗数据中 , 你构建了自动诊断某类疾病的数据集 , 其中正例(患病)很少 , 只占总体1% , 但因为此病得病率就在1%左右 , 即使大量搜集无标签数据 , 其中真正患病数据大概率还是很少 。 那么 , 在同时考虑相关性的前提下 , 如Figure 3所示 , 我们首先让无标签数据集有足够的相关性(60%) , 但改变无标签数据的不平衡比率 。 这个实验中 , 我们固定原始训练数据的不平衡比率为50 。 可以看到对于无标签数据 , 当无标签数据过于不平衡(本例中不平衡比率高于50)时 , 利用无标签数据反而可能让结果变得更差 。

新智元长尾问题太严重?半监督和自监督就可以有效缓解!
本文插图
上述问题在某些特定的实际不平衡学习任务中 , 可能是非常普遍的 。 比如医疗/疾病诊断的应用 , 对于可能获得的无标记数据 , 其绝大多数大概率也都是从正常样本上采集的 , 这首先造成了数据的不平衡;其次 , 即使是患病的样本 , 也很可能由很多其他混杂因素(confounding factors)导致 , 而这会降低与本身研究病症的相关性 。 因此 , 在一些很难利用半监督学习的极端情况下 , 我们需要完全不同的但是也行之有效的方法 。 非常自然的 , 我们接下来从不平衡标签负面价值的角度去入手 , 阐述另一思路 --- 自监督学习带来的好处 。 自监督框架下的不均衡学习
同样地 , 我们首先通过一个简单的理论模型分析来直观理解自监督对不平衡学习所带来的影响(同样也可以直接跳到解释部分) , 之后展示有意思的实验结果 , 以及总结思考 。 理论分析:我们同样考虑一个维Guassian mixture的toy example 。 这次我们考虑两个类有相同的均值(都为0)但是不同的方差 ,和。 其中 , 我们假设负类是主要的类(mix 概率) 。 我们考虑线性的分类器,, 并且用标准的error probability ,, 作为分类器的衡量标准 。 在正常的训练中 , 公式里的feature代表的是raw data ,。 在这种情况下 , 我们可以首先证明上述的线性分类器一定会有至少的error probability 。 接下来我们考虑当有self-supervision的情况 。 假设一个好的self-supervised task帮助我们学习到了新的representation ,,。 我们考虑用作为线性分类器的输入 。 在上述的分类器范围内 ,我们可以得到一个分类器 ,,, 满足下面的定理:


推荐阅读