新智元长尾问题太严重?半监督和自监督就可以有效缓解!( 四 )
本文插图
最后展示一下定性的实验结果 。 我们分别画出了不使用/使用无标签数据 , 在训练集和测试集上的t-SNE可视化图 。 从图中可以直观看出 , 使用未标记数据有助于建模更清晰的类边界 , 并促成更好的类间分离 , 尤其是对于尾类的样本 。 这样的结果也符合我们的直观理解 , 对于尾类样本 , 其所处区域的数据密度低 , 模型在学习过程中不能对这些low-density区域很好建模边界 , 从而造成模糊性(ambiguity)导致较差的泛化;而无标记数据则能有效提高低密度区域样本量 , 加上了更强的regularization使得模型重新更好地建模边界 。
本文插图
虽然通过半监督学习 , 模型在不平衡数据上的表现能够得到显著的提升 , 但是半监督学习本身也存在一些实际应用的问题 , 而这些问题在不平衡学习中可能会被进一步放大 。 接下来我们通过设计相应实验来系统地阐述和分析这些情况 , 并motivate接下来对于不平衡标签“负面价值”的思考和研究 。 首先 , 无标签数据与原始数据的相关性对于半监督学习的结果有很大的影响 。 举个栗子 , 对于CIFAR-10(10类分类)来说 , 获得的无标签数据可能并不属于原本10类中的任何一类(比如高山兀鹫...) , 这时多余的信息则可能对训练和结果造成不小影响 。 为了验证这一观点 , 我们固定无标签数据和原始训练数据有相同的不平衡比率 , 但是通过改变无标签数据和原始训练数据的相关性去构造不同的无标签数据集 。 从Figure 2中我们可以看出 , 无标签数据的相关性需要达到将近60%以上才能过对不平衡学习有正面的帮助 。 既然原始训练数据是不平衡的 , 能够采集到的无标签数据也大概率是极度不平衡的 。 譬如医疗数据中 , 你构建了自动诊断某类疾病的数据集 , 其中正例(患病)很少 , 只占总体1% , 但因为此病得病率就在1%左右 , 即使大量搜集无标签数据 , 其中真正患病数据大概率还是很少 。 那么 , 在同时考虑相关性的前提下 , 如Figure 3所示 , 我们首先让无标签数据集有足够的相关性(60%) , 但改变无标签数据的不平衡比率 。 这个实验中 , 我们固定原始训练数据的不平衡比率为50 。 可以看到对于无标签数据 , 当无标签数据过于不平衡(本例中不平衡比率高于50)时 , 利用无标签数据反而可能让结果变得更差 。
本文插图
同样地 , 我们首先通过一个简单的理论模型分析来直观理解自监督对不平衡学习所带来的影响(同样也可以直接跳到解释部分) , 之后展示有意思的实验结果 , 以及总结思考 。 理论分析:我们同样考虑一个维Guassian mixture的toy example 。 这次我们考虑两个类有相同的均值(都为0)但是不同的方差 ,和。 其中 , 我们假设负类是主要的类(mix 概率) 。 我们考虑线性的分类器,, 并且用标准的error probability ,, 作为分类器的衡量标准 。 在正常的训练中 , 公式里的feature代表的是raw data ,。 在这种情况下 , 我们可以首先证明上述的线性分类器一定会有至少的error probability 。 接下来我们考虑当有self-supervision的情况 。 假设一个好的self-supervised task帮助我们学习到了新的representation ,,。 我们考虑用作为线性分类器的输入 。 在上述的分类器范围内 ,我们可以得到一个分类器 ,,, 满足下面的定理:
推荐阅读
- iPhone|困扰苹果多年!iPhone 13拍照鬼影问题OPPO Find X5给解决了
- 豆瓣|豆瓣回应截图添加盲水印问题:系防搬运功能、可关闭
- 三星|白瞎AMD GPU 性能不如骁龙8:三星将调查Exynos 2200拉跨问题
- Edge浏览器|Win11新版本出现问题!Edge浏览器无法启动
- AMD|卡顿、死机等bug频出 AMD回应Win11下TPM问题:正在调查
- 屏幕|iPhone 13又翻车!遭遇“粉屏门” 苹果客服回应:非硬件问题
- 苹果|大量网友投诉iPhone13粉屏问题 还伴随卡顿/闪退/重启等:苹果收到反馈
- 苹果|大量网友投诉iPhone13粉屏问题!用户称iPhone 12也有 与相册程序有关
- 苹果|iPhone 13“粉屏”问题遭大量网友投诉:几乎全系都有
- PC游戏|T2老板认为《GTA三部曲》的缺点只是小问题 游戏还是成功的
