新智元长尾问题太严重?半监督和自监督就可以有效缓解!
本文插图
【新智元导读】论文研究了一个经典而又非常实际的问题:数据类别不平衡下的分类问题 。 通过理论推导和大量实验发现 , 半监督和自监督均能显著提升不平衡数据下的学习表现 。 目前论文已被NeurIPS2020接收 , 代码已开源 。 来给大家介绍一篇最新的工作 , 目前已被NeurIPS 2020接收:Rethinking the Value of Labels for Improving Class-Imbalanced Learning 。 这项工作主要研究一个经典而又非常实际且常见的问题:数据类别不平衡(也泛称数据长尾分布)下的分类问题 。 我们通过理论推导和大量实验发现 , 半监督和自监督均能显著提升不平衡数据下的学习表现 。 目前代码(以及相应数据 , 30多个预训练好的模型)已开源 , Github链接如下:那么开篇首先用一句话概括本文的主要贡献:我们分别从理论和实验上验证了 , 对于类别不均衡的学习问题 , 利用:
- 【新智元长尾问题太严重?半监督和自监督就可以有效缓解!】半监督学习 --- 也即利用更多的无标签数据;
- 自监督学习 --- 不利用任何其他数据 , 仅通过在现有的不平衡数据上先做一步不带标签信息的自监督预训练(self-supervised pre-training)
数据不平衡问题在现实世界中非常普遍 。 对于真实数据 , 不同类别的数据量一般不会是理想的uniform分布 , 而往往会是不平衡的;如果按照不同类别数据出现的频率从高到低排序 , 就会发现数据分布出现一个“长尾巴” , 也即我们所称的长尾效应 。 大型数据集经常表现出这样的长尾标签分布:
本文插图
不同数据集的标签呈长尾分布 。 图片来源:https://liuziwei7.github.io/projects/LongTail.html当然 , 不仅仅是对于分类任务 , 其他任务比如object detection或instance segmentation , 常用数据集也存在类别的不均衡 。 此外 , 除了视觉领域中的数据 , 对于涉及安全或健康的关键应用 , 例如自动驾驶和医疗/疾病诊断 , 数据本质上也是严重失衡的 。 为什么会存在不平衡的现象?其实很好理解 , 一个通用的解释就是特定类别的数据是很难收集的 。 拿Species分类来说(参考大型数据集iNaturalist[7]) , 特定种类(如猫 , 狗等)非常常见 , 但是有的种类(如高山兀鹫 , 随便举的例子...)就非常稀有 。 再比如对自动驾驶 , 正常行驶的数据会占大多数 , 而真正发生异常情况/存在车祸危险的数据却极少 。 再比如对医疗诊断 , 患有特定疾病的人群数相比正常人群也是极度不平衡的 。 对于healthcare data来说另一个可能原因是和privacy issue有关 , 特定病人可能都很难采集数据 。 那么 , 不平衡或长尾数据会有什么问题?简单来说 , 如果直接把类别不平衡的样本丢给模型用ERM学习 , 显然模型会在major classes的样本上的学习效果更好 , 而在minor classes上泛化效果差 , 因为其看到的major classes的样本远远多于minor classes 。 那么 , 对于不平衡学习问题有哪些解决方法?我自己总结的目前主流方法大致分为以下几种:
推荐阅读
- iPhone|困扰苹果多年!iPhone 13拍照鬼影问题OPPO Find X5给解决了
- 豆瓣|豆瓣回应截图添加盲水印问题:系防搬运功能、可关闭
- 三星|白瞎AMD GPU 性能不如骁龙8:三星将调查Exynos 2200拉跨问题
- Edge浏览器|Win11新版本出现问题!Edge浏览器无法启动
- AMD|卡顿、死机等bug频出 AMD回应Win11下TPM问题:正在调查
- 屏幕|iPhone 13又翻车!遭遇“粉屏门” 苹果客服回应:非硬件问题
- 苹果|大量网友投诉iPhone13粉屏问题 还伴随卡顿/闪退/重启等:苹果收到反馈
- 苹果|大量网友投诉iPhone13粉屏问题!用户称iPhone 12也有 与相册程序有关
- 苹果|iPhone 13“粉屏”问题遭大量网友投诉:几乎全系都有
- PC游戏|T2老板认为《GTA三部曲》的缺点只是小问题 游戏还是成功的
