中年|MIT发现:ImageNet数据集存在系统性缺陷,用作基准数据集时与真实值不一致


麻省理工学院(MIT)的研究人员近日得出结论称 , 著名的ImageNet数据集其实存在&ldquo系统性注释问题&rdquo(systematic annotation issues):当用作基准数据集时 , 它与真实值或直接观测值不一致 。
【中年|MIT发现:ImageNet数据集存在系统性缺陷,用作基准数据集时与真实值不一致】中年|MIT发现:ImageNet数据集存在系统性缺陷,用作基准数据集时与真实值不一致
本文插图

研究人员在题为&ldquoFrom ImageNet to Image Classification: Contextualizing Progress on Benchmarks&rdquo的论文中写道:&ldquo我们的分析精确地指出&mdash&mdash嘈杂的数据收集管道 , 是如何导致基准结果和它所代表的现实世界任务之间的系统性偏差的 。 &rdquo&ldquo我们相信 , 开发能够在保持可扩展性的同时更好地捕捉底层真相的注释管道 , 是未来研究的重要途径 。 &rdquo
2009年 , 当斯坦福大学视觉实验室(Stanford University Vision Lab)在计算机视觉和模式识别(CVPR)会议上介绍ImageNet时 , 它比许多以前存在的图像数据集要大得多 。 ImageNet的数据集包含了数百万张照片 , 是在两年多的时间里收集到的 。
ImageNet将WordNet层次结构用于数据标签 , 并被广泛用作对象识别模型的基准 。 直到2017年 , ImageNet的年度竞赛还在推进计算机视觉领域发挥着作用 。

但在仔细检查ImageNet的&ldquo基准任务错位&rdquo(benchmark task misalignment)后 , MIT团队发现ImageNet大约20%的照片包含多个物体 。 他们对多目标识别模型的分析显示 , 在一张照片中有多个目标会导致总体准确率下降10% 。 作者说 , 这些问题的核心是用于创建像ImageNet这样的大规模图像数据集的数据收集管道 。
&ldquo总的来说 , 这个(注释)管道表明 , 单个ImageNet标签可能并不总是足以捕获ImageNet图像内容 。 然而 , 当我们训练和评估时 , 我们把这些标签当作基本事实 。 &rdquo报告合著者、麻省理工学院博士候选人Shibani Santurkar在一个关于机器学习(ICML)的国际会议上介绍这项工作时说 。 &ldquo因此 , 这可能导致ImageNet基准测试和现实世界物体识别任务之间的不一致 , 无论是在我们鼓励我们的模型去做的特征方面 , 还是在我们如何评估它们的性能方面 。 &rdquo
根据研究人员的说法 , 一个理想的大规模图像数据集的方法是收集世界上单个物体的图像 , 并让专家在精确的类别中标记它们 , 但这并不便宜 , 而且也不容易进行扩展 。 相反 , ImageNet从搜索引擎和像Flickr这样的网站上收集图片 。 它会从互联网搜索引擎中抓取的图片 , 然后由亚马逊的Amazon Mechanical Turk等外包平台对从互联网搜索引擎收集来的图片进行分类标注 。

研究人员指出 , Amazon Mechanical Turk给ImageNet照片贴标签时 , 被引导聚焦于单一物体 , 而忽略其他物体或遮挡物 。 研究人员说 , 其他大规模图像数据集也遵循类似的&mdash&mdash但可能存在问题的&mdash&mdash管道 。
为了评估ImageNet , 研究人员创建了一个管道 , 要求人类数据标签人员从多个标签中选择一个 , 并选择与照片最相关的标签 。 然后 , 最频繁选择的标签被用于训练模型 , 以确定研究人员所说的&ldquo绝对基础事实&rdquo(absolute ground truth) 。
&ldquo我们利用的关键思想是利用模型预测实际增加ImageNet标签 。 具体来说 , 我们采用了广泛的模型 , 并将它们的前五种预测综合起来 , 从而得到一组候选标签 , &rdquoSanturkar说 。 &ldquo然后我们使用人工注释者来确定这些标签的有效性 , 但不是问他们单个标签是否有效 , 我们独立地对多个标签重复这个过程 。 这让我们能够确定与一张图片相关的一组标签 。 &rdquo


推荐阅读