中年|MIT发现:ImageNet数据集存在系统性缺陷,用作基准数据集时与真实值不一致( 二 )


但是该团队警告说 , 他们的方法并不是对&ldquo绝对基础事实&rdquo的完美匹配 , 因为他们也使用了非专业的数据标签 。 他们得出的结论是 , 对于不是专家的人来说 , 在某些情况下很难准确地标注图片 。 比如 , 除非你是犬类专家 , 否则从24种梗类犬选择一种标签可能是很困难的 。

该小组的论文在5月底首次发表后 , 于上个月在ICML上被接受发表 。 这篇论文在会议上发表之前 , 麻省理工学院决定从互联网上删除8000万张微型图像数据集 , 并要求拥有该数据集副本的研究人员删除它们 。
这些措施是在研究人员提请注意数据集中的攻击性标签 , 比如N开头的词 , 以及性别歧视的术语和其他贬损标签后采取的 。 研究人员在审查了2006年发布的8000万小图像数据集后得出结论 , 这些标签是WordNet层次结构的结果 。
ImageNet也使用WordNet的层次结构 。 在ACM FaccT会议上发表的一篇论文中 , ImageNet创造者表示 , 他们计划删除数据集Person子树中几乎所有的约2800个类别 。 他们还提到了其他数据集的问题 , 如缺乏形象的多样性 。
除了用于训练和基准测试模型的大规模图像数据集之外 , 大规模文本数据集的缺陷是7月初计算语言学协会(ACL)会议的一个关键主题 。
翻译/前瞻经济学人APP资讯组
原文来源:https://venturebeat.com/2020/07/15/mit-researchers-find-systematic-shortcomings-in-imagenet-data-set/


推荐阅读