中年|MIT发现:ImageNet数据集存在系统性缺陷,用作基准数据集时与真实值不一致( 二 )
但是该团队警告说 , 他们的方法并不是对&ldquo绝对基础事实&rdquo的完美匹配 , 因为他们也使用了非专业的数据标签 。 他们得出的结论是 , 对于不是专家的人来说 , 在某些情况下很难准确地标注图片 。 比如 , 除非你是犬类专家 , 否则从24种梗类犬选择一种标签可能是很困难的 。
该小组的论文在5月底首次发表后 , 于上个月在ICML上被接受发表 。 这篇论文在会议上发表之前 , 麻省理工学院决定从互联网上删除8000万张微型图像数据集 , 并要求拥有该数据集副本的研究人员删除它们 。
这些措施是在研究人员提请注意数据集中的攻击性标签 , 比如N开头的词 , 以及性别歧视的术语和其他贬损标签后采取的 。 研究人员在审查了2006年发布的8000万小图像数据集后得出结论 , 这些标签是WordNet层次结构的结果 。
ImageNet也使用WordNet的层次结构 。 在ACM FaccT会议上发表的一篇论文中 , ImageNet创造者表示 , 他们计划删除数据集Person子树中几乎所有的约2800个类别 。 他们还提到了其他数据集的问题 , 如缺乏形象的多样性 。
除了用于训练和基准测试模型的大规模图像数据集之外 , 大规模文本数据集的缺陷是7月初计算语言学协会(ACL)会议的一个关键主题 。
翻译/前瞻经济学人APP资讯组
原文来源:https://venturebeat.com/2020/07/15/mit-researchers-find-systematic-shortcomings-in-imagenet-data-set/
推荐阅读
- 星系|天文学家发现巨大星系的古代宝藏
- 唐彬森|元气森林唐彬森:苦了10年我发现,发大财首先要会选
- 科学|世界本来没有颜色?科学家发现大脑中的“调色板”机制
- 中年|北斗“一张网”可实现全天候、高精度、自主可控服务
- 中年|Python编程语言有什么独特的优势呢?
- 中年|谈一谈我的十年机械工作经历
- 中年|弹无虚发的背后,国产弹药质量把关人,精密机床都要自叹不如
- 中年|宿迁深圳招商再结硕果,签约项目19个,协议总投资158亿元
- 中年|苹果:已终止Epic Games开发者账号
- 中年|圆满的结局!苹果微信之间不用再二选一,美国政府还是做出让步
