中年|MIT发现:ImageNet数据集存在系统性缺陷，用作基准数据集时与真实值不一致( 二 ) |mit|系统性|

但是该团队警告说，他们的方法并不是对&ldquo绝对基础事实&rdquo的完美匹配，因为他们也使用了非专业的数据标签。他们得出的结论是，对于不是专家的人来说，在某些情况下很难准确地标注图片。比如，除非你是犬类专家，否则从24种梗类犬选择一种标签可能是很困难的。

该小组的论文在5月底首次发表后，于上个月在ICML上被接受发表。这篇论文在会议上发表之前，麻省理工学院决定从互联网上删除8000万张微型图像数据集，并要求拥有该数据集副本的研究人员删除它们。
这些措施是在研究人员提请注意数据集中的攻击性标签，比如N开头的词，以及性别歧视的术语和其他贬损标签后采取的。研究人员在审查了2006年发布的8000万小图像数据集后得出结论，这些标签是WordNet层次结构的结果。
ImageNet也使用WordNet的层次结构。在ACM FaccT会议上发表的一篇论文中， ImageNet创造者表示，他们计划删除数据集Person子树中几乎所有的约2800个类别。他们还提到了其他数据集的问题，如缺乏形象的多样性。
除了用于训练和基准测试模型的大规模图像数据集之外，大规模文本数据集的缺陷是7月初计算语言学协会(ACL)会议的一个关键主题。
翻译/前瞻经济学人APP资讯组
原文来源:https://venturebeat.com/2020/07/15/mit-researchers-find-systematic-shortcomings-in-imagenet-data-set/

中年|MIT发现:ImageNet数据集存在系统性缺陷，用作基准数据集时与真实值不一致( 二 )

推荐阅读

工人日报|地震预警，5秒真的太短吗

多多爱追剧|自律才能阻止油腻！，38岁韩寒消失43天后大变身：人到中年

『智能手机』许多人曾经用过的功能，可能真的要跟我们说再见了

百度|估值130亿！百度昆仑成立独立芯片公司欧阳剑任CEO

[孙莉]24岁的黄磊为何一眼看中18岁的孙莉，看看孙莉青涩照，难怪黄磊下手这么快！

二次元木之本樱|三个人谁最强？实战与剧情结果不同第一，游戏打败过十代第二，游星承认游戏更强第三，幻神卡加持，游戏王：游戏、十代和游星

宠物|你床底下的落灰宠物小精灵卡现在可能值套房

【汽车资讯|【事故首发】5月27日04:35G22青兰高速谗柳段事故处置进展】

金国是现在的哪里

星座人缘@桃花经久不衰，年纪越大越有女人味！，最让男人关注的3个生肖女

|视窗｜江西南昌：网络安全高手过招

【微信】微信这个设置再不关闭，隐私可能就暴露了，别不当回事，快学学

尼安德特人：尼安德特人的复仇：和现代人祖先春风几度，给我们留下无尽祸根

现在开淘宝店前景怎么样淘宝运营赚钱吗

逗得掉渣渣女神给我发了一张扮鬼脸的照片，是什么意思？，搞笑gif段子：

男性|男性各年龄段必做的体检项目，这篇文章全说清楚了

电竞撸圈老司机|CSGO一哥直播炫耀5万的游戏匕首？老婆听到后瞬间炸了

主席|超预期就业数据难掩美国经济衰退困境

穿搭|15年前的宋慧乔，干练造型，乳白色针织衫温柔成邻家妹妹

勒布朗·詹姆斯：30队经理投票，现役最强5人组！自05年，詹姆斯首次落选