|MIT下架偏见数据集,Bengio兄弟建议多引少数群体论文:BLM运动持续( 三 )
本文插图
Tiny Images 数据集中带有 Nigger 标签的图像 。
这些图像数据是基于 WordNet 分类词库从搜索引擎自动收集的 。 WordNet 具有强大的关联性 , 会根据单词的意义将不同的词组成相应的集合 , 因而带有一定的偏向性 。 那么在搜索引擎上搜索图像时 , 获得的图片也相应地具有强烈的偏见性 。
此外 , 数据集的规模不仅非常大 , 而且这些图像的分辨率只有 32x32 像素 , 也从未存储过原始的高分辨率版本 , 以至于人们难以用肉眼识别它们的内容 。 即使人工检查也无法保证能够完全清除这些有冒犯性的图像 。
这些因素都使得 MIT 不得不删除了 Tiny Images 数据集 , 目前该数据集已经下线并且永远不会再上线 。
MIT 也对删除 Tiny Images 数据集给出了官方声明:
本文插图
在声明中 , MIT 表示已经注意到 Tiny Images 数据集包含一些侮辱性词汇以及冒犯性的图像 , 并高度关注这件事 , 同时向受到影响的人道歉 。 因此决定正式撤销 Tiny Images 数据集 。 此外 , MIT 还要求社区以后都不再使用它 , 并且删除已下载的该数据集的任何副本 。
最后 , MIT 表示:「含有偏见和冒犯性的图像以及带有侮辱性的词汇 , 会迫使社区疏远重要的组成部分——人才 , 而人才正是我们想方设法吸纳的 。 此外 , 该数据集还会导致使用它训练的 AI 系统也包含有害偏见 , 此类有偏见的图像也有损计算机视觉社区努力构建的包容文化 , 这些都与我们努力维护的价值观背道而驰 。 」
参考链接:
https://www.theregister.com/2020/07/01/mit_dataset_removed/
https://www.reddit.com/r/MachineLearning/comments/hjlsy8/d_samy_bengios_post/
【|MIT下架偏见数据集,Bengio兄弟建议多引少数群体论文:BLM运动持续】https://groups.csail.mit.edu/vision/TinyImages/
推荐阅读
- 技术编程|Mitch for Twitch Mac版(Twitch客户端工具)v1.8.1
- 青年|ICML 2020论文贡献榜排名出炉:Google单挑斯坦福、MIT、伯克利;清华进TOP 20
- AI人工智能|惨遭下架后,MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet
- 南国今报|部分“黑心”毛巾已在柳州下架
- 中年|美团饿了么等平台下架汉堡王涉事门店外卖服务
- 新智元|MIT发出“算力”警告:深度学习正在逼近计算极限
- AI财经社|遭3.15晚会央视点名批评虚假广告后,趣头条疑似被各安卓平台下架
- 头条|安卓商店普遍下架趣头条 回应称已安装用户不影响使用
- 毛巾|蓝鲸315丨京东、淘宝、拼多多已下架永亮毛巾,后者遭央视点名
- 观察者网|趣头条回应3.15晚会报道:诚挚道歉,正在彻查 安卓商店已下架
