研究|人类和机器感知比较中常见的三大陷阱,你中了几条?( 二 )
有趣的是,我们发现,即使提供给这个模型的图块小于闭合轮廓,DNN 仍然表现良好。这一发现表明,要让模型检测出我们所使用的这一组图像刺激中是否含有闭合轮廓,整体信息并不是必须的。下图展示了模型可能使用的局部特性:某些线的长度为正确的分类任务提供了线索。
一个只能访问局部区域的模型(BagNet)显示,图形的整体特性对于模型完成我们的任务来说,并不是必需的。相反,局部区域几乎已经可以为正确的分类任务提供足够的证据。更具体地说,一条短线和一个开放的尾端为模型将图形判断为开放轮廓提供了证据。
作为人类,我们常常执着于弄清一个特定的任务是如何被解决的。在这个案例中,我们认为只有通过轮廓整合才能解决闭合轮廓识别这一问题,然而结果证明这个假设是错的。
相反,更简单的解决方案是从人类的角度基于局部特征进行识别,这是难以预料得到的。
在比较人脑和机器模型时,这一点需要谨记于心——DNNs能够找到与我们期望它们使用的方法完全不同的解决方案。为了避免我们仓促得出有人为偏见的结论,彻底检查整个模型,包括其决策过程和数据集,是非常重要的。
陷阱2:很难得出超出测试架构和训练过程的一般性结论
下图显示了合成视觉推理测试(SVRT)的两个示例(Fleuret等人 2011年的工作《Comparing machines and humans on a visual categorization test》)。
你能解决下面的问题吗?
文章图片
SVRT数据集的23个问题中,每一个问题都可以相应地分配到两个任务类别的其中之一。第一类称为“相同-不同任务”,需要模型判断形状是否相同。第二类称为“空间任务”,需要根据形状在空间上的排列方式做出判断,例如,根据一个形状是否位于另一个形状的中心做出判断。
人类通常非常擅长解决SVRT问题,只需要几个示例图像就可以学习潜在的规则,然后就能正确地对新图像进行分类。
曾有两个研究小组用SVRT数据集测试了深度神经网络。他们发现这两个任务类别的测试结果存在很大差异:他们的模型在空间任务上表现良好,但在“相同-不同任务”上却表现不佳。Kim等人在2018年提出,可能是人类大脑中像周期性连接这样的反馈机制,对于完成相同-不同任务来说至关重要。
这些结果已经被引证为更广泛的说法——DNNs不能很好地完成“相同-不同任务”。而下面我们将要提到的实验,将证明事实并非如此。
Kim等人使用的DNNs只包括2-6层,但通常用于对象分类任务的DNNs相比之下要大得多。我们想知道标准的DNNs是否也会出现类似的结果。为此,我们使用ResNet-50进行了同样的实验。
有趣的是,我们发现ResNet-50完成的所有任务(包括相同-不同任务)的准确率均达到90%以上,即使与Kim等人使用的100万张图像相比,我们只使用了28000张训练图像。这表明前馈神经网络确实可以在“相同-不同任务”上达到较高的精度。
文章图片
Kim等人的研究结果表明,只包含2-6层的DNNs可以很容易地解决空间任务,但是对“相同-不同任务”表现不佳。我们找到了一个模型(ResNet-50),它对两种类型的任务都能达到很高的准确率。这一发现表明,相同-不同任务对前馈模型没有固有的限制。
在第二个实验中,我们只使用了1000个训练样本。在这个场景中,我们发现对于大多数空间任务,模型仍然可以达到较高的准确度,而对于相同-不同任务,准确度会下降。这是否意味着相同-不同任务更加困难?我们认为,低数据模式并不适合用于决定任务的难度。学习速度很大程度上取决于系统的初始条件。与我们的DNNs不同,人类是从终身学习中获益。换言之,如果从零开始训练人类视觉系统完成这两类任务,则人类视觉系统也很可能会在样本效率上表现出与ResNet-50相似的差异。
那么我们从这个案例研究中学到了什么可以用于比较人类视觉和机器视觉呢?
首先,做出任何关于DNNs不能很好地执行某个特定任务的结论,我们都必须要谨慎。训练DNNs是一个复杂的任务,而且它们的性能很大程度上取决于经过测试的体系结构和训练过程的各个方面。其次,明白DNNs和人类有不同的初始条件这一点也很重要。因此,当我们从使用很少的训练数据的环境中得出结论时,尤其需要小心谨慎。
总而言之,在得出超出测试架构和训练过程的一般性结论时,我们必须保持谨慎。
陷进3:在比较人和机器时,实验条件应该是完全相同的。
请看下面左边这张图。很明显你可以看到一副眼镜,现在如果稍微裁剪一下照片,我们仍然可以清晰地看到是一副眼镜。继续裁剪几次,我们仍然能够识别出这是一副眼镜。
然而,从某个时刻开始,情况就发生了变化:我们不能再识别出这是副眼镜了。
从可以识别出物体的裁剪过渡到无法识别出物体的裁剪,其中有趣的一点是它的清晰度的变化:略大的裁剪(我们称之为“最小可识别裁剪”)能够被大多数人正确分类(例如90%),而略小的裁剪(最大不可识别裁剪)只有少数几个人(例如20%)能正确地分类。这个识别度的降低被称为“可识别差”(可参考Ullman 等人 2016年的工作)。它的计算方法是从正确分类“最小可识别裁剪物”的人的比例中减去正确分类“最大不可识别裁剪物”的人的比例。在下面的图中,可识别差为:0.9 - 0.2 = 0.7。
推荐阅读
- 进行|“互联网时代+”背景下品牌童装折扣店的发展对策研究
- |《我的女友是机器人》首曝花絮,辛芷蕾包贝尔搞怪
- 林志颖|当明星都嫌来钱慢?林志颖研究自己,张庭夫妇卖面膜
- 疯狂抹黑!两名中国籍高校研究人员在美被捕,美司法部宣称其“破坏证据”“窃取机密”
- 机器人|AI训练师让机器人更聪明
- 澳大利亚战略政策研究所:臭名昭著的“牵线木偶”!
- 起底澳大利亚战略政策研究所:臭名昭著的“牵线木偶”!
- 「新浪科技」详解马斯克Neuralink外科手术机器人新浪科技2020-08-29 08:30:180阅
- IT|研究发现无神论者在睡眠质量方面胜过宗教教徒
- 论文|中科大学术委员会回应“情侣送礼研究”博士论文:不评价好坏
