研究|人类和机器感知比较中常见的三大陷阱，你中了几条？( 二 ) 机器|人类|陷阱|

有趣的是，我们发现，即使提供给这个模型的图块小于闭合轮廓，DNN 仍然表现良好。这一发现表明，要让模型检测出我们所使用的这一组图像刺激中是否含有闭合轮廓，整体信息并不是必须的。下图展示了模型可能使用的局部特性:某些线的长度为正确的分类任务提供了线索。
一个只能访问局部区域的模型（BagNet）显示，图形的整体特性对于模型完成我们的任务来说，并不是必需的。相反，局部区域几乎已经可以为正确的分类任务提供足够的证据。更具体地说，一条短线和一个开放的尾端为模型将图形判断为开放轮廓提供了证据。
作为人类，我们常常执着于弄清一个特定的任务是如何被解决的。在这个案例中，我们认为只有通过轮廓整合才能解决闭合轮廓识别这一问题，然而结果证明这个假设是错的。
相反，更简单的解决方案是从人类的角度基于局部特征进行识别，这是难以预料得到的。
在比较人脑和机器模型时，这一点需要谨记于心——DNNs能够找到与我们期望它们使用的方法完全不同的解决方案。为了避免我们仓促得出有人为偏见的结论，彻底检查整个模型，包括其决策过程和数据集，是非常重要的。
陷阱2：很难得出超出测试架构和训练过程的一般性结论
下图显示了合成视觉推理测试（SVRT）的两个示例（Fleuret等人 2011年的工作《Comparing machines and humans on a visual categorization test》）。
你能解决下面的问题吗？

文章图片
SVRT数据集的23个问题中，每一个问题都可以相应地分配到两个任务类别的其中之一。第一类称为“相同-不同任务”，需要模型判断形状是否相同。第二类称为“空间任务”，需要根据形状在空间上的排列方式做出判断，例如，根据一个形状是否位于另一个形状的中心做出判断。
人类通常非常擅长解决SVRT问题，只需要几个示例图像就可以学习潜在的规则，然后就能正确地对新图像进行分类。
曾有两个研究小组用SVRT数据集测试了深度神经网络。他们发现这两个任务类别的测试结果存在很大差异：他们的模型在空间任务上表现良好，但在“相同-不同任务”上却表现不佳。Kim等人在2018年提出，可能是人类大脑中像周期性连接这样的反馈机制，对于完成相同-不同任务来说至关重要。
这些结果已经被引证为更广泛的说法——DNNs不能很好地完成“相同-不同任务”。而下面我们将要提到的实验，将证明事实并非如此。
Kim等人使用的DNNs只包括2-6层，但通常用于对象分类任务的DNNs相比之下要大得多。我们想知道标准的DNNs是否也会出现类似的结果。为此，我们使用ResNet-50进行了同样的实验。
有趣的是，我们发现ResNet-50完成的所有任务(包括相同-不同任务)的准确率均达到90%以上，即使与Kim等人使用的100万张图像相比，我们只使用了28000张训练图像。这表明前馈神经网络确实可以在“相同-不同任务”上达到较高的精度。

文章图片
Kim等人的研究结果表明，只包含2-6层的DNNs可以很容易地解决空间任务，但是对“相同-不同任务”表现不佳。我们找到了一个模型(ResNet-50)，它对两种类型的任务都能达到很高的准确率。这一发现表明，相同-不同任务对前馈模型没有固有的限制。
在第二个实验中，我们只使用了1000个训练样本。在这个场景中，我们发现对于大多数空间任务，模型仍然可以达到较高的准确度，而对于相同-不同任务，准确度会下降。这是否意味着相同-不同任务更加困难？我们认为，低数据模式并不适合用于决定任务的难度。学习速度很大程度上取决于系统的初始条件。与我们的DNNs不同，人类是从终身学习中获益。换言之，如果从零开始训练人类视觉系统完成这两类任务，则人类视觉系统也很可能会在样本效率上表现出与ResNet-50相似的差异。
那么我们从这个案例研究中学到了什么可以用于比较人类视觉和机器视觉呢？
首先，做出任何关于DNNs不能很好地执行某个特定任务的结论，我们都必须要谨慎。训练DNNs是一个复杂的任务，而且它们的性能很大程度上取决于经过测试的体系结构和训练过程的各个方面。其次，明白DNNs和人类有不同的初始条件这一点也很重要。因此，当我们从使用很少的训练数据的环境中得出结论时，尤其需要小心谨慎。
总而言之，在得出超出测试架构和训练过程的一般性结论时，我们必须保持谨慎。
陷进3：在比较人和机器时，实验条件应该是完全相同的。
请看下面左边这张图。很明显你可以看到一副眼镜，现在如果稍微裁剪一下照片，我们仍然可以清晰地看到是一副眼镜。继续裁剪几次，我们仍然能够识别出这是一副眼镜。
然而，从某个时刻开始，情况就发生了变化：我们不能再识别出这是副眼镜了。
从可以识别出物体的裁剪过渡到无法识别出物体的裁剪，其中有趣的一点是它的清晰度的变化：略大的裁剪（我们称之为“最小可识别裁剪”）能够被大多数人正确分类（例如90%），而略小的裁剪(最大不可识别裁剪)只有少数几个人（例如20%）能正确地分类。这个识别度的降低被称为“可识别差”(可参考Ullman 等人 2016年的工作)。它的计算方法是从正确分类“最小可识别裁剪物”的人的比例中减去正确分类“最大不可识别裁剪物”的人的比例。在下面的图中，可识别差为：0.9 - 0.2 = 0.7。

研究|人类和机器感知比较中常见的三大陷阱，你中了几条？( 二 )

推荐阅读

时尚情|被44岁曾黎惊艳到了！一身印花裙大气又明艳，美貌不输年轻小花

财料：带富一座城，还帮李宁打造了“李宁”，却被判15年，他救活一家厂

河南发布电子社保卡买药就诊更方便

文艺圈|范冰冰全面复工拍电影？受访称正在做剧本，将有一个新电影要开机

黛青儿|穿绿色礼裙大气优雅，由内而外散发知性气质，170李思思太出众

西昌|叫嚣着要承包你的胃！藏在大学城火爆了9年的这家烧烤店

五一元气福利季京东之家荣耀直播排位赛好物种草不可错过！

美签通过率，北京比沈阳高吗

全国首例电商平台诉差评师案一审宣判淘宝打赢“1元官司”

打算带一台35mm定焦的半幅微单出去旅游，请问拍照够用吗

蒜薹|美食优选：三汁焖锅，泡菜虾仁，杏鲍菇青椒炒肉片，蒜薹炒鸡蛋的做法

微商【众品券】谈谈微商社交电商的思路与玩法

漫说健康▲有的还不可逆转，为何医生说别经常用棉签掏耳朵？提醒：3个后果

如何存放姜不坏如何存放姜

b2b|海关总署推出跨境电商新规这次“网上广交会”就用得上

幽默搞笑段子集锦|不好意思拒绝啊，幽默笑话：女同事非要请俺去她家里吃饭

问董秘|对公司铝...，投资者提问：请问公司铝箔主要供应国内哪些行业和知名企业？铝价上涨

小谢爱八卦|鹿晗可爱，鬼鬼俏皮，看到杨幂：中二饶过谁？，当明星遇见“杀马特”时代

红茶喝多了醉了,青茶喝多了手脚发软

单身证明又叫未婚证明未婚证明怎么写