2020世界人工智能大会开幕,超级智能时代何时到来?( 六 )

——《新闻周刊》

(Newsweek)

, 2018年1月15日

B:《计算机的阅读能力正在赶超人类》

——《CNN财富》

(CNNMoney)

, 2018年1月16日

第一个标题比第二个更加阴险 , 但两个标题都对一点点小进步进行了极大夸张 。 首先 , 此事根本没有机器人参与 , 而且研究过程中只从一个极其片面的角度对阅读能力进行了测试 , 与阅读理解的全面测试相距甚远 。 根本没有谁的工作会因此而受到威胁 。 实情是这样的:微软和阿里巴巴两家公司分别开展了“斯坦福问答数据库”

(SQuAD , the Stanford Question Answering Dataset)

项目 , 对计算机在阅读过程中一个覆盖面很窄的单一方面进行了针对性测试 。

结果显示 , 针对该特定任务的阅读能力有微小进步 , 从之前的82.136%提高到了82.65% , 也就是所谓的从之前不及人类的水平提高到了人类的水平 。 其中一家公司发布了一篇媒体新闻稿 , 将这点微不足道的成绩说成革命性的突破 , 并宣布“能阅读文件、倾听叙述并回答问题的AI”就此诞生 。

现实远远没有这么性感 。 上述测试是被设计来搞研究的 , 并不能作为阅读理解水平的评判基准 。 测试中提到的每一个问题 , 都能从文章中生搬硬套地找到答案 。 说白了 , 这个测试只能评判划重点的能力 , 别无其他 。 至于阅读的真正挑战—推断出作者在字句之外所表达的意思 , 这些测试则根本连边都沾不上 。

举例来说 , 假设我们给你一张纸 , 上面写着这样一段话:

苏菲和亚历山大两个孩子外出散步 。 他们都看到了一只狗和一棵树 。 亚历山大还看到了一只猫 , 并指给苏菲看 。 她跑去摸了摸小猫 。

我们可以轻而易举地回答诸如“谁去散步”之类的问题 , 问题的答案“苏菲和亚历山大”是直接在文中标明的 。 但真正的阅读需要我们更进一步看到字句之外的意思 。 我们还应该能回答诸如“苏菲有没有看到猫”和“孩子们有没有被猫吓到”等问题 , 虽然这些问题的答案并没有直接摆在文字之中 。 如果你回答不了 , 就没办法理解接下去会发生的事情 。 斯坦福问答数据库并不包含此类问题 , 新的AI系统也没办法应对这类问题 。 为了进行对比 , 我们在撰写此段内容时 , 马库斯将这则故事在他4岁半的女儿克洛伊身上进行了测试 。 克洛伊不费吹灰之力就推断出了故事中的苏菲看见了猫 。 克洛伊还不到6岁的哥哥更棒 , 接着说如果那只狗其实是一只猫则会如何如何 。 这种能力 , 是现如今的AI完全无法企及的 。


推荐阅读