人工智能大会在中国的哪一个城市举办,盘点2019世界人工智能大会的意义( 三 )


现实远没有那么性感 。以上测试是为研究而设计的,不能作为阅读理解的基准 。测试中提到的每一个问题,都可以从文章中机械的回答出来 。说白了,这个测试只能判断专注能力,别的什么都不能 。至于阅读的真正挑战——推断作者在文字之外表达的意思,这些测试还远没有到边缘 。
例如,假设我们给你一张纸,上面写着下面的话:
苏菲和亚历山大出去散步 。他们都看到了一只狗和一棵树 。亚历山大也看到了一只猫,并指给苏菲看 。她跑去摸小猫 。
我们可以很容易地回答诸如“谁要去散步?”“苏菲和亚历山大”问题的答案直接在文中注明 。但真正的阅读,需要我们进一步看到文字之外的意义 。我们还应该能够回答诸如“索菲看见猫了吗”和“孩子们被猫吓着了吗”之类的问题,尽管这些问题的答案并没有直接出现在课文中 。如果你回答不了,你就无法理解接下来会发生什么 。斯坦福问答数据库不包含这类问题,新的AI系统也无法处理 。为了比较,马库斯在写这一段时,在他4岁半的女儿克洛伊身上测试了这个故事 。克洛伊很容易推断出故事中的苏菲看到了猫 。克洛伊不到6岁的弟弟就更厉害了 。然后她说如果狗其实是猫会怎么样 。这种能力是今天的AI完全无法企及的 。
电影《我,机器人》剧照 。
每次科技大鳄发布这样的新闻稿,基本都是遵循同样的套路 。和许多媒体
(幸好不是所有媒体)
都把小小的进步说成是意义重大的革命壮举 。例如,几年前,脸书启动了一个基本的概念验证项目,以评估人工智能系统阅读简单故事和回答相关问题的能力 。于是,一大堆热情的新闻标题随之而来,比如脸书声称找到了让机器人变得更聪明的秘密,可以学习和回答问题的脸书AI软件,可以阅读魔戒摘要并回答问题的软件,可以加强脸书的搜索能力,等等 。
如果是这样,确实是一个重大突破 。连能看懂《读者文摘》或者托尔金的《简明注释书》都是一大壮举,更别说原著《魔戒》本身了 。但遗憾的是,真正有能力完成这一壮举的AI,根本不在我们现在的视野中 。脸书系统读取的文本摘要实际上只有四行:比尔博返回洞穴 。咕鲁把戒指留在了那里 。比尔得到了戒指 。比尔回到了夏尔 。比尔博把戒指留在了那里 。佛罗多拿到了戒指 。佛罗多去了末日山 。佛罗多把戒指留在了那里 。索伦国王死了 。佛罗多回到了夏尔 。比尔去了灰港 。这出戏的结尾 。
但即便如此,这个AI系统能做的也只是直接回答段落中反映的基本问题,比如“魔戒在哪里”、“比尔博现在在哪里”、“佛罗多现在在哪里” 。不要问“佛罗多为什么要放下魔戒”之类的问题 。很多媒体人做技术报道的时候特别喜欢夸张 。这样做的直接后果就是让大众误以为AI成真的曙光已经遍布地球 。事实上,我们还有很长的一夜要过 。从现在开始,如果你听说了一个成功的人工智能案例,建议读者提出以下六个问题:
1.抛开华而不实的文笔,这个AI系统实际上做了什么?
2.这种成就有多普遍?
(比如说提到的阅读任务,是可以衡量阅读的方方面面,还是只能衡量其中的一小部分?)
3.有没有一个演示程序可以让我用自己的例子进行实验?如果没有,请保持怀疑 。
4.如果研究人员或者媒体说这个AI系统比人类强,那么人类这么做具体指的是哪些,强多少?
5.报道的研究成果成功完成了多少距离,实际上让我们离真正的人工智能更近了一步?
6.这个系统有多强大?如果用其他数据集,不进行大规模的再训练能成功吗?
(比如一个玩游戏 。
的机器如果掌握了下国际象棋的技能,它是否也能玩《塞尔达传说》这类动作冒险游戏?用于识别动物的系统,是否能将之前从未见过的物种准确识别为动物?经过训练能在白天出行的无人驾驶汽车系统,是否也能在夜间或雪天出行,如果路上新增了一个地图中没有的绕行标志,系统是否知道如何应对?)
机器在很多方面还是比不上人类
诚然,近年来,AI的确以日新月异的速度变得更加震撼甚至令人叹为观止 。从下棋到语音识别再到人脸识别,AI已经有了很大的进步 。我们特别欣赏的一家名为Zipline的创业公司,已经使用了一些AI技术来指导无人机为非洲的患者送血 。而像这样有价值的AI应用,在几年前是无法实现的 。
最近很多AI方面的成功案例,大多是两个因素推动的:一是硬件的进步,通过让很多机器并行工作,更大的内存和更快的运算速度成为现实;第二,大数据,包含十亿字节,一万亿字节甚至更多的庞大数据集,几年前是不存在的 。例如,ImageNet拥有1400万张标记图像,这对训练计算机视觉系统起着至关重要的作用 。


推荐阅读