中国骄傲!出身清华,斯坦福博士毕业,她的毕业论文让美国疯狂!( 四 )

是否有全面的评估方法来测试所有这些方面并探索更深层次的理解呢?我们认为阅读理解任务(根据一段文字回答理解问题)就是一个合适又重要的方法 。 正如我们会用阅读理解来测试人们对一段文本的理解程度 , 我们认为它同样能够用来测试计算机系统对人类语言的理解程度 。

我们可以看看基于相同段落(图 1.1)提出的一些阅读理解问题:

a)要回答第一个问题「What city is Alyssa in?」机器要找到句子「She's now in Miami」并解决「She 指的是 Alyssa」这个共指消解问题 , 最后再给出正确答案「Miami」 。

b)对于第二个问题「What did Alyssa eat at the restaurant?」 , 机器首先要找到句子:「The restaurant had a special on catfish.」和「Alyssa enjoyed the restaurant's special.」 , 然后理解第二个句子中 Alyssa 吃的 special 就是第一个句子中的 special 。 而第一个句子中 special 提到的是 catfish , 所以最终正确答案是 catfish 。

c)最后一个问题比较有难度 。 为了正确回答该问题 , 机器要找出该段落中提到的所有人名及其之间的关系 , 然后进行算术推理(arithmetic reasoning) , 最终给出答案「3」 。

可以看到 , 计算机系统要了解文本的各个方面才能正确回答这些问题 。 因为问题可以被设计为询问那些我们关心的方面 , 阅读理解应该是用来评估语言理解程度的最合适任务 。 这也是本文的中心主题 。

在本文中 , 我们研究了这样一个阅读理解问题:我们该如何构建计算机系统来阅读文章并回答这些理解问题?尤其是 , 我们重点关注神经阅读理解——一种用深度神经网络构建的阅读理解模型 , 该模型被证明比基于特征的非神经模型更有效 。


推荐阅读