中国骄傲!出身清华,斯坦福博士毕业,她的毕业论文让美国疯狂!( 五 )

阅读理解领域历史悠久 。 早在 20 世纪 70 年代 , 研究人员就已经认识到它是测试计算机程序语言理解能力的重要方法 (Lehnert, 1977) 。 但是 , 它却被忽视了数十年 , 直到最近才获得了大量关注并取得了快速的进展(如图 2.1 所示) , 包括我们将在本文详述的工作 。 阅读理解近期取得的成功可以归功于两方面:

从(文章、问题、答案)三个方面创建的大规模监督数据集;神经阅读理解模型的发展 。

中国骄傲!出身清华,斯坦福博士毕业,她的毕业论文让美国疯狂!

图 1.2:谷歌上的搜索结果 。 它不仅返回了搜索文档列表 , 还给出了文档中更精确的答案 。

本文涵盖了当代神经阅读理解的本质:问题的形式 , 这些系统的组成部分和关键成分 , 以及对当前神经阅读理解系统优势和弊端的理解 。

本文的第二个中心主题是 , 我们坚信 , 如果可以构建高性能的阅读理解系统 , 那这些系统将是建立诸如问答和对话系统等应用的关键技术 。 事实上 , 这些语言技术已经与我们的日常生活息息相关了 。 例如 , 我们在谷歌上搜索「有多少人在斯坦福大学工作?」

(图 1.2) , 谷歌将不仅返回文档列表 , 还会阅读这些网页文档并突出显示最可靠的答案 , 并将它们展示在搜索结果的顶部 。 这正是阅读理解可以帮助我们的地方 , 使搜索引擎变得更加智能 。 而且 , 随着数字个人助理(如 Alexa、Siri、谷歌助手或者 Cortana)的发展 , 越来越多的用户通过对话和询问信息问题来使用这些设备 。 我们相信 , 构建能够阅读和理解文本的机器也将大大提升这些个人助理的能力 。

因此 , 如何根据神经阅读理解近期取得的成功来创建实际应用程序也是我们感兴趣的一方面 。 我们探索了两个将神经阅读理解作为关键组成部分的研究方向:


推荐阅读