中国骄傲！出身清华，斯坦福博士毕业，她的毕业论文让美国疯狂！( 三 ) 本文来源：本

第二部分将探讨如何基于神经阅读理解的当前成果构建实际应用。我们开拓了两个研究方向：1）我们如何将信息检索技术与神经阅读理解相结合，来解决大型开放域问答问题；2）我们如何从当前基于跨距的（span-based）单轮（single-turn）阅读理解模型构建对话问答系统。我们在 DRQA 和 COQA 项目中实现了这些想法，证明了这些方法的有效性。我们相信，这些技术对于未来的语言技术将非常有帮助。

动机

让机器学会理解人类语言文本是人工智能领域最难的长期挑战之一。在开始做这件事之前，我们必须要知道理解人类语言意味着什么？图 1.1 展示了 MCTEST 数据集（Richardson et al., 2013）中的一个儿童故事，只有简单的词汇和语法。为了处理这样一段文字， NLP 社区花费了数十年的精力来解决各种不同的文本理解任务，包括：

a）词性标注。它要求机器理解这些东西：如在第一个句子「Alyssa got to the beach after a long trip」中， Alyssa 是专有名词， beach 和 trip 是普通名词， got 是动词的过去式， long 是形容词， after 是介词。

b）命名实体识别。机器要能够理解 Alyssa、Ellen、Kristen 是人名， Charlotte、Atlanta、Miami 是地名。

c）句法分析。为了理解每句话的含义，机器需要理解单词之间的关系，或句法（语法）结构。还是以第一句话为例，机器要能够理解 Alyssa 是主语， beach 是动词 got 的宾语，而 after a long trip 是介词短语，描述了和动词的时间关系。

d）共指消解（coreference resolution）此外，机器甚至还要理解句子之间的相互作用。例如，句子「She's now in Miami」中的 she 指的是第一句话中提到的 Alyssa ，而第六行中的「The girls」指的是前面提到的 Alyssa、Ellen、Kristen 和 Rachel 。