中国骄傲!出身清华,斯坦福博士毕业,她的毕业论文让美国疯狂!( 三 )

第二部分将探讨如何基于神经阅读理解的当前成果构建实际应用 。 我们开拓了两个研究方向:1)我们如何将信息检索技术与神经阅读理解相结合 , 来解决大型开放域问答问题;2)我们如何从当前基于跨距的(span-based)单轮(single-turn)阅读理解模型构建对话问答系统 。 我们在 DRQA 和 COQA 项目中实现了这些想法 , 证明了这些方法的有效性 。 我们相信 , 这些技术对于未来的语言技术将非常有帮助 。

动机

让机器学会理解人类语言文本是人工智能领域最难的长期挑战之一 。 在开始做这件事之前 , 我们必须要知道理解人类语言意味着什么?图 1.1 展示了 MCTEST 数据集(Richardson et al., 2013)中的一个儿童故事 , 只有简单的词汇和语法 。 为了处理这样一段文字 , NLP 社区花费了数十年的精力来解决各种不同的文本理解任务 , 包括:

a)词性标注 。 它要求机器理解这些东西:如在第一个句子「Alyssa got to the beach after a long trip」中 , Alyssa 是专有名词 , beach 和 trip 是普通名词 , got 是动词的过去式 , long 是形容词 , after 是介词 。

b)命名实体识别 。 机器要能够理解 Alyssa、Ellen、Kristen 是人名 , Charlotte、Atlanta、Miami 是地名 。

c)句法分析 。 为了理解每句话的含义 , 机器需要理解单词之间的关系 , 或句法(语法)结构 。 还是以第一句话为例 , 机器要能够理解 Alyssa 是主语 , beach 是动词 got 的宾语 , 而 after a long trip 是介词短语 , 描述了和动词的时间关系 。

d)共指消解(coreference resolution)此外 , 机器甚至还要理解句子之间的相互作用 。 例如 , 句子「She's now in Miami」中的 she 指的是第一句话中提到的 Alyssa , 而第六行中的「The girls」指的是前面提到的 Alyssa、Ellen、Kristen 和 Rachel 。


推荐阅读