「人工智能」一文全览,ICLR 2020 上的知识图谱研究( 三 )


5、Neural Symbolic Reader: Scalable Integration of Distributed and Symbolic Representations for Reading Comprehension
文章链接:https://openreview.net/pdf?id=ryxjnREFwH
6、Neural Module Networks for Reasoning over Text
文章链接:https://openreview.net/pdf?id=SygWvAVFPr
我们接下来谈两篇复杂数字推理的工作 。
在数字推理中 , 你需要对给定的段落执行数学运算(例如计数、排序、算术运算等)才能回答问题 。 例如:
文本:“……美洲虎队的射手乔什·斯科比成功地射入了48码的射门得分……而内特·凯丁的射手得到了23码的射门得分……”问题:“谁踢出最远的射门得分?”
目前为止 , 关于这个任务只有两个数据集 , DROP(SQuAD样式 , 段落中至少包含20个数字)和MathQA(问题较短 , 需要较长的计算链、原理和答案选项) 。 因此 , 这个任务的知识图谱并不很多 。 尽管如此 , 这仍然是一个有趣的语义解析任务 。
在ICLR 2020 上 , 有两篇这方面的工作 。 一篇是是Chen 等人的工作 , 提出了一个神经符号读取器NeRd(Neural Symbolic Reader);另一篇是Gupta等人在神经模块网络NMN(Neural Module Networks)上的工作 。
「人工智能」一文全览,ICLR 2020 上的知识图谱研究
本文插图
NeRd vs other approaches. Source: Chen et al
两项工作都是由读取器和基于RNN的解码器组成 , 从预定义的域特定语言(DSL , Domain Specific Language)生成操作(操作符) 。 从性能上相比 , NeRd更胜一筹 , 原因在于其算符的表达能力更强 , 解码器在构建组合程序上也更简单 。 另一方面 , NMN使用张量交互对每个运算符进行建模 , 于是你需要手工制定更多的自定义模块来完成具体任务 。
此外 , NeRd的作者做了许多努力 , 为弱监督训练建立了可能的程序集 , 并采用了带有阈值的Hard EM 算法来过滤掉虚假程序(能够基于错误的程序给出正确答案) 。 NeRd 在DROP测试集上获得了81.7 的F1 分数 , 以及78.3 的EM分数 。
对NMN进行评估 , 其中月有25%的DROP数据可通过其模块来回答 , 在DROP dev测试中获得了77.4 的F1 分数 和74 的EM 分数 。
二、知识图谱增强的语言模型 将知识融入语言模型 , 目前已是大势所趋 。
7、Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model
文章链接:https://openreview.net/pdf?id=BJlzm64tDH
今年的ICLR上 , Xiong等人在预测[MASK] token之外 , 提出了一个新的训练目标:需要一个模型来预测entity是否已经被置换 。
作者对预训练Wikipedia语料库进行处理 , 基于超链接 , 将Wiki的entity表面形式(标签)替换为相同类型的另一个entity 。 基于P31的「instance of」关系 , 从wikidata中获取类型信息 。 如下图所示 , 在有关Spider-Man的段落中 , 实体 Marvel Comics 可以替换为 DC Comics 。

「人工智能」一文全览,ICLR 2020 上的知识图谱研究
本文插图
Pre-training objective of WKLM. Source: Xiong et al
模型的任务是预测实体是否被替换掉了 。
WKLM(Weakly Supervised Knowledge-Pretrained Languge Model)使用MLM目标(掩蔽率为5% , 而不是BERT的15%)进行预训练 , 每个数据点使用10个负样本 , 类似于TransE的训练过程 。
作者评估了10个Wikidata关系中的WKLM事实完成性能(fact completion performance) , 发现其达到了约29 Hits@10的速率 , 而BERT-large和GPT-2约为16 。
随后 , 作者在性能优于基准的WebQuestions , TriviaQA , Quasar-T和Search-QA数据集上对WKLM进行了微调和评估 。


推荐阅读