科技排头 陈丹琦新作:关系抽取新SOTApipeline挫败joint( 三 )


研究人员首先研究了共享两个表示编码器能否提升性能 。 如下表5所示 , 简单地共享编码器对实体F1和关系F1分数均有所损害 。 研究人员认为 , 其原因在于两个任务具备不同的输入格式 , 需要不同的特征来预测实体类型和关系 , 因此使用单独的编码器可以学得更好的任务特定特征 。
科技排头 陈丹琦新作:关系抽取新SOTApipeline挫败joint
文章图片
该研究的分析结果显示:
实体信息有助于预测关系 , 但实验未表明关系信息可以大幅提升实体性能 。
仅共享编码器对该研究提出的方法无益 。
如何缓解pipeline方式中的误差传播问题
pipeline训练的一个主要缺陷是误差传播问题 。 使用gold实体(及其类型)进行关系模型训练 , 使用预测实体进行推断 , 可能会导致训练和测试之间存在差异 。
为此 , 研究人员首先探究在训练阶段使用预测实体(而非gold实体)能否缓解这一问题 。 该研究采用10-wayjackknifing方法 , 结果发现这一策略竟然降低了最终的关系性能 。 研究人员假设其原因在于训练阶段引入了额外的噪声 。
在目前的pipeline方法中 , 如果在推断阶段gold实体没有被实体模型识别出来 , 则关系模型无法预测与该实体相关的任何关系 。 于是 , 研究人员考虑在训练和测试阶段 , 对关系模型使用更多span对 。 实验结果表明 , 这无法带来性能提升 。
这些常识未能显著提升性能 , 而该研究提出的简单pipeline方法却惊人的有效 。 研究者认为误差传播问题并非不存在或无法被解决 , 我们需要探索更好的解决方案 。
此外 , 该研究使用的跨句语境对性能提升有所帮助 , 参见表2 。


推荐阅读