|陈丹琦新作:关系抽取新SOTApipeline挫败joint( 二 )


为了加快模型推断速度 , 该研究提出了一种新颖而有效的近似方法 , 该方法可实现 8-16 倍的推断加速 , 而准确率只有很小的降低 。
方法
该研究提出的模型包括一个实体模型和一个关系模型 。 如下图所示 , 首先将输入句子馈入实体模型 , 该模型为每一个 span 预测实体类型;然后通过嵌入额外的 marker token 在关系模型中独立处理每对候选实体 , 以突出显示主语、宾语及其类型 。
|陈丹琦新作:关系抽取新SOTApipeline挫败joint
本文插图

此外 , 研究者还介绍了该方法与 DYGIE++ 的区别(DYGIE++ 与该方法很接近 , 并且是最强的基线方法) 。
1. 该研究提出的方法对实体模型和关系模型使用不同的编码器 , 未使用多任务学习;预测得到的实体标签直接作为关系模型的输入特征 。
2. 关系模型中的语境表示特定于每个 span 对 。
3. 该方法用额外的语境扩展输入 , 从而纳入跨句信息 。
4. 该方法未使用束搜索或图传播层 , 因此 , 该模型要简单得多 。
有效的近似方法
该研究提出的方法较为简洁有效 , 但是它的缺点是需要对每一个实体对运行一次关系模型 。 为此 , 研究者提出一种新型高效的替代性关系模型 。 核心问题在于 , 如何对同一个句子中的不同 span 对重用计算 , 在该研究提出的原始模型中这是不可能实现的 , 因为必须为每个 span 对分别嵌入特定的实体标记 。 因此 , 研究者提出了一种近似模型 , 该模型对原始模型做了两个重要更改 。
首先 , 该近似方法没有选择直接将实体标记嵌入原始句子 , 而是将标记的位置嵌入与对应 span 的开始和结束 token 联系起来:
|陈丹琦新作:关系抽取新SOTApipeline挫败joint
本文插图

其次 , 近似方法为注意力层添加了约束:使文本 token 只注意文本 token 不注意标记 token , 实体标记 token 则可以注意所有文本 token , 4 个标记 token 全部与同一个 span 对关联 。
这两项更改允许模型对所有文本 token 重用计算 , 因为文本 token 独立于实体标记 token 。 因而 , 该方法可以在运行一次关系模型时批量处理来自同一个句子的多个 span 对 。
实验
研究人员在三个端到端关系抽取数据集 ACE04、ACE054 和 SciERC 上进行方法评估 , 使用 F1 分数作为评估度量指标 。
下表 2 展示了不同方法的对比结果:
|陈丹琦新作:关系抽取新SOTApipeline挫败joint
本文插图

从图中可以看出 , 该研究提出的 single-sentence 模型实现了强大的性能 , 而纳入跨句语境后 , 性能结果得到了一致提升 。 该研究使用的 BERT-base(或 SciBERT)模型获得了与之前工作类似或更好的结果 , 包括那些基于更大型预训练语言模型构建的模型 , 使用较大编码器 ALBERT 后性能得到进一步提升 。
近似方法的性能
下表展示了完全关系模型和近似模型的 F1 分数与推断速度 。 在两个数据集上 , 近似模型的推断速度显著提升 。
|陈丹琦新作:关系抽取新SOTApipeline挫败joint
本文插图

【|陈丹琦新作:关系抽取新SOTApipeline挫败joint】这个 pipeline 模型为什么超过了 joint 模型?
除了展示方法和性能以外 , 该研究还深入分析了这一 pipeline 模型取得如此优秀性能的原因 。
键入文本标记(typed text marker)的重要性
该研究认为 , 为不同 span 对构建不同语境表示非常重要 , 早期融合实体类型信息可以进一步提升性能 。
为了验证键入文本标记的作用 , 研究者使用其不同变体在 ACE05 和 SciERC 数据集上进行实验 , 包括 TEXT、TEXTETYPE、MARKERS、MARKERSETYPE、MARKERSELOSS、TYPEDMARKERS 六种 。


推荐阅读