科技排头陈丹琦新作：关系抽取新SOTApipeline挫败joint( 二 ) 机器之心报道编辑：魔王、小舟端到端关

方法
该研究提出的模型包括一个实体模型和一个关系模型。如下图所示，首先将输入句子馈入实体模型，该模型为每一个span预测实体类型；然后通过嵌入额外的markertoken在关系模型中独立处理每对候选实体，以突出显示主语、宾语及其类型。

文章图片
此外，研究者还介绍了该方法与DYGIE++的区别（DYGIE++与该方法很接近，并且是最强的基线方法）。
1.该研究提出的方法对实体模型和关系模型使用不同的编码器，未使用多任务学习；预测得到的实体标签直接作为关系模型的输入特征。
2.关系模型中的语境表示特定于每个span对。
3.该方法用额外的语境扩展输入，从而纳入跨句信息。
4.该方法未使用束搜索或图传播层，因此，该模型要简单得多。
有效的近似方法
该研究提出的方法较为简洁有效，但是它的缺点是需要对每一个实体对运行一次关系模型。为此，研究者提出一种新型高效的替代性关系模型。核心问题在于，如何对同一个句子中的不同span对重用计算，在该研究提出的原始模型中这是不可能实现的，因为必须为每个span对分别嵌入特定的实体标记。因此，研究者提出了一种近似模型，该模型对原始模型做了两个重要更改。
首先，该近似方法没有选择直接将实体标记嵌入原始句子，而是将标记的位置嵌入与对应span的开始和结束token联系起来：

文章图片
其次，近似方法为注意力层添加了约束：使文本token只注意文本token不注意标记token ，实体标记token则可以注意所有文本token ， 4个标记token全部与同一个span对关联。
这两项更改允许模型对所有文本token重用计算，因为文本token独立于实体标记token 。因而，该方法可以在运行一次关系模型时批量处理来自同一个句子的多个span对。
实验
研究人员在三个端到端关系抽取数据集ACE04、ACE054和SciERC上进行方法评估，使用F1分数作为评估度量指标。
【科技排头陈丹琦新作：关系抽取新SOTApipeline挫败joint】下表2展示了不同方法的对比结果：

文章图片
从图中可以看出，该研究提出的single-sentence模型实现了强大的性能，而纳入跨句语境后，性能结果得到了一致提升。该研究使用的BERT-base（或SciBERT）模型获得了与之前工作类似或更好的结果，包括那些基于更大型预训练语言模型构建的模型，使用较大编码器ALBERT后性能得到进一步提升。
近似方法的性能
下表展示了完全关系模型和近似模型的F1分数与推断速度。在两个数据集上，近似模型的推断速度显著提升。

文章图片
这个pipeline模型为什么超过了joint模型？
除了展示方法和性能以外，该研究还深入分析了这一pipeline模型取得如此优秀性能的原因。
键入文本标记（typedtextmarker）的重要性
该研究认为，为不同span对构建不同语境表示非常重要，早期融合实体类型信息可以进一步提升性能。
为了验证键入文本标记的作用，研究者使用其不同变体在ACE05和SciERC数据集上进行实验，包括TEXT、TEXTETYPE、MARKERS、MARKERSETYPE、MARKERSELOSS、TYPEDMARKERS六种。
下表4展示了这些变体的性能，从中可以看出不同的输入表示确实对关系抽取的准确率产生影响。

文章图片
实体和关系如何交互
人们对joint模型的主要认知是，对两个子任务之间交互的建模对彼此有所帮助。但这项研究并未采取这种方式，而是使用了两个独立的编码器。

科技排头陈丹琦新作：关系抽取新SOTApipeline挫败joint( 二 )

推荐阅读

【鼻窦炎】鼻窦炎严重会怎么样

产后怎么减肥■产后怎么减肥最有效

红薯怎么保存不会烂掉红薯如何保存才不会烂掉

扎哈维|重磅！富力对一线队名单进行了重大调整，金靴射手被正式撤出名单

市场营销的核心是汽车市场营销微观环境

如果一个人从小到大只获得正向反馈（想要的都得到，想做的都成功），他是否能获得「反思」的能力？

鹏飞奇闻变得年轻漂亮，关键秘诀就藏在我们的细胞里，想要延年益寿

电影|漫威和DC联动滚导想拍小丑女和格鲁特电影？本人回应

今年国庆高校放几天假？清华已明确：3天

「龙江六道尖」但拿手机的方式代表了一个人性格，看看你属于哪方面，手机普遍了

晚安曲推荐|著名导演邀请吴彦祖，欲拍《赌王传》，遭何超仪大骂有违道德，原创

陈晓|古装帅哥热度榜：肖战第一、胡歌第五、王一博第八，王鹤棣落榜

金属|章源钨业涨停，领涨稀有金属行业

沙盖是什么沙盖是什么意思

龙丹妮手中最大一张牌，美国豪宅堪比博物馆，国内老家还有瞭望塔

冰封千里266|要买电视的朋友了，可以仔细看我的文章，双11要来了

『央视财经』跌幅1.06%；央视50指数报6888.00点，跌幅0.82%，收盘：沪指报2808.53点

品恒星语|您的“贵人”已到家中，别让他们失望！，属羊人：快行动起来

ZAKER|未来2年内开建！，34.3GW平价风电项目

光明网|重温抗日战争伟大历史《海报里的英雄》开播在即

科技排头 陈丹琦新作：关系抽取新SOTApipeline挫败joint( 二 )

推荐阅读

科技排头陈丹琦新作：关系抽取新SOTApipeline挫败joint( 二 )