创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高( 三 )


实验结果显示 , 在整体F值以及未登陆词的召回率上都有比较大提升 。


创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高
文章图片


“双通道注意力机制” , 有效剔除“噪音”误导


第二篇论文《Joint ChineseWord Segmentation and Part-of-speech Tagging via Two-way Attentions ofAuto-analyzed Knowledge》提供了一种基于双通道注意力机制的分词及词性标注模型 。


中文分词和词性标注是两个不同的任务 。
词性标注是在已经切分好的文本中 , 给每一个词标注其所属的词类 , 例如动词、名词、代词、形容词 。
词性标注对后续的句子理解有重要的作用 。


在词性标注中 , 歧义仍然是个老大难的问题 。
例如 , 对于“他要向全班同学报告书上的内容”中 , “报告书”的正确的切分和标注应为“报告_VV/书_N” 。
但由于“报告书”本身也是一个常见词 , 一般的工具可能会将其标注为“报告书_NN” 。

创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高
文章图片


利用句法知识进行正确的词性标注


句法标注本身需要大量的时间和人力成本 。
在以往的标注工作中 , 使用外部自动工具获取句法知识是主流方法 。
在这种情况下 , 如果模型不能识别并正确处理带有杂音的句法知识 , 很可能会被不准确的句法知识误导 , 做出错误的预测 。


例如 , 在句子“他马上功夫很好”中 , “马”和“上”应该分开(正确的标注应为“马_NN/上_NN”) 。
但按照一般的句法知识 , 却可能得到不准确的切分及句法关系 , 如“马上” 。


创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高
文章图片

斯坦福大学的

自动句法分析工具结果 , 分成了“马上”



针对这一问题 , 该论文提出了一个基于双通道注意力机制的分词及词性标注模型 。
该模型将中文分词和词性标注视作联合任务 , 可一体化完成 。
模型分别对自动获取的上下文特征和句法知识加权 , 预测每个字的分词和词性标签 , 不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权 , 从而识别特定语境下不同上下文特征和句法知识的贡献 。


这样一来 , 那些不准确的 , 对模型预测贡献小的上下文特征和句法知识就能被识别出来 , 并被分配小的权重 , 从而避免模型被这些有噪音的信息误导 。


创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高
文章图片

基于“双通道注意力机制”的分词及词性标注


即便在自动获取的句法知识不准确的时候 , 该模型仍能有效识别并利用这种知识 。
例如 , 将前文有歧义、句法知识不准确的句子(“他马上功夫很好”) , 输入该双通道注意力模型后 , 便得到了正确的分词和词性标注结果 。



创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高


推荐阅读