创新工场两篇论文入选ACL 2020，将中文分词性能刷至新高( 三 ) 我的金箍棒在哪里

实验结果显示，在整体F值以及未登陆词的召回率上都有比较大提升。

文章图片

“双通道注意力机制” ，有效剔除“噪音”误导

第二篇论文《Joint ChineseWord Segmentation and Part-of-speech Tagging via Two-way Attentions ofAuto-analyzed Knowledge》提供了一种基于双通道注意力机制的分词及词性标注模型。

中文分词和词性标注是两个不同的任务。
词性标注是在已经切分好的文本中，给每一个词标注其所属的词类，例如动词、名词、代词、形容词。
词性标注对后续的句子理解有重要的作用。

在词性标注中，歧义仍然是个老大难的问题。
例如，对于“他要向全班同学报告书上的内容”中， “报告书”的正确的切分和标注应为“报告_VV/书_N” 。
但由于“报告书”本身也是一个常见词，一般的工具可能会将其标注为“报告书_NN” 。

文章图片

利用句法知识进行正确的词性标注

句法标注本身需要大量的时间和人力成本。
在以往的标注工作中，使用外部自动工具获取句法知识是主流方法。
在这种情况下，如果模型不能识别并正确处理带有杂音的句法知识，很可能会被不准确的句法知识误导，做出错误的预测。

例如，在句子“他马上功夫很好”中， “马”和“上”应该分开（正确的标注应为“马_NN/上_NN”）。
但按照一般的句法知识，却可能得到不准确的切分及句法关系，如“马上” 。

文章图片

斯坦福大学的

自动句法分析工具结果，分成了“马上”

针对这一问题，该论文提出了一个基于双通道注意力机制的分词及词性标注模型。
该模型将中文分词和词性标注视作联合任务，可一体化完成。
模型分别对自动获取的上下文特征和句法知识加权，预测每个字的分词和词性标签，不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权，从而识别特定语境下不同上下文特征和句法知识的贡献。

这样一来，那些不准确的，对模型预测贡献小的上下文特征和句法知识就能被识别出来，并被分配小的权重，从而避免模型被这些有噪音的信息误导。

文章图片

基于“双通道注意力机制”的分词及词性标注

即便在自动获取的句法知识不准确的时候，该模型仍能有效识别并利用这种知识。
例如，将前文有歧义、句法知识不准确的句子（“他马上功夫很好”），输入该双通道注意力模型后，便得到了正确的分词和词性标注结果。

创新工场两篇论文入选ACL 2020，将中文分词性能刷至新高( 三 )

推荐阅读

26名在老挝遭遇车祸的中国游客回国伤者讲述异国他乡感受祖国力

深二度烧伤愈合时间是多久

老陈聊星座1|会运势旺，福气多的三大生肖，九一能遇到很多幸运

幼儿园的水果餐引来家长质疑，认为是"摆拍"，园长回应却亮了

肖战|肖战寸头发型被公开，整个人看似年轻10岁！这颜值不火才怪

同比|太保前三季度净利润下降14.3%，寿险业务仍然承压

▲为么这么多人喜欢打造自己的私家庭院，原来是对生活方式的一种向往

比特币|一枚比特币6.4万，如果用家用电脑不停的挖，多久能挖到一枚？

生日的时候，和自己的一个好朋友一起过，你会咋做

辛德蕾拉“5分钟生产2000件不同衣服”真的要来了！阿里保密3年的“新制造”工厂今天曝光

「Bianews」华为手机一季度国内市场份额达39%，同比增长6%

迷途的羔羊|刚入秋，“米色”就火了！它的高级“配色穿搭”帮你备好，请照穿

老王技能厂Enco W31表示不服，入门级TWS耳机吃鸡困难？OPPO

「科技说说」能用奢侈品电商讲个好故事吗？，上线万里目的趣店

淮河流域沂沭泗水系发生大洪水，山东江苏启动Ⅲ级应急响应

『国际纵横』为何在中途岛大败？山本犯了一个兵家大忌，日本偷袭珍珠港成功

如何管理能力比自己强的下属？如何管理好员工

中国|官方：CBA公司CEO王大为已递交辞呈

知名女星透露，最后一段感情是六年前，精力都用在工作上并不孤独

“90后”藏族女代表履职：牧区急缺医疗人才忧妇女健康