创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高( 三 )
实验结果显示 , 在整体F值以及未登陆词的召回率上都有比较大提升 。
文章图片
“双通道注意力机制” , 有效剔除“噪音”误导
第二篇论文《Joint ChineseWord Segmentation and Part-of-speech Tagging via Two-way Attentions ofAuto-analyzed Knowledge》提供了一种基于双通道注意力机制的分词及词性标注模型 。
中文分词和词性标注是两个不同的任务 。
词性标注是在已经切分好的文本中 , 给每一个词标注其所属的词类 , 例如动词、名词、代词、形容词 。
词性标注对后续的句子理解有重要的作用 。
在词性标注中 , 歧义仍然是个老大难的问题 。
例如 , 对于“他要向全班同学报告书上的内容”中 , “报告书”的正确的切分和标注应为“报告_VV/书_N” 。
但由于“报告书”本身也是一个常见词 , 一般的工具可能会将其标注为“报告书_NN” 。
文章图片
利用句法知识进行正确的词性标注
句法标注本身需要大量的时间和人力成本 。
在以往的标注工作中 , 使用外部自动工具获取句法知识是主流方法 。
在这种情况下 , 如果模型不能识别并正确处理带有杂音的句法知识 , 很可能会被不准确的句法知识误导 , 做出错误的预测 。
例如 , 在句子“他马上功夫很好”中 , “马”和“上”应该分开(正确的标注应为“马_NN/上_NN”) 。
但按照一般的句法知识 , 却可能得到不准确的切分及句法关系 , 如“马上” 。
文章图片
斯坦福大学的
自动句法分析工具结果 , 分成了“马上”
针对这一问题 , 该论文提出了一个基于双通道注意力机制的分词及词性标注模型 。
该模型将中文分词和词性标注视作联合任务 , 可一体化完成 。
模型分别对自动获取的上下文特征和句法知识加权 , 预测每个字的分词和词性标签 , 不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权 , 从而识别特定语境下不同上下文特征和句法知识的贡献 。
这样一来 , 那些不准确的 , 对模型预测贡献小的上下文特征和句法知识就能被识别出来 , 并被分配小的权重 , 从而避免模型被这些有噪音的信息误导 。
文章图片
基于“双通道注意力机制”的分词及词性标注
即便在自动获取的句法知识不准确的时候 , 该模型仍能有效识别并利用这种知识 。
例如 , 将前文有歧义、句法知识不准确的句子(“他马上功夫很好”) , 输入该双通道注意力模型后 , 便得到了正确的分词和词性标注结果 。
推荐阅读
- 创新|创新“富”能|梦网富信亮相第8届中国智慧餐饮创新峰会
- 大众|《快乐大本营》:这不是跟风,这是迎合大众口味的创新
- 中小|惠普联合北京大学发布《中国创业型中小微企业创新指数》
- |第三届“创业北京”大赛东城区选拔赛暨“创翼东城”创业创新大赛成功举办
- 金融机构|青岛市金融机构贷款利率持续创新低上半年为企业让利27.6亿元
- 污水|136.43万吨!青岛水务集团各污水处理厂污水处理量再创新高
- 27.6|青岛市金融机构贷款利率持续创新低 上半年为企业让利27.6亿元
- 上线|湖南卫视《叮咚上线!老师好》创新开课,全年龄互动课堂青春开讲
- 华为|华为云郑叶来:优势挡不住趋势,技术创新是主旋律
- 各部队使用多种科技手段科学抗洪 多项创新科技成抗洪救援利器
