创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高( 四 )


文章图片

分词及词性标注实例



为了测试该模型的性能 , 论文在一般领域和跨领域分别进行了实验 。


一般领域实验结果显示 , 该模型在5个数据集(CTB5 , CTB6 , CTB7 , CTB9 , Universal Dependencies)的表现(F值)均超过前人的工作 , 也大幅度超过了斯坦福大学的 CoreNLP 工具 , 和伯克利大学的句法分析器 。


即使是在与CTB词性标注规范不同的UD数据集中 , 该模型依然能吸收不同标注带来的知识 , 并使用这种知识 , 得到更好的效果 。


创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高
文章图片


该模型在所有数据集上均超过了之前的工作


创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高
文章图片

CTB5(CTB5是使用最多的中文分词和词性标注的数据集)结果


而在跨领域的实验中 , 和斯坦福大学的CoreNLP 工具相比 , 该模型也有近10个百分点的提升 。


创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高
文章图片

跨领域分词实验(对话测试集)的结果



主动引入和分辨知识 , 实现中文分词技术突破


中文分词在中国科研领域已经有几十年的历史 。
最初的中文分词是基于词典构建 , 词典的好坏会直接影响到最后分析的效果 。
如果某个新词在词典里没有 , 那么模型是死活都分不出来的 。


这种方式的局限性还在于 , 词典和分词两件事情中间始终有一条鸿沟 , 尽管词典可以编撰得非常全面 , 但在处理分词的时候 , 因为每一句话都有上下文语境 , 往往会产生多种不同的切分方法 , 从而无法有效地在当前语境下对分词结构进行恰当的指导 。


从2003年开始 , 分词方法出现了新的突破 。
研究人员提出了打标签的方式 , 通过给每一个字打词首、词尾、词中的标签 , 不再需要构建词典 , 大幅度提升了未登录词的召回效果 。


到了2014年左右 , 深度学习和神经网络开始被广泛应用到中文分词中 , 打标签的模型从之前的浅层学习变成了深度学习 , 但算法本质没有发生变化 , 所以提升作用并不太大 。


近两年 , 学界开始研究怎么在打标签的过程中加入外部知识和信息 。
创新工场的这两篇文章就是沿着这个路径 , 用记忆神经网络的方式记录对分词结果有影响的 n元组 , 并引入对词性标注有影响的句法知识 , 将分词结果和自动获得的知识衔接起来 , 既发挥了神经网络的优势 , 也把知识的优势用上 , 实现了分词技术上小而有效的改进和突破 。


宋彦表示 , “从技术创新的角度 , 我们的贡献主要有两点 。
一是在现有技术的基础上 , 建立了一个一体化的模型框架 , 使用非监督方法构建词表 , 并把知识(信息)融入进来 , 使用更高层次的句法知识 , 来帮助词性标注 , 起到'他山之石 , 可以攻玉’的效果 。




二是主动吸收和分辨不同的外部知识(信息) 。
通过键-值记忆神经网络和双通道注意力机制 , 进行动态权重的分配 , 能够有效分辨知识 , 区分哪些是有效的 , 哪些是无效的 。


推荐阅读