创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高( 二 )


见过的词 。
例如经济、医疗、科技等科学领域的专业术语或者社交媒体上的新词 , 或者是人名 。
这类问题在跨领域分词任务中尤其明显 。


对此 , 《ImprovingChinese Word Segmentation with Wordhood Memory Networks》这篇论文提出了基于键-值记忆神经网络的中文分词模型 。


该模型利用n元组(即一个由连续n个字组成的序列 , 比如“居民”是一个2元组 , “生活水平”是一个4元组)提供的每个字的构词能力 , 通过加(降)权重实现特定语境下的歧义消解 。
并通过非监督方法构建词表 , 实现对特定领域的未标注文本的利用 , 进而提升对未登录词的识别 。


例如 , 在“部分居民生活水平”这句话中 , 到底有多少可能成为词的组块?
【创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高】单字可成词 , 如“民”;
每两个字的组合可能成词 , 如“居民”;
甚至四个字的组合也可能成词 , 例如“居民生活” 。





” →单字词

“居

” → 词尾




生”→ 词首

“居

生活” → 词中

根据构词能力 , 找到所有的成词组合


把这些可能成词的组合全部找到以后 , 加入到该分词模型中 。
通过神经网络 , 学习哪些词对于最后完整表达句意的帮助更大 , 进而分配不同的权重 。
像“部分”、“居民”、“生活”、“水平”这些词都会被突出出来 , 但“分居”、“民生”这些词就会被降权处理 , 从而预测出正确的结果 。


创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高
文章图片

键-值记忆神经网络分词模型



在“他从小学电脑技术” 这句话中 , 对于有歧义的部分“从小学”(有“从/小学”和“从小/学”两种分法) , 该模型能够对“从小”和“学”分配更高的权重 , 而对错误的n元组——“小学”分配较低的权重 。


创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高
文章图片



为了检验该模型的分词效果 , 论文进行了严格的标准实验和跨领域实验 。


实验结果显示 , 该模型在5个数据集(MSR、PKU、AS、CityU、CTB6)上的表现 , 均达了最好的成绩(F值越高 , 性能越好) 。
(注:
所选择的五个数据集是中文分词领域目前全世界唯一通用的标准数据集)


创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高
文章图片

创新工场大湾区人工智能研究院执行院长宋彦表示 , 与前人的模型进行比较发现 , 该模型在所有数据集上的表现均超过了之前的工作 , “把中文分词领域广泛使用的标准数据集上的性能全部刷到了新高 。



创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高
文章图片

和前人工作的比较


在跨领域实验中 , 论文使用网络博客数据集(CTB7)测试 。


推荐阅读