创新工场两篇论文入选ACL 2020，将中文分词性能刷至新高( 二 ) 我的金箍棒在哪里

见过的词。
例如经济、医疗、科技等科学领域的专业术语或者社交媒体上的新词，或者是人名。
这类问题在跨领域分词任务中尤其明显。

对此，《ImprovingChinese Word Segmentation with Wordhood Memory Networks》这篇论文提出了基于键-值记忆神经网络的中文分词模型。

该模型利用n元组（即一个由连续n个字组成的序列，比如“居民”是一个2元组， “生活水平”是一个4元组）提供的每个字的构词能力，通过加（降）权重实现特定语境下的歧义消解。
并通过非监督方法构建词表，实现对特定领域的未标注文本的利用，进而提升对未登录词的识别。

例如，在“部分居民生活水平”这句话中，到底有多少可能成为词的组块？
【创新工场两篇论文入选ACL 2020，将中文分词性能刷至新高】单字可成词，如“民”；
每两个字的组合可能成词，如“居民”；
甚至四个字的组合也可能成词，例如“居民生活” 。

“
民

” →单字词

“居
民
” → 词尾

“
民

生”→ 词首

“居
民
生活” → 词中

根据构词能力，找到所有的成词组合

把这些可能成词的组合全部找到以后，加入到该分词模型中。
通过神经网络，学习哪些词对于最后完整表达句意的帮助更大，进而分配不同的权重。
像“部分”、“居民”、“生活”、“水平”这些词都会被突出出来，但“分居”、“民生”这些词就会被降权处理，从而预测出正确的结果。

文章图片

键-值记忆神经网络分词模型

在“他从小学电脑技术” 这句话中，对于有歧义的部分“从小学”（有“从/小学”和“从小/学”两种分法），该模型能够对“从小”和“学”分配更高的权重，而对错误的n元组——“小学”分配较低的权重。

文章图片

为了检验该模型的分词效果，论文进行了严格的标准实验和跨领域实验。

实验结果显示，该模型在5个数据集（MSR、PKU、AS、CityU、CTB6）上的表现，均达了最好的成绩（F值越高，性能越好）。
（注：
所选择的五个数据集是中文分词领域目前全世界唯一通用的标准数据集）

文章图片

创新工场大湾区人工智能研究院执行院长宋彦表示，与前人的模型进行比较发现，该模型在所有数据集上的表现均超过了之前的工作， “把中文分词领域广泛使用的标准数据集上的性能全部刷到了新高。
”

文章图片

和前人工作的比较

在跨领域实验中，论文使用网络博客数据集（CTB7）测试。

创新工场两篇论文入选ACL 2020，将中文分词性能刷至新高( 二 )

推荐阅读

26名在老挝遭遇车祸的中国游客回国伤者讲述异国他乡感受祖国力

深二度烧伤愈合时间是多久

老陈聊星座1|会运势旺，福气多的三大生肖，九一能遇到很多幸运

幼儿园的水果餐引来家长质疑，认为是"摆拍"，园长回应却亮了

肖战|肖战寸头发型被公开，整个人看似年轻10岁！这颜值不火才怪

同比|太保前三季度净利润下降14.3%，寿险业务仍然承压

▲为么这么多人喜欢打造自己的私家庭院，原来是对生活方式的一种向往

比特币|一枚比特币6.4万，如果用家用电脑不停的挖，多久能挖到一枚？

生日的时候，和自己的一个好朋友一起过，你会咋做

辛德蕾拉“5分钟生产2000件不同衣服”真的要来了！阿里保密3年的“新制造”工厂今天曝光

「Bianews」华为手机一季度国内市场份额达39%，同比增长6%

迷途的羔羊|刚入秋，“米色”就火了！它的高级“配色穿搭”帮你备好，请照穿

老王技能厂Enco W31表示不服，入门级TWS耳机吃鸡困难？OPPO

「科技说说」能用奢侈品电商讲个好故事吗？，上线万里目的趣店

淮河流域沂沭泗水系发生大洪水，山东江苏启动Ⅲ级应急响应

『国际纵横』为何在中途岛大败？山本犯了一个兵家大忌，日本偷袭珍珠港成功

如何管理能力比自己强的下属？如何管理好员工

中国|官方：CBA公司CEO王大为已递交辞呈

知名女星透露，最后一段感情是六年前，精力都用在工作上并不孤独

“90后”藏族女代表履职：牧区急缺医疗人才忧妇女健康