创新工场两篇论文入选ACL 2020，将中文分词性能刷至新高( 四 ) 我的金箍棒在哪里

文章图片

分词及词性标注实例

为了测试该模型的性能，论文在一般领域和跨领域分别进行了实验。

一般领域实验结果显示，该模型在5个数据集（CTB5 ， CTB6 ， CTB7 ， CTB9 ， Universal Dependencies）的表现（F值）均超过前人的工作，也大幅度超过了斯坦福大学的 CoreNLP 工具，和伯克利大学的句法分析器。

即使是在与CTB词性标注规范不同的UD数据集中，该模型依然能吸收不同标注带来的知识，并使用这种知识，得到更好的效果。

文章图片

该模型在所有数据集上均超过了之前的工作

文章图片

CTB5（CTB5是使用最多的中文分词和词性标注的数据集）结果

而在跨领域的实验中，和斯坦福大学的CoreNLP 工具相比，该模型也有近10个百分点的提升。

文章图片

跨领域分词实验（对话测试集）的结果

主动引入和分辨知识，实现中文分词技术突破

中文分词在中国科研领域已经有几十年的历史。
最初的中文分词是基于词典构建，词典的好坏会直接影响到最后分析的效果。
如果某个新词在词典里没有，那么模型是死活都分不出来的。

这种方式的局限性还在于，词典和分词两件事情中间始终有一条鸿沟，尽管词典可以编撰得非常全面，但在处理分词的时候，因为每一句话都有上下文语境，往往会产生多种不同的切分方法，从而无法有效地在当前语境下对分词结构进行恰当的指导。

从2003年开始，分词方法出现了新的突破。
研究人员提出了打标签的方式，通过给每一个字打词首、词尾、词中的标签，不再需要构建词典，大幅度提升了未登录词的召回效果。

到了2014年左右，深度学习和神经网络开始被广泛应用到中文分词中，打标签的模型从之前的浅层学习变成了深度学习，但算法本质没有发生变化，所以提升作用并不太大。

近两年，学界开始研究怎么在打标签的过程中加入外部知识和信息。
创新工场的这两篇文章就是沿着这个路径，用记忆神经网络的方式记录对分词结果有影响的 n元组，并引入对词性标注有影响的句法知识，将分词结果和自动获得的知识衔接起来，既发挥了神经网络的优势，也把知识的优势用上，实现了分词技术上小而有效的改进和突破。

宋彦表示， “从技术创新的角度，我们的贡献主要有两点。
一是在现有技术的基础上，建立了一个一体化的模型框架，使用非监督方法构建词表，并把知识（信息）融入进来，使用更高层次的句法知识，来帮助词性标注，起到'他山之石，可以攻玉’的效果。
”

“
二是主动吸收和分辨不同的外部知识（信息）。
通过键-值记忆神经网络和双通道注意力机制，进行动态权重的分配，能够有效分辨知识，区分哪些是有效的，哪些是无效的。

创新工场两篇论文入选ACL 2020，将中文分词性能刷至新高( 四 )

推荐阅读

26名在老挝遭遇车祸的中国游客回国伤者讲述异国他乡感受祖国力

深二度烧伤愈合时间是多久

老陈聊星座1|会运势旺，福气多的三大生肖，九一能遇到很多幸运

幼儿园的水果餐引来家长质疑，认为是"摆拍"，园长回应却亮了

肖战|肖战寸头发型被公开，整个人看似年轻10岁！这颜值不火才怪

同比|太保前三季度净利润下降14.3%，寿险业务仍然承压

▲为么这么多人喜欢打造自己的私家庭院，原来是对生活方式的一种向往

比特币|一枚比特币6.4万，如果用家用电脑不停的挖，多久能挖到一枚？

生日的时候，和自己的一个好朋友一起过，你会咋做

辛德蕾拉“5分钟生产2000件不同衣服”真的要来了！阿里保密3年的“新制造”工厂今天曝光

「Bianews」华为手机一季度国内市场份额达39%，同比增长6%

迷途的羔羊|刚入秋，“米色”就火了！它的高级“配色穿搭”帮你备好，请照穿

老王技能厂Enco W31表示不服，入门级TWS耳机吃鸡困难？OPPO

「科技说说」能用奢侈品电商讲个好故事吗？，上线万里目的趣店

淮河流域沂沭泗水系发生大洪水，山东江苏启动Ⅲ级应急响应

『国际纵横』为何在中途岛大败？山本犯了一个兵家大忌，日本偷袭珍珠港成功

如何管理能力比自己强的下属？如何管理好员工

中国|官方：CBA公司CEO王大为已递交辞呈

知名女星透露，最后一段感情是六年前，精力都用在工作上并不孤独

“90后”藏族女代表履职：牧区急缺医疗人才忧妇女健康