创新工场两篇论文入选ACL 2020，将中文分词性能刷至新高( 五 ) 我的金箍棒在哪里

虽然这些知识是自动获取的、不准确的，但‘三个臭皮匠，顶个诸葛亮’ ，经过有效利用，总能凑出一些有用的信息。
如何实现模型的主动吸收和分辨，就变得更加重要。
”

据了解，今年的ACL大会，在分词领域一共收录了18篇论文，创新工场人工智能工程院同时有2篇入选，也表现出ACL官方对这一贡献的认可。

具备跨领域分词能力，提升工业应用效率

中文分词和词性标注是最底层的应用，对于接下来的应用和任务处理非常重要。
例如对于文本分类、情感分析，文本摘要、机器翻译等，分词都是不可或缺的基本“元件” 。

宋彦表示，做此项研究的目的是主要为了拓展其工业场景的应用，正确的分词能够
平衡公司应用开发的效率和性能，同时方便人工干预及（预）后处理。

这也是创新工场人工智能工程院的努力方向之一。
工程院成立于2016年9月，宗旨是衔接科技创新和行业赋能，做嫁接科研和产业应用的桥梁，为行业改造业务流程、提升业务效率。

工程院下设北京总部、南京研究院和大湾区研究院。
大湾区研究院再下设信息感知和理解实验室，专注于对自然语言处理（NLP）领域的研究。
执行院长宋彦本人也有超过15年的NLP领域的科研经验。

文章图片

创新工场人工智能工程院架构图

“
在工业场景使用的时候，跨领域的模型能力是一个非常直接的诉求。
”宋彦表示，在某个领域的训练模型，大概率也需要应用到其他领域。

“
如何在新领域缺少数据，或者新领域只有少量未标注数据的情况下，实现模型的冷启动，依然是项巨大的挑战。
如果能利用外部知识，提高模型性能，就能有效地召回很多在训练集中没有出现过的新词。
”

例如搜索引擎的广告系统，最初也是通过组词匹配的方式，在某个特定领域训练其分词模型，但在进入一个新的领域时，例如从新闻领域进入医疗领域或体育领域，效果往往会大打折扣，甚至频频出错。

而使用跨领域特性后，广告系统在进入新领域时，便无需额外的数据，就可以对它进行比较准确的分词和标注，从而有效匹配广告和客户，大大提升系统运行的效率和稳定性。

目前，这两篇论文的工具都已经开源，在下面两个链接中，可以找到对应的所有代码和模型，各位朋友可按需自取：

分词工具：
https://github.com/SVAIGBA/WMSeg

分词及词性标注工具：
https://github.com/SVAIGBA/TwASP

文章图片

创新工场两篇论文入选ACL 2020，将中文分词性能刷至新高( 五 )

推荐阅读

26名在老挝遭遇车祸的中国游客回国伤者讲述异国他乡感受祖国力

深二度烧伤愈合时间是多久

老陈聊星座1|会运势旺，福气多的三大生肖，九一能遇到很多幸运

幼儿园的水果餐引来家长质疑，认为是"摆拍"，园长回应却亮了

肖战|肖战寸头发型被公开，整个人看似年轻10岁！这颜值不火才怪

同比|太保前三季度净利润下降14.3%，寿险业务仍然承压

▲为么这么多人喜欢打造自己的私家庭院，原来是对生活方式的一种向往

比特币|一枚比特币6.4万，如果用家用电脑不停的挖，多久能挖到一枚？

生日的时候，和自己的一个好朋友一起过，你会咋做

辛德蕾拉“5分钟生产2000件不同衣服”真的要来了！阿里保密3年的“新制造”工厂今天曝光

「Bianews」华为手机一季度国内市场份额达39%，同比增长6%

迷途的羔羊|刚入秋，“米色”就火了！它的高级“配色穿搭”帮你备好，请照穿

老王技能厂Enco W31表示不服，入门级TWS耳机吃鸡困难？OPPO

「科技说说」能用奢侈品电商讲个好故事吗？，上线万里目的趣店

淮河流域沂沭泗水系发生大洪水，山东江苏启动Ⅲ级应急响应

『国际纵横』为何在中途岛大败？山本犯了一个兵家大忌，日本偷袭珍珠港成功

如何管理能力比自己强的下属？如何管理好员工

中国|官方：CBA公司CEO王大为已递交辞呈

知名女星透露，最后一段感情是六年前，精力都用在工作上并不孤独

“90后”藏族女代表履职：牧区急缺医疗人才忧妇女健康