创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高( 五 )


虽然这些知识是自动获取的、不准确的 , 但‘三个臭皮匠 , 顶个诸葛亮’ , 经过有效利用 , 总能凑出一些有用的信息 。
如何实现模型的主动吸收和分辨 , 就变得更加重要 。



据了解 , 今年的ACL大会 , 在分词领域一共收录了18篇论文 , 创新工场人工智能工程院同时有2篇入选 , 也表现出ACL官方对这一贡献的认可 。


具备跨领域分词能力 , 提升工业应用效率


中文分词和词性标注是最底层的应用 , 对于接下来的应用和任务处理非常重要 。
例如对于文本分类、情感分析 , 文本摘要、机器翻译等 , 分词都是不可或缺的基本“元件” 。


宋彦表示 , 做此项研究的目的是主要为了拓展其工业场景的应用 , 正确的分词能够
平衡公司应用开发的效率和性能 , 同时方便人工干预及(预)后处理 。


这也是创新工场人工智能工程院的努力方向之一 。
工程院成立于2016年9月 , 宗旨是衔接科技创新和行业赋能 , 做嫁接科研和产业应用的桥梁 , 为行业改造业务流程、提升业务效率 。


工程院下设北京总部、南京研究院和大湾区研究院 。
大湾区研究院再下设信息感知和理解实验室 , 专注于对自然语言处理(NLP)领域的研究 。
执行院长宋彦本人也有超过15年的NLP领域的科研经验 。

创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高
文章图片

创新工场人工智能工程院架构图



在工业场景使用的时候 , 跨领域的模型能力是一个非常直接的诉求 。
”宋彦表示 , 在某个领域的训练模型 , 大概率也需要应用到其他领域 。



如何在新领域缺少数据 , 或者新领域只有少量未标注数据的情况下 , 实现模型的冷启动 , 依然是项巨大的挑战 。
如果能利用外部知识 , 提高模型性能 , 就能有效地召回很多在训练集中没有出现过的新词 。



例如搜索引擎的广告系统 , 最初也是通过组词匹配的方式 , 在某个特定领域训练其分词模型 , 但在进入一个新的领域时 , 例如从新闻领域进入医疗领域或体育领域 , 效果往往会大打折扣 , 甚至频频出错 。


而使用跨领域特性后 , 广告系统在进入新领域时 , 便无需额外的数据 , 就可以对它进行比较准确的分词和标注 , 从而有效匹配广告和客户 , 大大提升系统运行的效率和稳定性 。


目前 , 这两篇论文的工具都已经开源 , 在下面两个链接中 , 可以找到对应的所有代码和模型 , 各位朋友可按需自取:


分词工具:
https://github.com/SVAIGBA/WMSeg

分词及词性标注工具:
https://github.com/SVAIGBA/TwASP


创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高
文章图片



推荐阅读