创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高( 五 )
虽然这些知识是自动获取的、不准确的 , 但‘三个臭皮匠 , 顶个诸葛亮’ , 经过有效利用 , 总能凑出一些有用的信息 。
如何实现模型的主动吸收和分辨 , 就变得更加重要 。
”
据了解 , 今年的ACL大会 , 在分词领域一共收录了18篇论文 , 创新工场人工智能工程院同时有2篇入选 , 也表现出ACL官方对这一贡献的认可 。
具备跨领域分词能力 , 提升工业应用效率
中文分词和词性标注是最底层的应用 , 对于接下来的应用和任务处理非常重要 。
例如对于文本分类、情感分析 , 文本摘要、机器翻译等 , 分词都是不可或缺的基本“元件” 。
宋彦表示 , 做此项研究的目的是主要为了拓展其工业场景的应用 , 正确的分词能够
平衡公司应用开发的效率和性能 , 同时方便人工干预及(预)后处理 。
这也是创新工场人工智能工程院的努力方向之一 。
工程院成立于2016年9月 , 宗旨是衔接科技创新和行业赋能 , 做嫁接科研和产业应用的桥梁 , 为行业改造业务流程、提升业务效率 。
工程院下设北京总部、南京研究院和大湾区研究院 。
大湾区研究院再下设信息感知和理解实验室 , 专注于对自然语言处理(NLP)领域的研究 。
执行院长宋彦本人也有超过15年的NLP领域的科研经验 。
文章图片
创新工场人工智能工程院架构图
“
在工业场景使用的时候 , 跨领域的模型能力是一个非常直接的诉求 。
”宋彦表示 , 在某个领域的训练模型 , 大概率也需要应用到其他领域 。
“
如何在新领域缺少数据 , 或者新领域只有少量未标注数据的情况下 , 实现模型的冷启动 , 依然是项巨大的挑战 。
如果能利用外部知识 , 提高模型性能 , 就能有效地召回很多在训练集中没有出现过的新词 。
”
例如搜索引擎的广告系统 , 最初也是通过组词匹配的方式 , 在某个特定领域训练其分词模型 , 但在进入一个新的领域时 , 例如从新闻领域进入医疗领域或体育领域 , 效果往往会大打折扣 , 甚至频频出错 。
而使用跨领域特性后 , 广告系统在进入新领域时 , 便无需额外的数据 , 就可以对它进行比较准确的分词和标注 , 从而有效匹配广告和客户 , 大大提升系统运行的效率和稳定性 。
目前 , 这两篇论文的工具都已经开源 , 在下面两个链接中 , 可以找到对应的所有代码和模型 , 各位朋友可按需自取:
分词工具:
https://github.com/SVAIGBA/WMSeg
分词及词性标注工具:
https://github.com/SVAIGBA/TwASP
文章图片
推荐阅读
- 创新|创新“富”能|梦网富信亮相第8届中国智慧餐饮创新峰会
- 大众|《快乐大本营》:这不是跟风,这是迎合大众口味的创新
- 中小|惠普联合北京大学发布《中国创业型中小微企业创新指数》
- |第三届“创业北京”大赛东城区选拔赛暨“创翼东城”创业创新大赛成功举办
- 金融机构|青岛市金融机构贷款利率持续创新低上半年为企业让利27.6亿元
- 污水|136.43万吨!青岛水务集团各污水处理厂污水处理量再创新高
- 27.6|青岛市金融机构贷款利率持续创新低 上半年为企业让利27.6亿元
- 上线|湖南卫视《叮咚上线!老师好》创新开课,全年龄互动课堂青春开讲
- 华为|华为云郑叶来:优势挡不住趋势,技术创新是主旋律
- 各部队使用多种科技手段科学抗洪 多项创新科技成抗洪救援利器
