创新工场两篇论文入选ACL 2020,将中文分词性能刷至新高
“土地 , 我的金箍棒在哪里?”
“大圣 , 你的金箍 , 棒就棒在 , 特别配你的发型 。
”
感谢神奇的中文分词 , 给我们带来了多少乐趣 。 丰富多变的中文行文 , 给人的理解造成歧义 , 也给AI分词带来挑战 。
近日 , 自然语言处理领域(NLP)顶级学术会议 ACL 2020 (
https://acl2020.org/
)
正在火热举行 。
令人振奋的是 , 来自创新工场大湾区人工智能研究院的两篇论文入选 。 这两篇论文均聚焦中文分词领域 , 是深度学习引入知识后的有益尝试 , 将该领域近年来广泛使用的各数据集上的分数全部刷至新高 , 在工业中也有着可观的应用前景 。
文章图片
"Improving ChineseWord Segmentation with Wordhood MemoryNetworks"
文章图片
"Joint Chinese Word Segmentation and Part-of-speech Tagging viaTwo-way Attentions of Auto-analyzed Knowledge"
分词及词性标注是中文自然语言处理的基本任务 , 尤其在工业场景对分词有非常直接的诉求 , 但当前没有比较好的一体化解决方案 , 而且中文分词普遍存在歧义和未登录词的难题 。
基于此 , 两篇论文各自提出了“键-值记忆神经网络的中文分词模型”和“基于双通道注意力机制的分词及词性标注模型” , 将外部知识(信息)创造性融入分词及词性标注模型 , 有效剔除了分词“噪音”误导 , 大幅度提升了分词及词性标注效果 。
两篇文章的作者有:
华盛顿大学博士研究生、创新工场实习生田元贺 ,
创新工场大湾区人工智能研究院执行院长宋彦 , 创新工场科研合伙人张潼 , 创新工场CTO兼人工智能工程院执行院长王咏刚等人 。
ACL
(The Association for ComputationalLinguistics)国际计算语言学协会是自然语言处理领域影响力最大、最具活力的国际学术组织之一 , 自1962年创立以来已有58年历史 , 其每年夏天举办的年会是该领域学术顶会 。
与往年不同的是 , 受新冠疫情影响 , ACL2020全部转为线上进行 , 不过这丝毫没有减弱热度 。
根据之前公布的数据 , 今年大会投稿数量超过3000篇 , 共接收 779 篇论文 , 包括 571 篇长论文和 208 篇短论文 , 接收率为 25.2% , 在全球疫情冲击下反而是有史以来最盛大的一届ACL会议 , 创新工场的技术大牛们也顶着时差连续数晚熬夜参会 。
利用记忆神经网络 , 将中文分词性能刷到历史新高
中文分词目的是在中文的字序列中插入分隔符 , 将其切分为词 。
例如 , “我喜欢音乐”将被切分为“我/喜欢/音乐”(“/”表示分隔符) 。
中文语言因
其特殊性 , 在分词时面临着两个主要难点 。
一是歧义问题 , 由于中文存
在大量歧义 , 一般的分词工具在切分句子时可能会出错 。
例如 , “部分居民生活水平” , 其正确的切分应为“部分/居民/生活/水平” , 但存在“分居”、“民生”等歧义词 。
“他从小学电脑技术” , 正确的分词是:
他/从小/学/电脑技术 , 但也存在“小学”这种歧义词 。
二是未登录词问题 。
未登录词指的是不在词表 , 或者是模型在训练的过程中没有遇
推荐阅读
- 创新|创新“富”能|梦网富信亮相第8届中国智慧餐饮创新峰会
- 大众|《快乐大本营》:这不是跟风,这是迎合大众口味的创新
- 中小|惠普联合北京大学发布《中国创业型中小微企业创新指数》
- |第三届“创业北京”大赛东城区选拔赛暨“创翼东城”创业创新大赛成功举办
- 金融机构|青岛市金融机构贷款利率持续创新低上半年为企业让利27.6亿元
- 污水|136.43万吨!青岛水务集团各污水处理厂污水处理量再创新高
- 27.6|青岛市金融机构贷款利率持续创新低 上半年为企业让利27.6亿元
- 上线|湖南卫视《叮咚上线!老师好》创新开课,全年龄互动课堂青春开讲
- 华为|华为云郑叶来:优势挡不住趋势,技术创新是主旋律
- 各部队使用多种科技手段科学抗洪 多项创新科技成抗洪救援利器
