技术编程|基于聚类的指代消解算法
指代消解 (Coreference Resolution) 任务主要是识别文本中代表同一对象的实体 (Mention) , 例如 "小明告诉我他的想法" 里面的 "小明" 和 "他" 均指代小明 。指代消解方法通常包括两个步骤:1. 识别 Mention;2.判断 Mention 之间是否指代相同对象 。比较常见的判断方法是把两个 Mention 的特征传入神经网络 , 然后计算得分 。本文介绍一种基于聚类的指代消解方法 , 每一个簇包含多个指代相同的 Mention , 并利用簇的特征判断两个簇是否能融合 。1.前言
在之前的文章《端到端指代消解 Coreference Resolution》 介绍了一种指代消解方法 , 其主要思想是把先判断文本的所有区间是否属于 Mention , 然后再计算区间指代一致的得分 。对于指代消解概念不熟悉的童鞋可以参考一下该文章 。
本文主要介绍一种利用聚类的方法 , 通常指代消解任务包含两个部分:
第一部分是找出文本中的 Mention , 即一些指代的实体 , 例如下图中红色框的内容 。
文章图片
文章图片
找出 Mention
第二部分是利用 Mention 的特征向量 , 判断两个 Mention 是否指代相同的对象 , 如下图所示 "姐姐" 和 "她" 指代相同 。
文章图片
文章图片
判断 Mention 是否指示相同对象
传统的方法采用了单个 Mention 的特征 , 而没有用到整个 Mention 簇的特征 。但是这些簇特征包含更加丰富的语义信息 , 可以弥补单个 Mention 缺失的信息 。例如两个簇 {Bill Clinton} 和 {Clinton , She} , 可以更加容易区分第二个簇代表希拉里 。
因此《Improving Coreference Resolution by Learning Entity-Level Distributed Representations》中提出了一种生成 Cluster-Pair 向量的方法 , 并利用聚类的方式进行指代消解 。2.基于聚类的模型
文章图片
文章图片
模型整体结构
模型主要包括四个部分 , 如上面的图片所示 , 每部分的作用:
Mention-Pair Encoder , 生成一对 Mention 的表征向量 。
Cluster-Pair Encoder , 生成一对簇 Cluster 的表征向量 。
Cluster-Ranking Model , 为传入的一对簇打分 , 表示这两个簇属于同一对象的得分 , 得分高则将两个簇融合在一起 。
Mention-Ranking Model , 为一对 Mention 打分 , 表示这两个 Mention 属于同一对象的得分 。训练得到的 Mention-Ranking 主要有两个功能:1. 对 Cluster-Ranking 的权值初始化 。2. 对 Cluster-Ranking 的搜索空间进行剪枝 。
2.1 Mention-Pair Encoder
文章图片
文章图片
Mention-Pair Encoder
Mention-Pair Encoder 的结构如上图所示 , 给定一个 Mention m 和一个可能的先行词 a , 可以利用 , 可以利用 Mention-Pair Encoder 获得 m 和 a 的联合表征向量 。其输入的特征包括:
Embedding Features:获取与 Mention 有关联的词的词向量 , 例如 head word (Mention 中最重要的词) , dependency parent (句法分析后的依赖词) , first word (Mention 第一个词) , preceding words 和 following words (Mention 前面和后面的词) 。
Additional Mention Features:Mention 的类型 (名词 , 代词 , 人名等) , Mention 的位置 (Mention 的索引除以文本 Mention 总数) , Mention 单词数 。
推荐阅读
- 行业互联网|华为 | 车载以太网物理层及TSN发展现状 与技术趋势
- 技术编程|什么是Plesk虚拟主机控制面板?
- 电池技术|法国发明出世界最快的电极:可将锂电池的密度提高3倍
- 技术编程|人工智能在大视频运维中如何实现CDN硬盘故障预测?
- 电池技术|关于惠州赣锋建设高端聚合物锂电池研发及生产基地建设,赣锋锂业要干大事
- |加速冲刺世界级技术领先地位,大族机器人获1.65亿元A轮融资
- 解码器|苹果 ProRes 视频编解码器获 2020 技术工程艾美奖
- 数据|徐叶润:另类数据技术是驱动资管科技的核心
- 中年|《经济学人》封面文章解析蚂蚁集团:数字技术的崛起代表了金融的未来
- 行业互联网|北科院轻工所技术入选中关村论坛技术交易大会“产业创新领先技术百强项目榜单”
