机器之心|窥一斑而知全豹,三篇论文遍历ICLR 2020新型表征方式( 二 )
然后是紫色的矩阵 \ beta , 这是我们熟悉的注意力矩阵 , 通过 X^a 和 X^p 计算得到这个注意力矩阵 , 然后再跟回答对应的另一个带波浪线嵌入相乘(注意这里也可能这两个嵌入是相同的 , 类似于给了一个 a+b+c+d 的公式 , ab 不带波浪线 , cd 带波浪线 , 作者没有限制 a!=c , 也就是带波浪线的 \~{X^a}和不带波浪线的 X^a 可以是相同的 , 毕竟来源于同一个语料 , 如果提取特征的方法相同 , 那么 a 和 c 就相同了 , 但是 a 一定是不等于 b 的 , 因为来源不同 , 就算特征提取方法相同也没法一致) , 最后通过简单的矩阵合并(concatenate)得到最终的矩阵 \~{H^p} 。 这个过程可以表示为下式:
本文插图
值得注意的是 Align()这个函数里的嵌入顺序并不是图 2 中从上到下的顺序 , 不然会影响后面具体计算时的理解 。 至于注意力的计算 , 本文作者使用了下式:
本文插图
上面介绍的对齐算法在文中被使用了两次 , 先在词的层面进行了一次对齐得到 \~{H^p}:
本文插图
这里的 G 代表 GloVe 嵌入 , B 代表 BERT 嵌入 , L 代表语言学嵌入(NER , POS 等) 。 然后这个 \~{H^p}又经过了一个双向 LSTM 的处理 , 最终得到了 \={H^p} 。 同时作者又将回答的 BERT 嵌入和 GloVE 嵌入合并在一起 , 然后也用一个双向 LSTM 对齐进行进一步处理 , 最终得到回答的嵌入 \={H^a} 。 这里 LSTM 处理的目的是让这些嵌入获得背景信息(contextualize) 。
万事俱备 , 现在可以进入背景层面的对齐了 , 这也是对齐的最后一步 , 基于上文得到的那些带有背景信息的嵌入 , 最终就可以得到文本嵌入 X:
本文插图
1.3 BIDIRECTIONAL GRAPH-TO-SEQUENCE GENERATOR
这也是这篇文章的主要创新点之一 , 文中提出的方法先为文本建立了图 , 然后通过 GNN 计算出节点的嵌入 , 最终先对节点嵌入进行线性映射 , 最后对这些映射进行 max-pooling 的操作 , 最终的方式得到一个 d 维的向量 。 接下来的内容简要介绍图建立的过程和 GNN 的计算过程 。
1.3.1 图建立
本文作者为文本建立了两种图——第一种是依赖解析树(dependency parse tree) , 第二种是基于 KNN 和自注意力机制动态建立的语意树 。 第一种树的建立和后续操作比较简单 , 就是先将每个句子解析成依赖树(根据语法) , 然后将相近的依赖树通过边界上的词节点连接起来 。 然而这种简单的方法反而获得了更好的结果 。
第二种稍微复杂一点的 , 主要有三步 , 如下式所示:
本文插图
第一步是对上文中求得的词嵌入 \~{H^p}进行自注意力计算 , 从而得到 A , 这里的 U 是可训练的 。 然后利用 KNN 这类算法进行聚类 , 只保留最近的 K 个节点和其注意力分数 , 其他的都被挡住了 。 最后一步是通过 softmax 操作获得输入和输出两个方向上的矩阵 。
1.3.2 BIDIRECTIONAL GATED GRAPH NEURAL NETWORKS(BiGGNN)
在 BiGGNN 中 , 每个节点的初始嵌入都由 DAN 获得 , 然后在 GNN 的每一跳计算中 , 都会对输入和输出的相邻接点分别进行前向和反向的聚合操作 。
在第一种图中 , 作者选择均值作为聚合函数 , 从而得到正向和反向的新嵌入(k 表示第 k 跳):
推荐阅读
- 技术编程|机器学习又一重要医学应用!培植人造器官
- 智能机器人|【好莱坞首次用AI机器人主演】
- 楚天都市报|机器替换人工上班获奖励三千万元!企业智能化改造增了效率还拿补贴
- 机器|令人惊叹的伐木机器,5米高的树直接从树顶“劈下”,看着是真爽
- 无人科技|智能检测机器人亮相北京动车段
- 人工智能|哈工大将在重庆建研究院,聚集汽车、机器人、人工智能等领域
- 智能机器人|智能检测机器人亮相北京动车段
- 智能机器人|陈根:全球首个AI发球机器人,不一样的智能陪练
- 中年|日本外交官嫁到王室成生育机器,雅子王妃疑因生育女孩患上抑郁症
- 人工智能|陕西电视台走进西京学院报道该校新增机器人工程专业的建设情况
