机器之心|窥一斑而知全豹,三篇论文遍历ICLR 2020新型表征方式( 三 )


机器之心|窥一斑而知全豹,三篇论文遍历ICLR 2020新型表征方式
本文插图

在第二种图中 , 作者在使用加权平均值作为聚合函数 , 这里的权重是在图建立时得到的:
机器之心|窥一斑而知全豹,三篇论文遍历ICLR 2020新型表征方式
本文插图

接下来 , 作者对上面计算得到的双向嵌入进行融合:
机器之心|窥一斑而知全豹,三篇论文遍历ICLR 2020新型表征方式
本文插图

这里的融合操作如下式所示:
机器之心|窥一斑而知全豹,三篇论文遍历ICLR 2020新型表征方式
本文插图

这里的 \ odot 是点乘 , \sigma()表示 simoid 函数 , z 是门向量 。 最后 , 作者使用 Gated Recurrent Unit(GRU)对节点嵌入进行更新:
机器之心|窥一斑而知全豹,三篇论文遍历ICLR 2020新型表征方式
本文插图

更新完后 , 如最开始所说 , 作者对最终第 n 跳的结果进行线性映射和 max-pooling 操作 , 从而得到图嵌入 。
1.4 实验结果
因为本文介绍的并不是完整的算法 , 所以这里不展示后面完整的熔断实验(ablation study) , 图 3 展示了整体系统的结果 , 可以看到虽然比 ground truth 要差一点 , 但是比现有的模型都要先进 。
机器之心|窥一斑而知全豹,三篇论文遍历ICLR 2020新型表征方式
本文插图

图 3:实验结果 。
1.5 小结
这篇文章有很多信息 , 都很具有启发性 , 比如在 DAN 中对各种嵌入的处理 , 如何将另一段文本的信息融合到当前文本中的处理方式等 , 以及图的建立方法和图嵌入的计算方式等 。 不管是图的表征还是文本的表征 , 这篇论文都可以提供很好的初始想法 。
2. Massively Multilingual Sparse Word Representations
机器之心|窥一斑而知全豹,三篇论文遍历ICLR 2020新型表征方式
本文插图

论文链接:https://openreview.net/forum?id=HyeYTgrFPB
2.1 算法概述
本文的题目已经很直白的表达了本文的主要任务——找到一种稀疏的词表征方式(sparse word representations) , 并且是多语言通用的(multilingual) , 也就是说在不同语言中具有相似意义的词会有相似的稀疏向量 。 之所以选择稀疏的词表征方式 , 最直接的好处是某些资源丰富的源语言的稀疏表示可以直接用于某种目标语言 , 这样模型就更小了 , 而且模型的可解释性更高 。
当然这种稀疏的词表征其实在很多其他特定任务中也有奇效 。 本文作者提出了一种高效(优化函数为凸函数)且可适应于多语言转换任务(基于共享语义单元)的算法 。
2.2 算法细节
整体算法如图 4 所示 , 算法的输入 (require) 是源语言和目标语言的嵌入(GloVE 等)以及不同语言之间对应的翻译(semantically equivalent word pairs) , 最终得到的结果是 \ alpha^s, \alpha^{t_i} , 这些分别是源语言(s)和多个目标语言(t_i)的稀疏向量 , 这些表示中不同语言中具有相似意义的词会有相似的稀疏向量 , 至于为什么这些 \ alpha 可以做到这些 , 会在后面的具体介绍中提及 。 论文中是以模块为单位进行介绍的 , 为了方便理解 , 本文我们按照这个伪代码的顺序走一遍 。
建议读者可以自己再去读一下原论文的对应部分 , 因为有些步骤的顺序有其自己的原因 , 这里会大概提及 , 但是原文的排版方式确实更能突出其算法的优势 , 本文按照伪代码来介绍只是为了更方便理解 。
机器之心|窥一斑而知全豹,三篇论文遍历ICLR 2020新型表征方式
本文插图


推荐阅读