机器之心|窥一斑而知全豹,三篇论文遍历ICLR 2020新型表征方式( 三 )
本文插图
在第二种图中 , 作者在使用加权平均值作为聚合函数 , 这里的权重是在图建立时得到的:
本文插图
接下来 , 作者对上面计算得到的双向嵌入进行融合:
本文插图
这里的融合操作如下式所示:
本文插图
这里的 \ odot 是点乘 , \sigma()表示 simoid 函数 , z 是门向量 。 最后 , 作者使用 Gated Recurrent Unit(GRU)对节点嵌入进行更新:
本文插图
更新完后 , 如最开始所说 , 作者对最终第 n 跳的结果进行线性映射和 max-pooling 操作 , 从而得到图嵌入 。
1.4 实验结果
因为本文介绍的并不是完整的算法 , 所以这里不展示后面完整的熔断实验(ablation study) , 图 3 展示了整体系统的结果 , 可以看到虽然比 ground truth 要差一点 , 但是比现有的模型都要先进 。
本文插图
图 3:实验结果 。
1.5 小结
这篇文章有很多信息 , 都很具有启发性 , 比如在 DAN 中对各种嵌入的处理 , 如何将另一段文本的信息融合到当前文本中的处理方式等 , 以及图的建立方法和图嵌入的计算方式等 。 不管是图的表征还是文本的表征 , 这篇论文都可以提供很好的初始想法 。
2. Massively Multilingual Sparse Word Representations
本文插图
论文链接:https://openreview.net/forum?id=HyeYTgrFPB
2.1 算法概述
本文的题目已经很直白的表达了本文的主要任务——找到一种稀疏的词表征方式(sparse word representations) , 并且是多语言通用的(multilingual) , 也就是说在不同语言中具有相似意义的词会有相似的稀疏向量 。 之所以选择稀疏的词表征方式 , 最直接的好处是某些资源丰富的源语言的稀疏表示可以直接用于某种目标语言 , 这样模型就更小了 , 而且模型的可解释性更高 。
当然这种稀疏的词表征其实在很多其他特定任务中也有奇效 。 本文作者提出了一种高效(优化函数为凸函数)且可适应于多语言转换任务(基于共享语义单元)的算法 。
2.2 算法细节
整体算法如图 4 所示 , 算法的输入 (require) 是源语言和目标语言的嵌入(GloVE 等)以及不同语言之间对应的翻译(semantically equivalent word pairs) , 最终得到的结果是 \ alpha^s, \alpha^{t_i} , 这些分别是源语言(s)和多个目标语言(t_i)的稀疏向量 , 这些表示中不同语言中具有相似意义的词会有相似的稀疏向量 , 至于为什么这些 \ alpha 可以做到这些 , 会在后面的具体介绍中提及 。 论文中是以模块为单位进行介绍的 , 为了方便理解 , 本文我们按照这个伪代码的顺序走一遍 。
建议读者可以自己再去读一下原论文的对应部分 , 因为有些步骤的顺序有其自己的原因 , 这里会大概提及 , 但是原文的排版方式确实更能突出其算法的优势 , 本文按照伪代码来介绍只是为了更方便理解 。
本文插图
推荐阅读
- 技术编程|机器学习又一重要医学应用!培植人造器官
- 智能机器人|【好莱坞首次用AI机器人主演】
- 楚天都市报|机器替换人工上班获奖励三千万元!企业智能化改造增了效率还拿补贴
- 机器|令人惊叹的伐木机器,5米高的树直接从树顶“劈下”,看着是真爽
- 无人科技|智能检测机器人亮相北京动车段
- 人工智能|哈工大将在重庆建研究院,聚集汽车、机器人、人工智能等领域
- 智能机器人|智能检测机器人亮相北京动车段
- 智能机器人|陈根:全球首个AI发球机器人,不一样的智能陪练
- 中年|日本外交官嫁到王室成生育机器,雅子王妃疑因生育女孩患上抑郁症
- 人工智能|陕西电视台走进西京学院报道该校新增机器人工程专业的建设情况
