机器之心|窥一斑而知全豹,三篇论文遍历ICLR 2020新型表征方式( 六 )


机器之心|窥一斑而知全豹,三篇论文遍历ICLR 2020新型表征方式
本文插图

在训练的时候 , 从 codebook 中选取对应的变量 \ hat{z}=e_i , 从而最终的损失函数变成了:
机器之心|窥一斑而知全豹,三篇论文遍历ICLR 2020新型表征方式
本文插图

这里 sg(x) \equiv x, 而其导数恒等于 0 。 这里括号中的前半部分是为了让 codebook 中的表征与编码器的输出更接近 , 而后半部分则是为了让编码器的输出能够与 codebook 中的中心点更近 。
在上述基础上 , 为了避免模式瓦解(mode collapse)的问题 , 作者又提出了多变量组(multiple variable groups)的方法 。 首先将密集的特征向量 z 分成 G 组 , 从而得到 \ hat{z} 。 然后作者用整数索引表示每一行 , 因此可以这个索引 i∈[V]^G 来表示完整的特征向量 。
其中 V 表示该特定组的可能变量数 , 每个元素 i_j 对应一个固定的 codebook 向量 。 对于每一个组 , 我们使用两种 VQ 方法中的一种 。
codebook 本身可以通过两种可能的方式进行初始化:可以在组之间共享 codebook 变量 , 即索引也将共享 。 相反 , 不共享 codebook 变量 , 索引的大小就会变大一些 。。 在实践中 , 我们观察到共享 codebook 变量通常会比非共享表征的效果要好 。
3.3 实验结果
如图 8 所示 , 这个算法在各种任务上的表现基本都是最好的(黑体) , 具体的实验细节以及熔断研究这里不做详细探讨 。 值得一提的是 , 不管是这里跟 wav2vec 的对比还是作者后面与单独 vq-wav2vec 的对比 , BERT 的加入都是让结果优化极多的 。
机器之心|窥一斑而知全豹,三篇论文遍历ICLR 2020新型表征方式
本文插图
图 8:实验结果 。
3.4 小结
这篇文章主要的亮点在于 BERT 和 wav2vec 两个方法的合并 , 也是一种连续信号的处理方式 , 提供了一种将语音信号转换成 NLP 任务常见输入的思路 , 但是正如这篇论文的评论说的那样 , BERT 会提供那么大的改进的原因是很有探索的必要的 , 这样才能降低这个算法的计算量 , 同时真正能够更加灵活地用更高效的方法完成语音信号的表征 。
总结
本文介绍了三篇论文 , 都是很好的研究方向 , 也有很多坑可以继续去填 。 第一篇论文可以作为一个很好的新手入门教材 , 第二篇文章则给大家带来一个新视角——稀疏矩阵有时也会有自己的优势 , 不同的矩阵特征可能在不同的任务中有奇效 。 最后一篇论文则展示了目前信号处理上对于表征的较新进展 , 个人感觉坑还是很多的 , 但是要对信号处理和人工智能两个领域都有一定了解才可以有较为不错的发现 , 所以挑战也很大 。 表征本身很容易被人忽视 , 很多人都去重视如何提升网络的性能 , 其实找到一个更为通用的表征 , 说不定才是下一个飞跃 。
分析师介绍:
本文作者为王子嘉 , 目前在帝国理工学院人工智能硕士在读 。 主要研究方向为 NLP 的推荐等 , 喜欢前沿技术 , 热爱稀奇古怪的想法 , 是立志做一个不走寻常路的研究者的男人!
关于机器之心全球分析师网络 Synced Global Analyst Network
机器之心全球分析师网络是由机器之心发起的全球性人工智能专业知识共享网络 。 在过去的四年里 , 已有数百名来自全球各地的 AI 领域专业学生学者、工程专家、业务专家 , 利用自己的学业工作之余的闲暇时间 , 通过线上分享、专栏解读、知识库构建、报告发布、评测及项目咨询等形式与全球 AI 社区共享自己的研究思路、工程经验及行业洞察等专业知识 , 并从中获得了自身的能力成长、经验积累及职业发展 。
【机器之心|窥一斑而知全豹,三篇论文遍历ICLR 2020新型表征方式】感兴趣加入机器之心全球分析师网络?点击阅读原文 , 提交申请 。


推荐阅读