机器之心|窥一斑而知全豹，三篇论文遍历ICLR 2020新型表征方式( 六 )

本文插图

在训练的时候，从 codebook 中选取对应的变量 \ hat{z}=e_i ，从而最终的损失函数变成了：

本文插图

这里 sg(x) \equiv x, 而其导数恒等于 0 。这里括号中的前半部分是为了让 codebook 中的表征与编码器的输出更接近，而后半部分则是为了让编码器的输出能够与 codebook 中的中心点更近。
在上述基础上，为了避免模式瓦解（mode collapse）的问题，作者又提出了多变量组（multiple variable groups）的方法。首先将密集的特征向量 z 分成 G 组，从而得到 \ hat{z} 。然后作者用整数索引表示每一行，因此可以这个索引 i∈[V]^G 来表示完整的特征向量。
其中 V 表示该特定组的可能变量数，每个元素 i_j 对应一个固定的 codebook 向量。对于每一个组，我们使用两种 VQ 方法中的一种。
codebook 本身可以通过两种可能的方式进行初始化：可以在组之间共享 codebook 变量，即索引也将共享。相反，不共享 codebook 变量，索引的大小就会变大一些。。在实践中，我们观察到共享 codebook 变量通常会比非共享表征的效果要好。
3.3 实验结果
如图 8 所示，这个算法在各种任务上的表现基本都是最好的（黑体），具体的实验细节以及熔断研究这里不做详细探讨。值得一提的是，不管是这里跟 wav2vec 的对比还是作者后面与单独 vq-wav2vec 的对比， BERT 的加入都是让结果优化极多的。

本文插图
图 8：实验结果。
3.4 小结
这篇文章主要的亮点在于 BERT 和 wav2vec 两个方法的合并，也是一种连续信号的处理方式，提供了一种将语音信号转换成 NLP 任务常见输入的思路，但是正如这篇论文的评论说的那样， BERT 会提供那么大的改进的原因是很有探索的必要的，这样才能降低这个算法的计算量，同时真正能够更加灵活地用更高效的方法完成语音信号的表征。
总结
本文介绍了三篇论文，都是很好的研究方向，也有很多坑可以继续去填。第一篇论文可以作为一个很好的新手入门教材，第二篇文章则给大家带来一个新视角——稀疏矩阵有时也会有自己的优势，不同的矩阵特征可能在不同的任务中有奇效。最后一篇论文则展示了目前信号处理上对于表征的较新进展，个人感觉坑还是很多的，但是要对信号处理和人工智能两个领域都有一定了解才可以有较为不错的发现，所以挑战也很大。表征本身很容易被人忽视，很多人都去重视如何提升网络的性能，其实找到一个更为通用的表征，说不定才是下一个飞跃。
分析师介绍：
本文作者为王子嘉，目前在帝国理工学院人工智能硕士在读。主要研究方向为 NLP 的推荐等，喜欢前沿技术，热爱稀奇古怪的想法，是立志做一个不走寻常路的研究者的男人！
关于机器之心全球分析师网络 Synced Global Analyst Network
机器之心全球分析师网络是由机器之心发起的全球性人工智能专业知识共享网络。在过去的四年里，已有数百名来自全球各地的 AI 领域专业学生学者、工程专家、业务专家，利用自己的学业工作之余的闲暇时间，通过线上分享、专栏解读、知识库构建、报告发布、评测及项目咨询等形式与全球 AI 社区共享自己的研究思路、工程经验及行业洞察等专业知识，并从中获得了自身的能力成长、经验积累及职业发展。
【机器之心|窥一斑而知全豹，三篇论文遍历ICLR 2020新型表征方式】感兴趣加入机器之心全球分析师网络？点击阅读原文，提交申请。

机器之心|窥一斑而知全豹，三篇论文遍历ICLR 2020新型表征方式( 六 )

推荐阅读

女排队员|请求追究造谣者刑事责任，朱婷报案称网民造谣诽谤

感情|原创王思聪女友官宣分手被群嘲，再发文力证清白，望大家停止恶意揣测

诗韵妈妈育儿经尤其是这5项关乎胎儿安危，孕妈妈要牢记，“孕检”再穷也要做

百变孙佳雨极致摩登复古长发及腰引领撞色风潮

##客厅安装灯带有必要吗？

摘下|她是《射雕英雄传》中梅超风，10年不摘帽子，摘下令人感慨颇多

巅峰战队今天才知道，华为手机按一下这个键，10秒就能生成照片视频

广西：白头叶猴数量增至1200只左右

[手游观察室]海岛纪元：鱼儿也能当坐骑？坐在浮空的峡湾鳐鱼上真是太帅了

小宝育儿课堂长大后多半没出息，你家孩子中没？，孩子吃饭时若有3种“表现”

尿路感染按摩反射区

【】男篮国家队最新集训名单出炉杜锋详解人员构成

你养的多肉，最长的时间是多少年？5年的群生老桩，谁见了不动心

我是那水还是鱼|心理学：你最中意哪一个铃铛？测试你十年后有多少存款

实体|定期存款利率为何整体跌了？专家：金融支持实体经济恢复

新民晚报|名牌风衣、围巾都是假货？涉千万元制售假冒国际品牌服装案提起公诉

味觉：茶的浓淡，是味觉的审美

10寸屏幕长宽多少厘米，15寸显示屏等于多少厘米

Centos 7 添加磁盘设备

「老照片」珍贵历史老照片: 图2让男人移不开眼、图4让人唾弃、图6至今是谜