机器之心Pro|73岁Hinton老爷子构思下一代神经网络:属于无监督对比学习( 二 )
在高屋建瓴地介绍了自编码器的定义、训练深度自编码器之前的难点和现状之后 , Hinton 着重介绍了两种自编码器类型:变分自编码器和 BERT 自编码器 。
使用深度神经网络重建输入:VAE 和 BERT
BERT 和变分自编码器(VAE)是无监督学习的一类典型代表 , 它们使用深度神经网络重建输入 。
变分自编码器由韦灵思和 Kingma 于 2013 年提出 , 它使用多层编码器选择实数代码 , 然后用多层解码器重建数据 。 VAE 的基本构造如下图所示:
本文插图
BERT 是 2018 年谷歌提出的语言表征模型 , 基于所有层的左、右语境来预训练深度双向表征 。
本文插图
语境信息对 BERT 非常重要 , 它利用遮蔽语言模型(masked language model , MLM)允许表征融合左右两侧的语境 , 从而预训练深度双向 Transformer 。
Hinton 举了一个例子:「She scromed him with the frying pan」 。 在这个句子中 , 即使你不知道 scromed 的意思 , 也可以根据上下文语境进行推断 。
视觉领域也是如此 。 然而 , BERT 这类方法无法很好地应用到视觉领域 , 因为网络最深层需要编码图像的细节 。
本文插图
在探讨了以 VAE 和 BERT 为代表的一类无监督学习方法后 , Hinton 为我们介绍了另一类无监督学习方法 。
Becker 和 Hinton 提出最大化互信息方法
那么自编码器和生成模型有没有什么替代方案呢?Hinton 表示 , 我们可以尝试不再解释感官输入(sensory input)的每个细节 , 而专注于提取空间或时序一致性的特征 。 与自编码器不同 , 这种方法的好处在于可以忽略噪声【机器之心Pro|73岁Hinton老爷子构思下一代神经网络:属于无监督对比学习】 。
然后 , Hinton 详细介绍了他与 Suzanna Becker 在 1992 年提出的一种提取空间一致性特征的方法 。 该方法的核心理念是对输入的两个非重叠块(non-overlapping patch)表示之间的显式互信息进行最大化处理 。 Hinton 给出了提取空间一致性变量的简单示例 , 如下图所示:
本文插图
经过训练 , Hinton 指出唯一的空间一致性特征是「不一致性」(The Only Spatially Coherent Property is Disparity) , 所以这也是必须要提取出来的 。
他表示这种最大化互信息的方法存在一个棘手的问题 , 并做出以下假设 , 即如果只学习线性映射 , 并且对线性函数进行优化 , 则变量将成为分布式的 。 不过 , 这种假设并不会导致太多问题 。
以往研究方法回顾
在这部分中 , Hinton 先后介绍了 LLE、LRE、SNE、t-SNE 等方法 。
局部线性嵌入方法(Locally Linear Embedding, LLE)
Hinton 介绍了 Sam T. Roweis 和 Lawrence K. Saul 在 2000 年 Science 论文《Nonlinear Dimensionality Reduction by Locally Linear Embedding》中提到的局部线性嵌入方法 , 该方法可以在二维图中显示高维数据点 , 并且使得非常相似的数据点彼此挨得很近 。
但需要注意的是 , LLE 方法会导致数据点重叠交融(curdling)和维度崩溃(dimension collapse)问题 。
下图为 MNIST 数据集中数字的局部线性嵌入图 , 其中每种颜色代表不同的数字:
本文插图
推荐阅读
- 车壹圈|比亚迪宋PLUS预售,比宋Pro贵近3万!网友:这样做不厚道
- 趣头条|心诚则灵,携媳妇驾宋ProDM前往西来寺
- 穿搭|奚梦瑶被嘲生育机器?但自信的女人真的很美丽
- 北国金城|吉林又一景区走红,与长春相隔230公里,被称为“金城之心”
- 索菲亚|当年声称''摧毁人类''的机器人索菲亚,如今怎样了?她失控了吗?
- 趣头条|秋日限定:酷车配美人,开宋Pro打卡春晖生态酒店
- 中国循环杂志|机器学习技术可自动读冠脉造影片,仅需两秒!阜外医院徐波等EuroIntervention刊发研究
- 甲壳虫|vivo X50 Pro+拍摄实测,对比华为P40 Pro+谁更厉害?
- 庞乔|青年作家网签约作家‖庞乔:对文字抱一颗敬畏之心
- 趣头条|世界万物,唯有媳妇不可辜负,公园美拍媳妇和宋Pro
