Karpathy 等人 (2015) 使用字符级语言模型来分析和可视化预测、表征训练动态、RNN 及其变体 (如 LSTM) 的错误类型等 。
J´ozefowicz 等人 (2016) 探讨了 RNN 模型和语言模型的局限性 。
5.7.1 RNN-EM
Peng 和 Yao(2015) 提出了利用外部记忆 (RNN-EM) 来改善 RNN 的记忆能力 。他们声称在语言理解方面达到了最先进的水平 , 比其他 RNN 更好 。
5.7.2 GF-RNN
Chung 等 (2015) 提出了门控反馈递归神经网络 (GF-RNN) , 它通过将多个递归层与全局门控单元叠加来扩展标准的 RNN 。
5.7.3 CRF-RNN
Zheng 等人 (2015) 提出条件随机场作为循环神经网络 (CRF-RNN) , 其将卷积神经网络 (CNN) 和条件随机场 (CRF) 结合起来进行概率图形建模 。
5.7.4 Quasi-RNN
Bradbury 等人 (2016) 提出了用于神经序列建模和沿时间步的并行应用的准循环神经网络 (QRNN) 。
5.8 记忆网络
Weston 等人 (2014) 提出了问答记忆网络 (QA) 。记忆网络由记忆、输入特征映射、泛化、输出特征映射和响应组成 。
5.8.1 动态记忆网络
Kumar 等人 (2015) 提出了用于 QA 任务的动态记忆网络 (DMN) 。DMN 有四个模块:输入、问题、情景记忆、输出 。
5.9 增强神经网络
Olah 和 Carter(2016) 很好地展示了注意力和增强循环神经网络 , 即神经图灵机 (NTM)、注意力接口、神经编码器和自适应计算时间 。增强神经网络通常是使用额外的属性 , 如逻辑函数以及标准的神经网络架构 。
5.9.1 神经图灵机
Graves 等人 (2014) 提出了神经图灵机 (NTM) 架构 , 由神经网络控制器和记忆库组成 。NTM 通常将 RNN 与外部记忆库结合 。
5.9.2 神经 GPU
Kaiser 和 Sutskever(2015) 提出了神经 GPU , 解决了 NTM 的并行问题
5.9.3 神经随机存取机
Kurach 等人 (2015) 提出了神经随机存取机 , 它使用外部的可变大小的随机存取存储器 。
5.9.4 神经编程器
Neelakantan 等人 (2015) 提出了神经编程器 , 一种具有算术和逻辑功能的增强神经网络 。
5.9.5 神经编程器-解释器
Reed 和 de Freitas(2015) 提出了可以学习的神经编程器-解释器 (NPI) 。NPI 包括周期性内核、程序内存和特定于领域的编码器 。

文章插图
5.10 长短期记忆网络
Hochreiter 和 Schmidhuber(1997) 提出了长短期记忆 (Long short - Short-Term Memory, LSTM) , 克服了循环神经网络 (RNN) 的误差回流问题 。LSTM 是基于循环网络和基于梯度的学习算法 , LSTM 引入自循环产生路径 , 使得梯度能够流动 。
Greff 等人 (2017) 对标准 LSTM 和 8 个 LSTM 变体进行了大规模分析 , 分别用于语音识别、手写识别和复调音乐建模 。他们声称 LSTM 的 8 个变种没有显著改善 , 而只有标准 LSTM 表现良好 。
Shi 等人 (2016b) 提出了深度长短期记忆网络 (DLSTM) , 它是一个 LSTM 单元的堆栈 , 用于特征映射学习表示 。
5.10.1 批-归一化 LSTM
Cooijmans 等人 (2016) 提出了批-归一化 LSTM (BN-LSTM) , 它对递归神经网络的隐藏状态使用批-归一化 。
5.10.2 Pixel RNN
van den Oord 等人 (2016b) 提出像素递归神经网络 (Pixel-RNN) , 由 12 个二维 LSTM 层组成 。
5.10.3 双向 LSTM
W¨ollmer 等人 (2010) 提出了双向 LSTM(BLSTM) 的循环网络与动态贝叶斯网络 (DBN) 一起用于上下文敏感关键字检测 。
5.10.4 Variational Bi-LSTM
Shabanian 等人 (2017) 提出了变分双向 LSTM(Variational Bi-LSTM) , 它是双向 LSTM 体系结构的变体 。Variational Bi-LSTM 使用变分自编码器 (VAE) 在 LSTM 之间创建一个信息交换通道 , 以学习更好的表征 。
5.11 谷歌神经机器翻译
Wu 等人 (2016) 提出了名为谷歌神经机器翻译 (GNMT) 的自动翻译系统 , 该系统结合了编码器网络、解码器网络和注意力网络 , 遵循共同的序列对序列 (sequence-to-sequence) 的学习框架 。
【一篇适合新手的深度学习综述】5.12 Fader Network
Lample 等人 (2017) 提出了 Fader 网络 , 这是一种新型的编码器-解码器架构 , 通过改变属性值来生成真实的输入图像变化 。
5.13 超网络
Ha 等人 (2016) 提出的超网络(Hyper Networks)为其他神经网络生成权值 , 如静态超网络卷积网络、用于循环网络的动态超网络 。
Deutsch(2018) 使用超网络生成神经网络 。
推荐阅读
- 太极扇子舞的好处适合中老年人的太极扇子舞
- 晚上适合喝红茶 但喝茶应适当
- 适合电脑族的几款养生茶
- 男生怎么选到适合自己的眼镜?看这边
- 抖音垫肩神器适合胖人吗
- 金骏眉茶的茶性温,适合女性喝!
- 任何款紫砂都适合铁观音
- 浙江省|2022 年应届生如何找到适合自己的工作?
- 一般家用电饼铛的大小是多少 电饼铛直径多少适合家用
- 花茶并非人人都适合
