一篇适合新手的深度学习综述( 四 )


最大池化卷积神经网络 (MPCNN) 主要对卷积和最大池化进行操作 , 特别是在数字图像处理中 。MPCNN 通常由输入层以外的三种层组成 。卷积层获取输入图像并生成特征图 , 然后应用非线性激活函数 。最大池层向下采样图像 , 并保持子区域的最大值 。全连接层进行线性乘法 。在深度 MPCNN 中 , 在输入层之后周期性地使用卷积和混合池化 , 然后是全连接层 。
5.2.2 极深的卷积神经网络
Simonyan 和 Zisserman(2014) 提出了非常深层的卷积神经网络 (VDCNN) 架构 , 也称为 VGG Net 。VGG Net 使用非常小的卷积滤波器 , 深度达到 16-19 层 。Conneau 等人 (2016) 提出了另一种文本分类的 VDCNN 架构 , 使用小卷积和池化 。他们声称这个 VDCNN 架构是第一个在文本处理中使用的 , 它在字符级别上起作用 。该架构由 29 个卷积层组成 。
5.3 网络中的网络
Lin 等人 (2013) 提出了网络中的网络 (Network In Network,NIN) 。NIN 以具有复杂结构的微神经网络代替传统卷积神经网络 (CNN) 的卷积层 。它使用多层感知器 (MLPConv) 处理微神经网络和全局平均池化层 , 而不是全连接层 。深度 NIN 架构可以由 NIN 结构的多重叠加组成 。
5.4 基于区域的卷积神经网络
Girshick 等人 (2014) 提出了基于区域的卷积神经网络 (R-CNN) , 使用区域进行识别 。R-CNN 使用区域来定位和分割目标 。该架构由三个模块组成:定义了候选区域的集合的类别独立区域建议 , 从区域中提取特征的大型卷积神经网络 (CNN) , 以及一组类特定的线性支持向量机 (SVM) 。
5.4.1 Fast R-CNN
Girshick(2015) 提出了快速的基于区域的卷积网络 (Fast R-CNN) 。这种方法利用 R-CNN 架构能快速地生成结果 。Fast R-CNN 由卷积层和池化层、区域建议层和一系列全连接层组成 。
5.4.2 Faster R-CNN
Ren 等人 (2015) 提出了更快的基于区域的卷积神经网络 (Faster R-CNN) , 它使用区域建议网络 (Region Proposal Network, RPN) 进行实时目标检测 。RPN 是一个全卷积网络 , 能够准确、高效地生成区域建议 (Ren et al. , 2015) 。
5.4.3 Mask R-CNN
何恺明等人 (2017) 提出了基于区域的掩模卷积网络 (Mask R-CNN) 实例目标分割 。Mask R-CNN 扩展了 R-CNN 的架构 , 并使用一个额外的分支用于预测目标掩模 。
5.4.4 Multi-Expert R-CNN
Lee 等人 (2017) 提出了基于区域的多专家卷积神经网络 (ME R-CNN) , 利用了 Fast R-CNN 架构 。ME R-CNN 从选择性和详尽的搜索中生成兴趣区域 (RoI) 。它也使用 per-RoI 多专家网络而不是单一的 per-RoI 网络 。每个专家都是来自 Fast R-CNN 的全连接层的相同架构 。
5.5 深度残差网络
He 等人 (2015) 提出的残差网络 (ResNet) 由 152 层组成 。ResNet 具有较低的误差 , 并且容易通过残差学习进行训练 。更深层次的 ResNet 可以获得更好的性能 。在深度学习领域 , 人们认为 ResNet 是一个重要的进步 。
5.5.1 Resnet in Resnet
Targ 等人 (2016) 在 Resnet in Resnet (RiR) 中提出将 ResNets 和标准卷积神经网络 (CNN) 结合到深层双流架构中 。
5.5.2 ResNeXt
Xie 等人 (2016) 提出了 ResNeXt 架构 。ResNext 利用 ResNets 来重复使用分割-转换-合并策略 。

一篇适合新手的深度学习综述

文章插图
 
5.6 胶囊网络
Sabour 等人 (2017) 提出了胶囊网络 (CapsNet) , 即一个包含两个卷积层和一个全连接层的架构 。CapsNet 通常包含多个卷积层 , 胶囊层位于末端 。CapsNet 被认为是深度学习的最新突破之一 , 因为据说这是基于卷积神经网络的局限性而提出的 。它使用的是一层又一层的胶囊 , 而不是神经元 。激活的较低级胶囊做出预测 , 在同意多个预测后 , 更高级的胶囊变得活跃 。在这些胶囊层中使用了一种协议路由机制 。Hinton 之后提出 EM 路由 , 利用期望最大化 (EM) 算法对 CapsNet 进行了改进 。
5.7 循环神经网络
循环神经网络 (RNN) 更适合于序列输入 , 如语音、文本和生成序列 。一个重复的隐藏单元在时间展开时可以被认为是具有相同权重的非常深的前馈网络 。由于梯度消失和维度爆炸问题 , RNN 曾经很难训练 。为了解决这个问题 , 后来许多人提出了改进意见 。
Goodfellow 等人 (2016) 详细分析了循环和递归神经网络和架构的细节 , 以及相关的门控和记忆网络 。


推荐阅读