[机器之心]张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增( 二 )


然后将块输入 X 根据通道维数 X = {X1, X2, ...XG} 分为 G = KR 个组 。 在每个单独的组中应用不同的变换 {F_1, F_2, ...F_G} , 则每个组的中间表征为 Ui = Fi(Xi), i ∈ {1, 2, ...G} 。
基数组中的 Split Attention
根据 [30,38] , 每个基数组的组合表征可以通过跨多个 split 的元素求和融合来获得 。 第 k 个基数组的表征为:
[机器之心]张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增
本文插图

, k ∈ 1, 2, ...K 。 带有嵌入 channel-wise 统计数据的全局上下文信息可以通过全局池化来获得 。 第 c 个分量的计算公式为:
[机器之心]张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增
本文插图

基数组表征 V^k ∈ R^{H×W×C/K} 的加权融合通过使用 channel-wise 软注意力来聚合 。 其中 , 每个特征图通道都是在若干 split 上使用一个加权组合获得的 。 第 c 个通道的计算公式如下:
[机器之心]张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增
本文插图

ResNeSt 块
随后 , 将基数组表征根据通道维数进行级联:V = Concat{V^1 , V^2 , ...V^K} 。 和标准残差块中一样 , 如果输入和输出特征图共享相同的形状 , 则使用快捷连接生成 Split-Attention 块的最终输出 Y , Y = V +X 。 对于步幅较大的块 , 将适当的变换 T 应用于快捷连接以对齐输出形状:Y = V + T(X) 。 T 可以是跨步卷积或带有池化的组合卷积 。
图 1 右为 Split-Attention 块的实例 , 组变换 F_i 是 1×1 卷积 , 然后是 3×3 卷积 , 注意力权重函数 G 使用两个带有 ReLU 激活函数的全连接层进行参数化 。
与现有注意力方法的关系
squeeze-and-attention(原论文叫 excitation)是 SE-Net 论文中首先引入的 , 核心想法是应用全局上下文预测 channel-wise 的注意力因素 。 若 radix=1 , Split-Attention 块可将 squeeze-and-attention 操作应用于每个基数组 , 而 SE-Net 则在整个块的顶部运行 , 与多个组无关 。 此前 SK-Net 等模型引入了两个网络分支之间的特征注意力 , 但这些操作没有针对训练效率及扩展到大规模神经网络进行优化 。 新的方法扩展了之前的特征图注意力相关研究 , 但其实现在计算上仍然是高效的 。
图 1 展示了 ResNeSt 块与 SE-Net 和 SK-Net 块的整体对比 。
[机器之心]张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增
本文插图

Split-Attention 的细节可参考图 2 。
[机器之心]张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增
本文插图

实验
第一个实验研究了 ResNeSt 在 ImageNet 2012 数据集上的图像分类性能 , 结果如表 3 所示 。 ResNeSt50 达到了 81.13% 的 top-1 准确度 。
[机器之心]张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增
本文插图

表 3:ImageNet 上的图像分类结果 。
表 5 和表 6 显示了 ResNeSt 在目标检测和实例分割任务中的表现 。
[机器之心]张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增
本文插图

表 5:在 MS-COCO 验证集上的目标检测性能结果 。
在目标检测任务中 , 与使用标准 ResNet 的基线相比 , ResNeSt 骨干网络能够将模型在 Faster-RCNN 和 CascadeRCNN 上的 mAP(平均精度均值)提高大约 3% 。
[机器之心]张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增
本文插图

表 6:在 MS-COCO 验证集上的实例分割结果 。


推荐阅读