[机器之心]张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增( 二 )
然后将块输入 X 根据通道维数 X = {X1, X2, ...XG} 分为 G = KR 个组 。 在每个单独的组中应用不同的变换 {F_1, F_2, ...F_G} , 则每个组的中间表征为 Ui = Fi(Xi), i ∈ {1, 2, ...G} 。
基数组中的 Split Attention
根据 [30,38] , 每个基数组的组合表征可以通过跨多个 split 的元素求和融合来获得 。 第 k 个基数组的表征为:
本文插图
, k ∈ 1, 2, ...K 。 带有嵌入 channel-wise 统计数据的全局上下文信息可以通过全局池化来获得 。 第 c 个分量的计算公式为:
本文插图
基数组表征 V^k ∈ R^{H×W×C/K} 的加权融合通过使用 channel-wise 软注意力来聚合 。 其中 , 每个特征图通道都是在若干 split 上使用一个加权组合获得的 。 第 c 个通道的计算公式如下:
本文插图
ResNeSt 块
随后 , 将基数组表征根据通道维数进行级联:V = Concat{V^1 , V^2 , ...V^K} 。 和标准残差块中一样 , 如果输入和输出特征图共享相同的形状 , 则使用快捷连接生成 Split-Attention 块的最终输出 Y , Y = V +X 。 对于步幅较大的块 , 将适当的变换 T 应用于快捷连接以对齐输出形状:Y = V + T(X) 。 T 可以是跨步卷积或带有池化的组合卷积 。
图 1 右为 Split-Attention 块的实例 , 组变换 F_i 是 1×1 卷积 , 然后是 3×3 卷积 , 注意力权重函数 G 使用两个带有 ReLU 激活函数的全连接层进行参数化 。
与现有注意力方法的关系
squeeze-and-attention(原论文叫 excitation)是 SE-Net 论文中首先引入的 , 核心想法是应用全局上下文预测 channel-wise 的注意力因素 。 若 radix=1 , Split-Attention 块可将 squeeze-and-attention 操作应用于每个基数组 , 而 SE-Net 则在整个块的顶部运行 , 与多个组无关 。 此前 SK-Net 等模型引入了两个网络分支之间的特征注意力 , 但这些操作没有针对训练效率及扩展到大规模神经网络进行优化 。 新的方法扩展了之前的特征图注意力相关研究 , 但其实现在计算上仍然是高效的 。
图 1 展示了 ResNeSt 块与 SE-Net 和 SK-Net 块的整体对比 。
本文插图
Split-Attention 的细节可参考图 2 。
本文插图
实验
第一个实验研究了 ResNeSt 在 ImageNet 2012 数据集上的图像分类性能 , 结果如表 3 所示 。 ResNeSt50 达到了 81.13% 的 top-1 准确度 。
本文插图
表 3:ImageNet 上的图像分类结果 。
表 5 和表 6 显示了 ResNeSt 在目标检测和实例分割任务中的表现 。
本文插图
表 5:在 MS-COCO 验证集上的目标检测性能结果 。
在目标检测任务中 , 与使用标准 ResNet 的基线相比 , ResNeSt 骨干网络能够将模型在 Faster-RCNN 和 CascadeRCNN 上的 mAP(平均精度均值)提高大约 3% 。
本文插图
表 6:在 MS-COCO 验证集上的实例分割结果 。
推荐阅读
- 机器人|深圳机器人产业产值1257亿元
- |《5G技术助力国产机器人完成全球首场骨科实时远程手术》公示材料
- 美军事进行时|五角大楼研制挖隧道的蚯蚓机器人为地面部队提供安全补给
- cnBetaTB|看机器人如何制作出既有颜值又美味的蛋饼
- 山东伟豪思|袋料全自动拆垛机器人的使用给企业带来了哪些益处
- 无人机这两项机器人发明,就是东京大学进军外卖界的野心!?
- 搜狐新闻|【复材资讯】碳纤维机器人手臂设计需要考虑的要素
- SILVER六足龙虾机器人成海底“清洁工”,可下潜200米续航16小时
- 新智元|机器学习团队常用工具总结,人生苦短,我用Python!
- 机器人5G+AI助力科技抗疫 各路机器人大显身手
