『图片』增强版CutMix:CMU提出Attentive CutMix


北京联盟_本文原题:增强版CutMix:CMU提出Attentive CutMix
论文标题:Attentive CutMix: An Enhanced Data Augmentation Approach for Deep Learning Based Image Classification
论文链接:https://arxiv.org/abs/2003.13048
本文提出了一种新的 Data Augmentation 的方法:Attentive CutMix 。 基于 CutMix 的随机空间混合的数据增强方法 , 本文提出在选取混合区域的时候考虑区域的语义信息含量 , 提取语义信息量最大的区域覆盖到新的图片上进行混合 , 将更有利于网络学习有效特征 。
Attentive CutMix 可以看作是增强版 CutMix, 在 ImageNet 等数据集以及 ResNet 等网络上均取得了相较于 CutMix 和 MixUp 更优的结果 。
研究动机
近来有许多基于图片融合的数据增强方法如 MixUp [1] , CutMix [2] 等等 , 通过简单的将两张图片进行像素值上或者是空间上的线性混合 , 在图像分类问题中取得了有效的性能提升 。
而且研究者发现局部替换相比全局融合在语义层面更加明确 , 效果也更好 , 比如 CutMix 。 但是由于 CutMix 都是随机混合 , 而没有考虑语义上的重要性差异 。
最近 , CMU 实验室的研究者们发现 , 如果借助训练好的网络根据图片本身特有的特征进行有选择性地剪切混合 , 可以更好地促进图片进行融合 , 突出最具有分辨性的图片区域 , 从而帮助网络训练和学习 , 几种相关方法的对比如下图所示:
『图片』增强版CutMix:CMU提出Attentive CutMix
本文插图

Mixup 是对于两张不同图片上的像素值进行混合 , 并且修改相应的标签 , CutOut 是随机去除遮盖图片的一部分 , CutMix 是随机将图片的一部分区域替换为另一张训练图片的内容 , 并修改相应的标签 。
方法
本文中提出的 Attentive CutMix 则是将新图片中语义信息最显著的多个区域切割下来 , 覆盖到原图中 , 从而更有利于网络学习正确的特征来分辨不同的图片 。
Attentive CutMix 的具体实现方式如图所示:
『图片』增强版CutMix:CMU提出Attentive CutMix
本文插图

先将待融合的图片通过一个用于特征提取的已训练好的神经网络 , 得到 7x7 的热度图 。 然后根据热度图的值 , 找到热度值最高的 N 个网格 , 从输入图片中将这些网格对应的区域裁剪下来 , 覆盖到另一张带融合图片上 , 用于训练目标神经网络 。
同时 , ground truth label 也根据融合的图片的类和剪切的区域的大小比例而相应修改 。
该方法有个缺点就是需要用一个训练好的网络先过一遍图片产生 attention map , 这样会产生额外的计算开销 , 不过作者指出这个特征提取网络不需要太大 , 额外引入的计算量相比于分类网络本身而言是可以接受的 。
实验
作者在 Cifar10 ,Cifar100 和 ImageNet 数据集和 ResNet , DenseNet , EfficientNet 等网络结构上都进行了实验 , Attentive CutMix 均取得了比 MixUp 和 CutMix 更好的效果:
Cifar10 上的实验结果:
『图片』增强版CutMix:CMU提出Attentive CutMix
本文插图

Cifar100 上的实验结果:
『图片』增强版CutMix:CMU提出Attentive CutMix
本文插图

ImageNet 上的实验结果:
『图片』增强版CutMix:CMU提出Attentive CutMix
本文插图

参考文献
[1] Hongyi Zhang, Moustapha Cisse, Yann N. Dauphin, and David Lopez-Paz. "mixup: Beyond empirical risk minimization." In ICLR 2018.


推荐阅读