计算机视觉工坊汇总|实时性语义分割算法(上篇)( 四 )


本文插图
主要分为这么几个模块 , Downsampling Block和EDA Block和最后的Projection Layer 。 其中的EDA Block又包括多个EDA module 。 其中EDA module的结构如下所示:
计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
其中有两组asymmetric conv , 前一组是正常的conv , 后一组是dilated conv , 这种asymmetic conv可以减少33%的计算量 , 并且只会带来少量的性能下降 。
对于网络结构的设计 , 使用了ENet的initial block作为downsampling block , 并且分成了两种模式 , 其表示如下:
计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
这样的downsampling block可以让网络具有更大的感知野 , 用于收集上下文信息 , 在最后 , 相对于全解析度的输入图片 , 特征尺寸变为了1/8 , 而其他的网络比如SegNet特征尺寸则变为了1/32 。
【10】ESPNet:扩展卷积的高效空间金字塔语义分割
《ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation》
链接:https://arxiv.org/pdf/1803.06815.pdf
原理:ESP Module基于卷积分解原理 , 将标准卷积分解为两个步骤:
1)point-wise convolutions 逐点卷积
2)spatial pyramid of dilated convolutions 空间金字塔型膨胀卷积
ESP运算高效 , 并且可以用在CNNs的不同空间级别上(主要是相对ASP而言)
理论上 , ESP模块比Inception 和 ResNext的模块更高效 。 另外的试验结果表明 , 在相同硬件和计算条件下 , ESP模块也优于现有表现最佳的MobileNet 和 ShuffleNet
ESP模块:
计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
因为使用了大感受野的膨胀卷积 , 导致了gridding artifacts现象 , 如下图所示 。 本文提出了使用HFF方法来解决该问题 , 具体做法就是从最小的膨胀卷积核输出的那张feature map开始 , 逐级叠加 。 这样的做法并没有引入任何新的参数 , 同时计算量上也没有增加太多 , 但却有效地改善了网格效应 。
计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
【11】ESPNetv2:一个轻量级、高效、通用的卷积神经网络
《ESPNetv2: A Light-weight, Power Efficient, and General Purpose Convolutional Neural Network》
链接:https://arxiv.org/pdf/1811.11431.pdf
与第一版本相比 , 其特点如下:
1)将原来ESPNet的point-wise convolutions替换为group point-wise convolutions;
2)将原来ESPNet的dilated convolutions替换为depth-wise dilated convolution;
3)HFF加在depth-wise dilated separable convolutions和point-wise (or 1 × 1)卷积之间 , 去除gridding artifacts;
4)使用group point-wise convolution 替换K个point-wise convolutions;
5)加入平均池化(average pooling ),将输入图片信息加入EESP中;
6)使用级联(concatenation)取代对应元素加法操作(element-wise addition operation );
其总体框架如图所示:
计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
【12】轻量级语义分段的集中综合卷积
《Concentrated-Comprehensive Convolutions for lightweight semantic segmentation》
链接:https://arxiv.org/pdf/1812.04920v1.pdf
第一阶段对来自邻近像素的压缩信息使用两个深度上的不对称卷积 。 第二阶段利用与第一阶段特征图在深度上可分离的扩张卷积来增加感受野 。 通过用提议的CCC模块替换传统ESP模块 , 在不降低Cityscapes数据集精度的情况下 , 与速度最快的模型之一ESPnet相比 , 减少一半的参数数量和35%的失败数量 。


推荐阅读