计算机视觉工坊汇总|实时性语义分割算法（上篇）( 二 )

1x1卷积降维，减少卷积的输入通道数
Group convolution
Depth-wise Separable convolution

实验结果：

本文插图
【3】基于空间稀疏性的实时语义图像分割
《Real-time Semantic Image Segmentation via Spatial Sparsity》
链接：https://arxiv.org/pdf/1712.00213.pdf
对于一个典型的两输入的全卷积网络引入了空间稀疏性，展示了在提高Inference速度的同时并没有随时太多精度；
展示了使用空间稀疏性，使用in-column和cross-column的链接、移除残差单元，能够25倍的缩小计算开销，丢掉一点精度。

本文插图
三种典型方法：

本文插图
下面是该问提出的框架：

本文插图
实验结果：

本文插图
【4】ENet:一种用于实时语义分割的深度神经网络架构
《ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation》
链接：https://arxiv.org/abs/1606.02147
ENet是为移动端开发而设计的分割框架，其主要结构为如下图中的bottleneck模块

本文插图
其模型架构如下：

本文插图
1.为了减少内核调用和内存操作，没有在任何投影中使用bias ，因为cuDNN会使用单独的内核进行卷积和bias相加。这种方式对准确性没有任何影响。
2.在每个卷积层和随后的非线性层之间，使用BN
3.在解码器中，用max unpooling代替max pooling ，用无bias的spatial convolution代替padding
4.在最后一个上采样模块中没有使用池化索引，因为initial初始块是在输入图的3个通道上进行的操作，而最终的输出具有C个特征图(分割对象类别的数量) 。
【5】ICNet用于高分辨率图像的实时语义分割
《ICNet for Real-Time Semantic Segmentation on High-Resolution Images》
链接:https://arxiv.org/abs/1704.08545
ICNet使用了级联的图像输入(即低、中、高分辨率图像) ，采用了级联的特征融合单元，训练时使用了级联的标签监督。

本文插图
ICNet包括三个分支：
1.低分辨率分支来获取语义信息，将原图1/4大小的图像输入到PSPNet中，降采样率为8 ，产生了原图1/32的特征图。
2.中分辨率和高分辨率的分支进行粗糙预测的恢复和细化，图2中部和底部分支，获得高质量的分割。
3.高分辨率分支采用轻加权的CNNs(绿色虚线框，底部分支和中部分支)；不同分支输出的特征图采用级联特征融合单元进行融合，训练时接受梯级标签监督。
级联特征融合：