计算机视觉工坊汇总|实时性语义分割算法(上篇)( 二 )


  1. 1x1卷积降维 , 减少卷积的输入通道数
  2. Group convolution
  3. Depth-wise Separable convolution
实验结果:
计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
【3】基于空间稀疏性的实时语义图像分割
《Real-time Semantic Image Segmentation via Spatial Sparsity》
链接:https://arxiv.org/pdf/1712.00213.pdf
对于一个典型的两输入的全卷积网络引入了空间稀疏性 , 展示了在提高Inference速度的同时并没有随时太多精度;
展示了使用空间稀疏性 , 使用in-column和cross-column的链接、移除残差单元 , 能够25倍的缩小计算开销 , 丢掉一点精度 。
计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
三种典型方法:

计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
下面是该问提出的框架:
计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
实验结果:
计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
【4】ENet:一种用于实时语义分割的深度神经网络架构
《ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation》
链接:https://arxiv.org/abs/1606.02147
ENet是为移动端开发而设计的分割框架 , 其主要结构为如下图中的bottleneck模块
计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
其模型架构如下:
计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
1.为了减少内核调用和内存操作 , 没有在任何投影中使用bias , 因为cuDNN会使用单独的内核进行卷积和bias相加 。 这种方式对准确性没有任何影响 。
2.在每个卷积层和随后的非线性层之间 , 使用BN
3.在解码器中 , 用max unpooling代替max pooling , 用无bias的spatial convolution代替padding
4.在最后一个上采样模块中没有使用池化索引 , 因为initial初始块是在输入图的3个通道上进行的操作 , 而最终的输出具有C个特征图(分割对象类别的数量) 。
【5】ICNet用于高分辨率图像的实时语义分割
《ICNet for Real-Time Semantic Segmentation on High-Resolution Images》
链接:https://arxiv.org/abs/1704.08545
ICNet使用了级联的图像输入(即低、中、高分辨率图像) , 采用了级联的特征融合单元 , 训练时使用了级联的标签监督 。
计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
ICNet包括三个分支:
1.低分辨率分支来获取语义信息 , 将原图1/4大小的图像输入到PSPNet中 , 降采样率为8 , 产生了原图1/32的特征图 。
2.中分辨率和高分辨率的分支进行粗糙预测的恢复和细化 , 图2中部和底部分支 , 获得高质量的分割 。
3.高分辨率分支采用轻加权的CNNs(绿色虚线框 , 底部分支和中部分支);不同分支输出的特征图采用级联特征融合单元进行融合 , 训练时接受梯级标签监督 。
级联特征融合:
计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
【6】加速自动驾驶的语义分割
《Speeding up Semantic Segmentation for Autonomous Driving》


推荐阅读