计算机视觉工坊汇总|实时性语义分割算法(上篇)( 三 )


链接:https://openreview.net/pdf?id=S1uHiFyyg
该架构包括ELU激活功能、一个类似挤压式的编码器、随后的并行扩展卷积以及一个具有类似于sharpmask的细分模块的解码器

计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
译文:该编码器是一个改进的SqueezeNet 架构 , 它被设计为一个低延迟的网络 , 用于图像识别 , 同时保持AlexNet的准确性 。
计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
实验结果:
计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
【7】高效卷积网络用于实时语义分割
实时语义分割的《Efficient ConvNet for Real-time Semantic Segmentation》
链接:
http://www.robesafe.uah.es/personal/eduardo.romera/pdfs/Romera17iv.pdf
Efficient ConvNet模型整体结构遵循编码-解码结构 ,
计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图

计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
详细构造如下表:
计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
整个模型包含23层 , 其中1-16层为Encoder , 17-23层为Decoder 。
编码部分包含1、2、8层的下采样过程 , 以及余下层的Non-bt-1D提取特征 。 其中Non-bt-1D、Downsample构造如下:
计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
实验结果:
计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图

计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
【8】ERFNet:用于实时语义分割的高效残差分解卷积网络
《ERFNet: Efficient Residual Factorized ConvNet for Real-time Semantic Segmentation》
链接:
http://www.robesafe.es/personal/eduardo.romera/pdfs/Romera17tits.pdf
REFNet沿用了编码-解码结构 , 其详细结构如表所示 。
计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图

计算机视觉工坊汇总|实时性语义分割算法(上篇)
本文插图
整个网络包含23层 , 其中1-16层为Encoder, 17-23层为Decoder 。
Downsampler block受另一个实时语义分割网络Enet的设计 , 其实本文不少灵感也来自于Enet:
例如在初始图像输入1024X512X3 , 左边经过3X3卷积 , 步长strides = 2 , 得到16 channels ,
右边经过MaxPooling 得到3 channels , 经过concat操作后得到16channels , 最终图像变为 512X256X16 , 然后使用Relu函数激活传入下一层 。
优点在于从输入图像一开始就进行了减少输入图像尺寸的操作 , 本身视觉信息就存在大量冗余 , 这样节省了大量的计算 。
【9】EDANet:用于实时语义分割的高效的非对称卷积密集模块
《Efficient Dense Modules of Asymmetric Convolution for Real-Time Semantic Segmentation》
链接:https://github.com/shaoyuanlo/EDANet
模型框架如下:
计算机视觉工坊汇总|实时性语义分割算法(上篇)


推荐阅读