计算机视觉工坊汇总|实时性语义分割算法（上篇）

北京联盟_本文原题：汇总|实时性语义分割算法（上篇）
作者：Danny明泽来源：微信公众号|计算机视觉工坊（系投稿）
前言
本次给大家更新的是关于实时语义分割的工作。
语义分割论文
语义图像分割是计算机视觉中发展最快的领域之一，有着广泛的应用。在许多领域，如机器人和自动驾驶汽车，语义图像分割是至关重要的，因为它提供了必要的上下文，以采取行动，基于对场景的理解在像素级。
对于图像的理解有一下几个层次：

分类，即将图像中最具代表性的物体归为某一个类；
带有定位的分类，对分类任务的一个扩展，使用边界框将对象框起来在分类；
目标检测，对多个不同类型的对象进行分类和定位；
语义分割，是对图像中的每个像素进行分类和定位；
实例分割，是语义分割的扩展，在实例分割中，相同类型的不同对象被视为不同的对象；
全景分割，结合语义分割和实例分割，所有像素被分配一个类标签，所有对象实例都被独立分割

【1】自主驾驶车辆实时语义分割的比较研究
《A Comparative Study of Real-time Semantic Segmentation for Autonomous Driving》
链接：
https://openaccess.thecvf.com/content_cvpr_2018_workshops/papers/w12/Siam_A_Comparative_Study_CVPR_2018_paper.pdf

本文插图
该文构建了一个实时语义分割框架，通过不同的编码解码框架，提供了几个例子编码器，包括VGG16, Resnet18, MobileNet ，和ShuffleNet和解码器，包括SkipNet, UNet和膨胀前端。该框架是可扩展的，可以添加新的编码器和解码器。
语义分割方法的分类：

本文插图
【2】高效的语义分割CNN设计技术分析
《Analysis of efficient CNN design techniques for semantic segmentation》
链接：
https://openaccess.thecvf.com/content_cvpr_2018_workshops/papers/w12/Briot_Analysis_of_Efficient_CVPR_2018_paper.pdf
与上一个一样都是编码解码结构：

本文插图
简单的编码器：

本文插图
Handling scale of objects

本文插图
a）Cross channel filters
b）Cross layer connections
c）Wider bank of filters
d）Split branching and summation joining

本文插图
量化：
使用tensorflow或Nvidia TensorRT将神经网络的float32类型计算量化为int8类型的计算，实现加速，直接用int8类型计算对神经网络进行训练
高效结构设计原则
1.通过约束结构超参数平衡模型大小和准确率：增加网络深度，减少每一个卷积层输入的通道数，减小输入图片的分辨率
2.减少冗余的卷积核：卷积核分解（一个7x7卷积层分解为3个3x3卷积层，kxk卷积层分解为1xk卷积层和kx1卷积层）
3.通过激活函数校准卷积核（CReLU）
使用对称性校准卷积核（G-CNN）
卷积设计