计算机视觉工坊汇总|实时性语义分割算法(全)( 三 )
【19】ContextNet:实时为语义分割探索上下文和细节
《ContextNet: Exploring Context and Detail for Semantic Segmentation in Real-time》
链接:https://arxiv.org/pdf/1805.04554.pdf
模型结构:
本文插图
ContextNet利用更深层的网络 , 增加的层数有助于学习更复杂和抽象的特征 , 从而提高准确性 , 但也增加了运行时间 。 聚合来自多个分辨率的上下文信息是有益的 , 结合了多个级别的信息以提高性能 。
Depth-wise Convolution to Improve Run-time:
深度可分离卷积将标准卷积(Conv2d)分解为深度上的卷积(DWConv) , 也称为空间或通道上的卷积 , 然后是1×1的点卷积层 。 因此 , 跨通道和空间相关性的计算是独立的 , 这大大减少了参数的数量 , 导致更少的浮点运算和快速的执行时间 。
ContextNet利用了DWConv , 输入下采样的子网使用了DWConv的瓶颈残差块 。
Capturing Global and Local Context:
ContextNet有两个分支 , 一个是全分辨率(h×w) , 另一个是低分辨率(如h/4 w/4) , 输入图像高度h , 宽度w 。 每个分支都有不同的职责;后者捕捉图像的全局上下文 , 前者为更高分辨率的分割提供细节信息 。
- 为了快速提取特征 , 语义丰富的特征只从最低可能的分辨率提取;
- 局部上下文的特征通过一个非常浅的分支从全分辨率输入中分离出来 , 然后与低分辨率的结果相结合 。
《CGNet: A Light-weight Context Guided Network for Semantic Segmentation》
链接:https://arxiv.org/pdf/1811.08201.pdf
该文分析了语义分割的内在特性 , 提出了学习局部特征和周围上下文的联合特征 , 并进一步改进全局上下文的联合特征的CG块 。 有效的利用 local feature, surrounding context and global context 。 其中的CG块 , 在各个阶段有效地捕获上下文信息 。 CGNet的主干是专门为提高分割精度而定制的 , 以减少参数的数量和节省内存占用 。 在相同数量的参数下 , 提出的CGNet显著优于现有的分割网络(如ENet和ESPNet) 。
模型结构:
本文插图
在CG block引入残差学习 , 两种方式:local residual learning (LRL) 和global residual learning (GRL) , 如下图所示:
本文插图
由CG block定义CGNet:较少的卷积层和较少的通道数 , 从而减少参数量 。
本文插图
本文插图
个人观点:
1)CGNet进一步拓展了non-local的概念 , 从local,surrounding和global三个层次获取空间特征间的关联 。
2)在CGNet的stage2和stage3都使用GC block , 区别于non-local中只有resnet部分stage和部分blcok之间引入non-local机制 。
【21】用于自动驾驶的实时语义分割解码器的设计
《Design of Real-time Semantic Segmentation Decoder for Automated Driving》
链接:https://arxiv.org/pdf/1901.06580.pdf
本文是采用编码解码结构 , 编码器是独立的10层VGG 。
推荐阅读
- 汽车|复旦博士、脱口秀演员开发类视网膜传感器 将无人车视觉感光性能提升1万亿倍
- 游戏|《地平线:西部禁域》中文故事预告 新主视觉图公布
- 飞机|两架客机眼看在空中“相撞”却擦身而过 专家:视觉错觉 相距很远
- 一加10|Pixelworks三大视觉技术加持:一加10 Pro显示颜色完美无偏差
- OPPO|专为色觉障碍人士打造!OPPO公开色彩视觉检测技术:辨色正确度提升80%
- 论文|2020中国卓越科技论文近50万篇:计算机等4大领域位列世界第一
- 特斯拉|马斯克在线科普特斯拉为何不用雷达 网友道破真相:纯视觉成本低
- 视觉欺骗|2021年最强视觉欺骗!只有王者级的眼睛才能识破
- IDC|仅剩十年!IDC称经典计算机将面临来自量子计算机的巨大挑战
- 大学生|5名大学生处置实验室漏水获奖12万:避免我国新一代量子计算机研发延误
