计算机视觉工坊汇总|实时性语义分割算法(上篇)( 三 )
链接:https://openreview.net/pdf?id=S1uHiFyyg
该架构包括ELU激活功能、一个类似挤压式的编码器、随后的并行扩展卷积以及一个具有类似于sharpmask的细分模块的解码器
本文插图
译文:该编码器是一个改进的SqueezeNet 架构 , 它被设计为一个低延迟的网络 , 用于图像识别 , 同时保持AlexNet的准确性 。
本文插图
实验结果:
本文插图
【7】高效卷积网络用于实时语义分割
实时语义分割的《Efficient ConvNet for Real-time Semantic Segmentation》
链接:
http://www.robesafe.uah.es/personal/eduardo.romera/pdfs/Romera17iv.pdf
Efficient ConvNet模型整体结构遵循编码-解码结构 ,
本文插图
本文插图
详细构造如下表:
本文插图
整个模型包含23层 , 其中1-16层为Encoder , 17-23层为Decoder 。
编码部分包含1、2、8层的下采样过程 , 以及余下层的Non-bt-1D提取特征 。 其中Non-bt-1D、Downsample构造如下:
本文插图
实验结果:
本文插图
本文插图
【8】ERFNet:用于实时语义分割的高效残差分解卷积网络
《ERFNet: Efficient Residual Factorized ConvNet for Real-time Semantic Segmentation》
链接:
http://www.robesafe.es/personal/eduardo.romera/pdfs/Romera17tits.pdf
REFNet沿用了编码-解码结构 , 其详细结构如表所示 。
本文插图
本文插图
整个网络包含23层 , 其中1-16层为Encoder, 17-23层为Decoder 。
Downsampler block受另一个实时语义分割网络Enet的设计 , 其实本文不少灵感也来自于Enet:
例如在初始图像输入1024X512X3 , 左边经过3X3卷积 , 步长strides = 2 , 得到16 channels ,
右边经过MaxPooling 得到3 channels , 经过concat操作后得到16channels , 最终图像变为 512X256X16 , 然后使用Relu函数激活传入下一层 。
优点在于从输入图像一开始就进行了减少输入图像尺寸的操作 , 本身视觉信息就存在大量冗余 , 这样节省了大量的计算 。
【9】EDANet:用于实时语义分割的高效的非对称卷积密集模块
《Efficient Dense Modules of Asymmetric Convolution for Real-Time Semantic Segmentation》
链接:https://github.com/shaoyuanlo/EDANet
模型框架如下:
推荐阅读
- 汽车|复旦博士、脱口秀演员开发类视网膜传感器 将无人车视觉感光性能提升1万亿倍
- 游戏|《地平线:西部禁域》中文故事预告 新主视觉图公布
- 飞机|两架客机眼看在空中“相撞”却擦身而过 专家:视觉错觉 相距很远
- 一加10|Pixelworks三大视觉技术加持:一加10 Pro显示颜色完美无偏差
- OPPO|专为色觉障碍人士打造!OPPO公开色彩视觉检测技术:辨色正确度提升80%
- 论文|2020中国卓越科技论文近50万篇:计算机等4大领域位列世界第一
- 特斯拉|马斯克在线科普特斯拉为何不用雷达 网友道破真相:纯视觉成本低
- 视觉欺骗|2021年最强视觉欺骗!只有王者级的眼睛才能识破
- IDC|仅剩十年!IDC称经典计算机将面临来自量子计算机的巨大挑战
- 大学生|5名大学生处置实验室漏水获奖12万:避免我国新一代量子计算机研发延误
