三好先森|ECCV'20 |OCRNet化解语义分割上下文信息缺失难题
编者按:图像语义分割一直都是场景理解的一个核心问题 。 针对语义分割中如何构建上下文信息 , 微软亚洲研究院和中科院计算所的研究员们提出了一种新的物体上下文信息——在构建上下文信息时显式地增强了来自于同一类物体的像素的贡献 , 这种新的上下文信息从语义分割的定义出发 , 符合第一性原理思维 , 在2019年7月和2020年1月的 Cityscapes leaderboard 提交结果中都取得了语义分割任务第一名的成绩 。 相关工作“Object-Contextual Representations for Semantic Segmentation”已经被 ECCV 2020 收录 。
图像分类、物体检测和语义分割可以并列为传统计算机视觉感知领域的3大基础问题 , 它们也是各种复杂视觉任务的基础 。 这些问题在日常生活中随处可见 , 例如 , 短视频软件内提供的一键特效功能可以让普通用户也能轻松制作出大片效果 , 这背后的底层算法就可能涉及到了对人体的语义分割 。 此外 , 无人驾驶技术里的底层视觉算法则通常会涉及到对街景的语义分割 。
语义分割任务 , 即输入一张图像 , 输出图像中每个像素的语义类别 。 图1展示了选自 Cityscapes[1]、LIP[2]、ADE20K[3] 和 COCO-Stuff[4] 数据集的例子 , 第一行是原始的输入图像 , 第二行是对应于这些图像的 Ground-Truth 的语义分割结果 , 其中不同的颜色表示了不同的语义类别 。
图1:语义分割任务示例
基于FCN的若干语义分割方法
现在主流的基于深度学习的图像分割方法都是基于 CVPR 2015 的一项工作 Fully Convolutional Network for Semantic Segmentation (FCN) [5] 。 FCN 的 pixel-to-pixel(逐像素对应的输入输出)思想非常经典 , 而且易于理解 , 它被用来解决各种像素级理解的视觉任务 , 比如深度估计 , 光流估计 , 图像生成 。 图2为 FCN 的基本框架 , 整个网络去除了全连接层 , 最后通过上采样得到的特征表示可以与输入图像的每一个像素保持逐像素一一对应的关系 。 另外 , FCN 的论文中也提出了 Encoder-Decoder 的结构来增强最后输出的特征表示 。 后续很多的经典工作比如 UNet[6] 等也是基于 FCN 设计的 。
图2:FCN 框架
目前基于 FCN 的语义分割方法通常面临3个挑战:
(1)分辨率低: 通常随网络深度加深 , 逐渐降低的分辨率会导致空间信息损失;
(2)上下文信息缺失:像素级的特征的感受野不够 , 并且物体具有多尺度问题 (不同类别物体的绝对大小具有多尺度 , 同一类物体由于距离镜头的远近不同也具有多尺度);
(3)边界错误:由于边界区域像素的特征表示通常具有较弱的判别性 , 所以很多语义分割的错误是分布在边界区域上的 。
对此 , 微软亚洲研究院在今年分别发表了3篇相关的工作来解决这些挑战 , PAMI 2020 上发表的 HRNet[7] 可以解决分辨率低的问题 , ECCV 2020 上的 OCR[8] 可以解决上下文信息缺失问题 , 而 ECCV 2020 上的 SegFix[9] 则可以用来解决边界错误的问题 。
本文将主要介绍如何解决“上下文信息缺失问题”相关工作的技术细节 , 包括 ParseNet[10]、PSPNet[11]、DeepLab 系列[12,13]以及微软亚洲研究院的 OCR 方法 。 (本文中 , 我们用OCR 表示 Object Contextual Representation , 用OCRNet表示基于 OCR 的网络框架 。 )
ParseNet
原始的 FCN 并没有去显式地利用全局上下文信息 , 因此每个像素特征的感受野(Receptive Field)会有所受限 , 从而导致了性能的瓶颈 。 为了解决这个问题 , ICLR 2016 的 ParseNet[10] 提出了采用 Global Pooling 操作计算一个全局特征作为上下文信息去增强每个像素的特征表达(具体框架如图3) 。 ParseNet 旨在提高每个像素的特征感受野, 以获取更丰富的上下文信息 。
推荐阅读
- 三好先森|技术与人类的关系到底是什么?
- 阿狸先森|现今如何了?,被联想198亿元收购的巨头摩托罗拉
- 三好先森|「精选」20个黑科技软件下载网站,让你再无找不到的软件
- 阿狸先森|被联想198亿元收购的巨头摩托罗拉,现今如何了?
- 小胖先森|或是华米第一款联名手表?,华米预热新品
- 小胖先森|Hero 9 Black运动相机曝光,GoPro
- 三好先森|基于JeecgBoot快速开发简历库系统,开源项目,实操分享
- 三好先森|「智能家居」小米碰碰贴2使用体验,米家有了新的玩法
- 三好先森|腾讯也扶不起的“阿斗”,十年败光1亿用户,刚刚正式叫停了
- 阿狸先森|是时候跟百度网盘的龟速下载说拜拜了
