三好先森|ECCV'20 |OCRNet化解语义分割上下文信息缺失难题( 三 )
图7中对比了基于 ASPP 的多尺度上下文信息与基于 OCR 的物体上下文信息的区别 。 对选定的红色标记的像素 , 我们用蓝色来标记其对应的上下文信息 。 可以看到基于 ASPP 的多尺度上下文信息通常会包含不属于红色像素所属类别的像素 , 左图中采样到的蓝色标记的像素有一部分落在了人的身体上 , 还有一部分像素落在了后面的展板上 。 因此 , 这样的多尺度信息同时包含了物体信息与背景信息 。 而基于 OCR 的物体上下文信息的目标是只利用物体信息 , 即显式地增强物体信息 。
图7:ASPP 与 OCR 方法的对比
实验结果
OCR 方法在5个主流的语义分割数据库上都取得了不错的结果 。 值得注意的是 , 基于 HRNet + OCR 的一个单模型结果在 ECCV 2020 提交截稿前 , 在 Cityscapse leaderboard 的语义分割任务中取得了排名第一 。
表1中对比了不同方法的参数量、GPU 内存、计算量(GFLOPs)以及运算时间 。 根据表格中的结果 , 可以看出 OCR 方法的各项复杂度指标都具有优势 , 尤其在运行速度方面 , 是 PSPNet 的 PPM 或者 DeepLabv3 的 ASPP 运行速度的近2倍 。
表1:PPM、ASPP、OCR 在参数量、GPU 内存、计算量 GFLOPs 和运算时间上的对比
表2则展示了 OCR 方法与目前已发表的前沿方法的对比 , 可以看出 OCR 在各个数据集上都取得了前三的结果 。
表2:OCR 与 State-of-the-art 方法对比
研究员们还基于 Panoptic-FPN[14] 在全景分割任务上验证了 OCR 方法的有效性 , 从表3中可以看出 OCR 稳定提升了最后的语义分割结果 , 而多尺度的上下文信息方法包括 PPM 与 ASPP 都没有显著提高结果 。
表3:基于 Panoptic-FPN 在全景分割任务上对比 OCR、PPM、ASPP
最近开源的 MMSegmentation[15] 代码库也验证了 OCR 方法的有效性 。 在都采用 ResNet-101 (os=8) 作为主干网络的时候 , OCR 方法的 GPU 内存消耗与 FPS 都比 DeepLabv3 和 DeepLabv3+ 更具有优势 , 同时 OCR 在 Cityscapes validation set 上的 (不同训练设置下) 结果也都取得了比 DeepLabv3 更好的结果 。 HRNet 和 OCR 的结合则会在街景分割任务中有更加明显的优势 , 在表4中可以看到 HRNet+OCR 不仅速度是最快的 , 并且在 Cityscapes validation set 上的单尺度分割性能最高可以达到81.59%, 显著优于之前的 DeepLabv3 与 DeepLabv3+ 。
表4:基于 MMSegmentation 代码库的 OCR 实验结果
结论
综上 , OCR 方法提出的物体上下文信息的目的在于显式地增强物体信息 , 通过计算一组物体的区域特征表达 , 根据物体区域特征表示与像素特征表示之间的相似度将这些物体区域特征表示传播给每一个像素 。 在街景分割任务中 , OCR 方法也比 PSPNet 的 PPM 和DeepLabv3 的 ASPP更加高效也更加准确 。 截止到2020年8月20日 , 根据最新 Cityscapes leaderboard 的结果 , 来自于 NVIDIA 的研究团队采用 HRNet + OCR 作为主干网络结构并且设计了一种更高效的多尺度融合方法[16] , 取得了目前排名第一的结果:85.4% 。 另外在最新的 ADE20K leaderboard 上 , 来自创新奇智(AInnovation)的研究团队[17]也基于 HRNet + OCR 取得了目前第一名的结果:59.48% 。
推荐阅读
- 三好先森|技术与人类的关系到底是什么?
- 阿狸先森|现今如何了?,被联想198亿元收购的巨头摩托罗拉
- 三好先森|「精选」20个黑科技软件下载网站,让你再无找不到的软件
- 阿狸先森|被联想198亿元收购的巨头摩托罗拉,现今如何了?
- 小胖先森|或是华米第一款联名手表?,华米预热新品
- 小胖先森|Hero 9 Black运动相机曝光,GoPro
- 三好先森|基于JeecgBoot快速开发简历库系统,开源项目,实操分享
- 三好先森|「智能家居」小米碰碰贴2使用体验,米家有了新的玩法
- 三好先森|腾讯也扶不起的“阿斗”,十年败光1亿用户,刚刚正式叫停了
- 阿狸先森|是时候跟百度网盘的龟速下载说拜拜了
