三好先森|ECCV'20 |OCRNet化解语义分割上下文信息缺失难题( 二 )


三好先森|ECCV'20 |OCRNet化解语义分割上下文信息缺失难题图3:ParseNet 框架
PSPNet
CVPR 2017 的 PSPNet [11] 提出了用 Pyramid Pooling 模块来抽取多尺度的上下文信息 , 以解决物体多尺度的问题 。 受益于这种更丰富的上下文信息 , PSPNet 取得了 ImageNet Scene Parsing Challenge 2016 第一名的成绩 。 具体来说 , PSPNet 采用了4路并行的不同尺度的图像划分 , 分别将图像均匀的划分成6ⅹ6/3ⅹ3/2ⅹ2个子区域 , 然后在每个子区域上应用 Average Pooling 计算得到一个向量作为这个区域内所有像素的 (不同尺度划分下) 局部上下文信息 。 另外 , PSPNet 也会采用 Global Pooling 计算得到的一个向量作为所有像素的全局上下文信息 , PSPNet 的整体计算框架见图4 。
三好先森|ECCV'20 |OCRNet化解语义分割上下文信息缺失难题图4:PSPNet 框架
DeepLabv2/v3
发表于 PAMI 2017 的 DeepLabv2[12] 提出了一种新的 Atrous Convolution (带孔卷积) 来抽取多尺度上下文信息 。 具体而言 , DeepLabv2 采用了并行的3组具有不同膨胀率(dilation rate)的带孔卷积操作来计算每一个位置的上下文信息 , 后续的 DeepLabv3[13] 又额外引入了 Global Average Pooling 操作来增强每一个位置的上下文信息 。 其中最核心的Atrous算法思想最早是在 ICLR 2015 的工作“Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs”中被引入到 FCN 的方法 。 图5展示了 DeepLabv3 是如何抽取丰富的多尺度上下文信息 。
三好先森|ECCV'20 |OCRNet化解语义分割上下文信息缺失难题图5:DeepLabv3 框架
基于物体区域的上下文信息微软亚洲研究院提出的 OCR 方法的主要思想是显式地把像素分类问题转化成物体区域分类问题 , 这与语义分割问题的原始定义是一致的 , 即每一个像素的类别就是该像素属于的物体的类别 , 换言之 , 与 PSPNet 和 DeepLabv3 的上下文信息最主要的不同就在于 OCR 方法显式地增强了物体信息 。
OCR 方法的实现主要包括3个阶段:(1) 根据网络中间层的特征表示估测一个粗略的语义分割结果作为 OCR 方法的一个输入, 即软物体区域(Soft Object Regions) , (2) 根据粗略的语义分割结果和网络最深层的特征表示计算出 K 组向量 , 即物体区域表示(Object Region Representations) , 其中每一个向量对应一个语义类别的特征表示 , (3) 计算网络最深层输出的像素特征表示(Pixel Representations)与计算得到的物体区域特征表示(Object Region Representation)之间的关系矩阵 , 然后根据每个像素和物体区域特征表示在关系矩阵中的数值把物体区域特征加权求和 , 得到最后的物体上下文特征表示 OCR (Object Contextual Representation)。 当把物体上下文特征表示 OCR 与网络最深层输入的特征表示拼接之后作为上下文信息增强的特征表示(Augmented Representation) , 可以基于增强后的特征表示预测每个像素的语义类别 , 具体算法框架可以参考图6 。 综上 , OCR 可计算一组物体区域的特征表达 , 然后根据物体区域特征表示与像素特征表示之间的相似度将这些物体区域特征表示传播给每一个像素 。
三好先森|ECCV'20 |OCRNet化解语义分割上下文信息缺失难题图6:OCRNet 框架


推荐阅读