中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020( 二 )



但是在其它任务中 , 比如检测 , 我们需要知道检测框的空间位置 , 比如分割 , 我们需要每个像素的标签 , 在人脸和人体的关键点的检测中 , 我们需要关键点的空间位置 , 这样一系列的任务实际上需要空间精度比较高的表征 , 我们称之为高分辨率表征 。
目前业内学习高分辨率表征有几个原则 , 一般是以分类的网络架构作为主干网络 , 在此基础上学习一些高分辨率的表征 。
学习高分辨率表征 , 有一种上采样的方法 , 包括两个步骤 , 第一个步骤是分类的网络架构 , 表征开始比较大 , 然后慢慢变小;第二个步骤 , 通过上采样的方法逐步从低分辨率恢复高分辨率 。
中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020
本文插图

常见的网络架构 , 比如U-Net , 主要应用在医学图像 , SegNet主要是用于计算机视觉领域 , 这几个结构看起来很不同 , 其实本质都一样 。
中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020
本文插图

如此一来 , 分辨率开始高 , 然后降低了 , 然后升高 。 过程中 , 先失去了空间精度 , 然后慢慢恢复 , 最终学到的特征空间精度较弱 。
中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020
本文插图


为了解决这个问题 , 我们提出了一种新型的高分辨率表征学习方法 , 简称为HRNet 。 HRNet可以解决前面提到的从AlexNet到DenseNet都存在的问题 , 我们认为下一个网络结构是HRNet 。
HRNet与以前的网络结构不同 , 它不是从分类任务出发 , 它可以解决更广泛的计算机视觉问题 。
我们的目的是学习一个空间精度强的表征 , 我们设计的HRNet不是沿用以前的分类结构 , 也不是从低分辨率恢复到高分辨率 , 而是从零开始 , 自始至终都维持高分辨率 , 体现了空间分辨率较强的表征 。
中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020
本文插图
这个结构是如何设计?作为对比 , 我们先分析分类的网络结构原理 。
在下图的例子里 , 有高分辨率的卷积(箭头代表卷积等的计算操作 , 这些框是表征) , 有中等分辨率的卷积 , 最终得到低分辨率的表征 。 分类网络中 , 这三路是串联的 , 现在我们把这三路并联 , 让每一路前新增加一路 , 最终拿到一个高分辨率的表征 。
中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020
本文插图

中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020
本文插图


中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020
本文插图
这样大家会有疑问 , 三路是独立的 , 除了新增加的相关联之外 , 其它的都不产生关系 , 这样会损失什么?在低分辨率方面 , 它可以学习到很好的语义信息 , 在高分辨率里 , 它的空间精度非常强 , 这三路之间的信息没有形成互补 。

我们采用的方法 , 是让三路不停地交互 , 使得高分辨率可以获得低分辨率语义信息较强的表征 , 低分辨率可以获得高分辨率的空间精度较强的表征 , 不停地融合 , 最终取得更强的高分辨率表征 。
中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020
本文插图

简单来讲 , 以前的高分辨率是通过升高、降低再升高获得 , 我们通过将不同分辨率的卷积由串联变成并联 , 自始至终保持高分辨率 , 并且还加入不同分辨率之间的交互 , 使得高分辨率表征和低分辨率表征的互动变强 , 获得对方的优势特征 , 最终获得非常强的高分辨率表征 。


推荐阅读