中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020( 二 )
但是在其它任务中 , 比如检测 , 我们需要知道检测框的空间位置 , 比如分割 , 我们需要每个像素的标签 , 在人脸和人体的关键点的检测中 , 我们需要关键点的空间位置 , 这样一系列的任务实际上需要空间精度比较高的表征 , 我们称之为高分辨率表征 。
目前业内学习高分辨率表征有几个原则 , 一般是以分类的网络架构作为主干网络 , 在此基础上学习一些高分辨率的表征 。
学习高分辨率表征 , 有一种上采样的方法 , 包括两个步骤 , 第一个步骤是分类的网络架构 , 表征开始比较大 , 然后慢慢变小;第二个步骤 , 通过上采样的方法逐步从低分辨率恢复高分辨率 。
本文插图
常见的网络架构 , 比如U-Net , 主要应用在医学图像 , SegNet主要是用于计算机视觉领域 , 这几个结构看起来很不同 , 其实本质都一样 。
本文插图
如此一来 , 分辨率开始高 , 然后降低了 , 然后升高 。 过程中 , 先失去了空间精度 , 然后慢慢恢复 , 最终学到的特征空间精度较弱 。
本文插图
为了解决这个问题 , 我们提出了一种新型的高分辨率表征学习方法 , 简称为HRNet 。 HRNet可以解决前面提到的从AlexNet到DenseNet都存在的问题 , 我们认为下一个网络结构是HRNet 。
HRNet与以前的网络结构不同 , 它不是从分类任务出发 , 它可以解决更广泛的计算机视觉问题 。
我们的目的是学习一个空间精度强的表征 , 我们设计的HRNet不是沿用以前的分类结构 , 也不是从低分辨率恢复到高分辨率 , 而是从零开始 , 自始至终都维持高分辨率 , 体现了空间分辨率较强的表征 。
本文插图
这个结构是如何设计?作为对比 , 我们先分析分类的网络结构原理 。
在下图的例子里 , 有高分辨率的卷积(箭头代表卷积等的计算操作 , 这些框是表征) , 有中等分辨率的卷积 , 最终得到低分辨率的表征 。 分类网络中 , 这三路是串联的 , 现在我们把这三路并联 , 让每一路前新增加一路 , 最终拿到一个高分辨率的表征 。
本文插图
本文插图
本文插图
这样大家会有疑问 , 三路是独立的 , 除了新增加的相关联之外 , 其它的都不产生关系 , 这样会损失什么?在低分辨率方面 , 它可以学习到很好的语义信息 , 在高分辨率里 , 它的空间精度非常强 , 这三路之间的信息没有形成互补 。
我们采用的方法 , 是让三路不停地交互 , 使得高分辨率可以获得低分辨率语义信息较强的表征 , 低分辨率可以获得高分辨率的空间精度较强的表征 , 不停地融合 , 最终取得更强的高分辨率表征 。
本文插图
简单来讲 , 以前的高分辨率是通过升高、降低再升高获得 , 我们通过将不同分辨率的卷积由串联变成并联 , 自始至终保持高分辨率 , 并且还加入不同分辨率之间的交互 , 使得高分辨率表征和低分辨率表征的互动变强 , 获得对方的优势特征 , 最终获得非常强的高分辨率表征 。
推荐阅读
- 中年|北斗“一张网”可实现全天候、高精度、自主可控服务
- 中年|Python编程语言有什么独特的优势呢?
- 中年|谈一谈我的十年机械工作经历
- 中年|弹无虚发的背后,国产弹药质量把关人,精密机床都要自叹不如
- 中年|宿迁深圳招商再结硕果,签约项目19个,协议总投资158亿元
- 微软|微软收购TiKToK,双方48小时内完成收购,金额远低预期
- 中年|苹果:已终止Epic Games开发者账号
- 中年|圆满的结局!苹果微信之间不用再二选一,美国政府还是做出让步
- 中年|国家能源集团成功研发矿用卡车能耗制动开关预警装置
- 电脑使用技巧|微软重新发布补丁对Windows 10更新:修复磁盘优化程序等
