中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020( 四 )


中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020
本文插图

下面再看我们的方法用在目标检测任务上 。 我们需要把物体框出来 , 同时要预测框中的物体种类 。
在最流行的Faster R-CNN框架里 , 我们用HRNet和ResNet的方法进行对比 , 为保证公平 , 分成4组 , 在每组参数量和计算量可比的情况下进行对比 。
前三组在Faster R-CNN上比较 , 最后一个在Cascade R-CNN上比较 , 蓝色数值表示预测的整体好坏情况 , 从结果看 , HRNet都远优于ResNet 。 除此以外 , HRNet有非常好的高分辨率表征 , 在小物体上更有优势 。
中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020
本文插图


实体分割中Instance Segmentation , 需要表征出物体的轮廓 , 而不仅仅是一个框 , 我们在Mask R-CNN中和ResNet对比 , 我们的表现有提高 , 尤其在小物体上体现更加明显 。 当然 , 仅仅在Mask框架里做不能说明问题 , 所以我们也会在发表的研究里列举其他的方法 , 结果都比ResNet的表现好 , 这里不一一列举 。
中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020
本文插图

中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020
本文插图
HRNet出来时 , 有人怀疑是否其参数量、计算量变大 , 事实上 , 我们并没有增加参数量和计算量 , 或者说增加网络结构的复杂度来提升性能 , 比如上图中 , 各项参数中两者计算量差不多 , 但是结果是HRNet更好 。
中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020
本文插图

中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020
本文插图

下面我们看看分类 。
在视觉领域 , 预训练非常重要 , 它需要帮网络进行初始化 , 通过迁移学习应用到其他领域 , 或者给网络结构做更好的初始化以帮助优化 。
当初我们做这个网络结构的目的是为了提出一个高分辨率表征 , 以帮助分类以外的任务 。 后来发现 , 在同等参数量和计算量基础上 , HRNet的结果比ResNet好 。
中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020
本文插图


2012年以来AlexNet、GoogleNet、VGGNet、ResNet、DenseNet等是为了做分类任务 , HRNet除了可以做分类任务 , 且性能很好 , 还可以做分割、检测、识别等等各种任务 , 面部检测、行人的检测、高空图像识别 , 卫星图象识别 , 也都有很好的效果 。
中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020
本文插图

HRNet去年10月推出后 , 被很多比赛的参赛者使用 。 比如去年ICCV keypoint and densepose比赛中 , 几乎所有参赛选手都使用了HRNet , 谷歌、商汤团队用HRNet做panoptic segmentation 和 openimage instance segmentation比赛 , 也取得了最好的效果 。
中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020
本文插图

最近大家对网络结构搜索了解较多 , 既然有了搜索 , 为什么还要有网络结构设计?网络结构设计实际上是为搜索提供了一个空间 , 这也是非常重要的 。 今年CVPR上的一篇来自谷歌的文章 , 它的出发点与HRNet非常相似 , 认为以前的网络都是通过空间变大然后变小再恢复 , 这样对一些识别和检测任务非常不友好 , 他设计一个NAS的算法 , 来解决这个问题 。
中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020


推荐阅读