中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020( 三 )
以上是设计方法 , 下面看看我们最终设计的网络例子 。
HRNet实际上固定了它的深度 , 把这个结构分成若干个模块 , 每个模块是由若干个可重复的组织设计出来的 。 比如第三个部分 , 它由4个模块形成 。
如何变化这个网络结构适应不同的需求?
我们采用变化宽度的方式 。 与ResNet比 , 这个结构中的宽度小很多 , 比如之前ResNet的宽度是256 , HRNet的宽度是32-48 。 正因为这样的设计 , 我们最终得到的参数和计算复杂度与ResNet的结果是可比的 。
本文插图
下面了解下HRNet在不同任务中的实验性能 。
人体姿态估计中 , 每个图片中人数很多 , 我们的任务是要找出每个人的关键点 , 并区分不同人的关键点 。
本文插图
做法有两种 , 一种方法自上而下(Top-Down)的方法 , 首先使用一种检测器 , 把人检测出来 , 然后每个人单独做关键点的检测 。 另外一种方法自下而上(Bottom-Up) , 直接检测关键点 , 然后进行一些聚类的操作 , 把不同人再分开来 。
我们先展看看自上而下方法的结果 , 下图左边是基于ResNet的方法 , 右边的是HRNet的方法 , 比较的指标是关键点位置寻找准确与否 。 我们的结果是74.9% , 结果要好于ResNet , 同时参数量上 , ResNet是68.5 , 我们是28.5 。 通过进一步加宽HRNet网络结构后 , 可以进一步提高结果 。
这个方法自从去年在CVPR发表以来 , 已经成为在人体姿态构建里一个标准的网络 , 一些文章或者比赛都会采用HRNet架构 。
本文插图
在分割任务中 。 采用街景分割的例子 , 街景分割在自动驾驶、无人驾驶、辅助驾驶中都非常重要 。
本文插图
以一个非常重要的数据集Cityscapes validation比较 , 其中 , mIoU是衡量分割好坏的一个非常重要的指标 , 从下图看到 , HRNet-W40的结果优于其他方法 , 而体现计算量的GFLOPS指标中 , HRNet是三位数 , 其他方法大多为四位数 , HRNet计算量更小 。 在参数量、计算量上 , HRNet的过程和最终结果都具有优势 , 将网络结构规模变大后 , 优势进一步提高 。
本文插图
Cityscapes Test数据集的结果看 , HRNet的表现也是最好的 。
本文插图
在今年4月份之前 , 我们在Cityscapes分割的榜单中排名第一 。 5月份 , 英伟达的一个新方法排名第一 , 了解过他们的方法后 , 发现它最终的结果是基于HRNet , 再加上它的模块 , 从这个角度看 , 说明HRNet的影响力在逐步变大 。
本文插图
人脸的关键点检测应用非常多 , 娱乐、短视频中的美颜功能 , 都需要人脸关键点的检测 , 定位出眼睛、鼻子等的位置 。
本文插图
下图展示的是在一个最新数据集上的结果 , 人脸关键点上有98个点 , 在测试数据集上 , 指标衡量的是预测的点与人工标注的点之间的差距 , HRNet的数值比之前的都小 , 差距最小 。 除此之外还列出了6种不同复杂条件 , 比如人脸姿态的变化、表情的变化、光照、是否化妆、是否遮挡 , 图片清晰程度 , 这系列的情况下 , 我们的结果都比以前的方法好 。
推荐阅读
- 中年|北斗“一张网”可实现全天候、高精度、自主可控服务
- 中年|Python编程语言有什么独特的优势呢?
- 中年|谈一谈我的十年机械工作经历
- 中年|弹无虚发的背后,国产弹药质量把关人,精密机床都要自叹不如
- 中年|宿迁深圳招商再结硕果,签约项目19个,协议总投资158亿元
- 微软|微软收购TiKToK,双方48小时内完成收购,金额远低预期
- 中年|苹果:已终止Epic Games开发者账号
- 中年|圆满的结局!苹果微信之间不用再二选一,美国政府还是做出让步
- 中年|国家能源集团成功研发矿用卡车能耗制动开关预警装置
- 电脑使用技巧|微软重新发布补丁对Windows 10更新:修复磁盘优化程序等
