中年|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的? | CCF-GAIR 2020( 五 )
本文插图
网络结构除了以上所述HRNet一系列东西之外 , 还有很多非常重要的研究 , 比如怎么利用人的常识帮助网络设计 , 怎么设计轻量化网络 , 怎么与计算机硬件联系一起 。
本文插图
计算机视觉中 , 怎么为具体的任务设计网络结构的研究也非常多 。 我给大家简单介绍一下我们在ECCV 2020和CVPR 2020的关于Head Architecture Design的工作 , 主要研究如何把人的常识加进设计中 。
本文插图
这里给大家讲一下语义分割 , 语义分割要预测每个像素点的标签 。 深度学习在该领域内的应用非常广泛 ,FCN是一个标准方法 , 一个图像经过一个网络结构 , 最后预测像素点的标签 。 由于每个像素点本身没有标签 , 它的标签来自对周围信息的判断 , 所以通常会加上上下文的信息 。
在介绍我们的方式之前 , 大家可以了解下以前的方法 。
以前的方法主要是Spatial context(空间上下文)比如有PPM、ASPP , 它是在像素点周围有规律地选出一些像素点 , 以求得当前像素点表征 , 进而进行标注 , 我们把它称为空间式 。
本文插图
我们的方法是Object context(对象上下文) , 它的出发点非常简单 , 正如前面提到 , 像素点本身没有标签 , 标签来自于这个像素点所在的物体 , 比如下图红色的点 , 这个位置很难有标签 , 它的标签来自于这个车 。 运用这个出发点 , 我们思考路径是:能不能拿到这个红色像素点所在的物体特征 , 来帮助表达这个红色的像素点 。 基于这个出发点 , 我们提出了OCR方法 。
本文插图
OCR的方法涉及鸡生蛋还是蛋生鸡的问题 。 我们事先并不知道分割 , 是先估计一个粗略的分割 , 有一个当前的表达 , 比如下图 , 取红色像素点的特征 , 把它输入到模块里 , 得到红色像素点当前的特征和其它的若干特征(K object regions) , 然后把这些特征经过变换 , 算出它们之间的相似度 , 根据相似度 , 经过加权池化(weighted pooling) , 然后得到像素点的表征 , 根据这个表征以及以前的表征一起进行预测 。
本文插图
从数据看 , HRNet+OCR的方法的结果为82.5 , 这是发表文章时业界最好的结果 。
本文插图
另外简短介绍一下自下而上姿态预测(Bottom-Up Pose Estimatiom)中的工作 。
它不需要人体的检测就可以直接预测人体的关键点 。
其中有个关于人体大小不一的问题 , 以前的方法没有确切的解决方式 , 我们提出“高分辨率特征金字塔”的方法 。 把图形输入到HRNet中做一个表征 , 从小的特征中分辨大的 , 从大的特征里面分辨小的 , 这个方法的结果表现也是非常好 。
本文插图
最后简单总结一下 , 我讲的主要是HRNet , 作为一个通用的网络结构 , 给大家展示了在视觉分割、检测、人体关键点、人脸关键点的预测等的原理 , 一系列的结果都比ResNet好 , 目前已经成为一个标准的方法 。 除此以外 , 我们借助基于具体任务的网络结构设计 , 比如加上OCR的方法、高分辨率特征金字塔(Higher-Resolution Feature Pyramid)的方法取得的效果都非常好 。
推荐阅读
- 中年|北斗“一张网”可实现全天候、高精度、自主可控服务
- 中年|Python编程语言有什么独特的优势呢?
- 中年|谈一谈我的十年机械工作经历
- 中年|弹无虚发的背后,国产弹药质量把关人,精密机床都要自叹不如
- 中年|宿迁深圳招商再结硕果,签约项目19个,协议总投资158亿元
- 微软|微软收购TiKToK,双方48小时内完成收购,金额远低预期
- 中年|苹果:已终止Epic Games开发者账号
- 中年|圆满的结局!苹果微信之间不用再二选一,美国政府还是做出让步
- 中年|国家能源集团成功研发矿用卡车能耗制动开关预警装置
- 电脑使用技巧|微软重新发布补丁对Windows 10更新:修复磁盘优化程序等
