研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?( 四 )


文章图片

这里给大家讲一下语义分割,语义分割要预测每个像素点的标签。深度学习在该领域内的应用非常广泛, FCN是一个标准方法,一个图像经过一个网络结构,最后预测像素点的标签。由于每个像素点本身没有标签,它的标签来自对周围信息的判断,所以通常会加上上下文的信息。
在介绍我们的方式之前,大家可以了解下以前的方法。
以前的方法主要是Spatial context(空间上下文)比如有PPM、ASPP,它是在像素点周围有规律地选出一些像素点,以求得当前像素点表征,进而进行标注,我们把它称为空间式。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

我们的方法是Object context(对象上下文),它的出发点非常简单,正如前面提到,像素点本身没有标签,标签来自于这个像素点所在的物体,比如下图红色的点,这个位置很难有标签,它的标签来自于这个车。运用这个出发点,我们思考路径是:能不能拿到这个红色像素点所在的物体特征,来帮助表达这个红色的像素点。基于这个出发点,我们提出了OCR方法。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

OCR的方法涉及鸡生蛋还是蛋生鸡的问题。我们事先并不知道分割,是先估计一个粗略的分割,有一个当前的表达,比如下图,取红色像素点的特征,把它输入到模块里,得到红色像素点当前的特征和其它的若干特征(K object regions),然后把这些特征经过变换,算出它们之间的相似度,根据相似度,经过加权池化(weighted pooling),然后得到像素点的表征,根据这个表征以及以前的表征一起进行预测。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

从数据看,HRNet+OCR的方法的结果为82.5,这是发表文章时业界最好的结果。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

另外简短介绍一下自下而上姿态预测(Bottom-Up Pose Estimatiom)中的工作。
它不需要人体的检测就可以直接预测人体的关键点。
其中有个关于人体大小不一的问题,以前的方法没有确切的解决方式,我们提出“高分辨率特征金字塔”的方法。把图形输入到HRNet中做一个表征,从小的特征中分辨大的,从大的特征里面分辨小的,这个方法的结果表现也是非常好。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

最后简单总结一下,我讲的主要是HRNet,作为一个通用的网络结构,给大家展示了在视觉分割、检测、人体关键点、人脸关键点的预测等的原理,一系列的结果都比ResNet好,目前已经成为一个标准的方法。除此以外,我们借助基于具体任务的网络结构设计,比如加上OCR的方法、高分辨率特征金字塔(Higher-Resolution Feature Pyramid)的方法取得的效果都非常好。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

我们也提供了代码。
【 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?】雷锋网雷锋网雷锋网


推荐阅读