『设计』RDSNet:统一目标检测和实例分割的新型网络

『设计』RDSNet:统一目标检测和实例分割的新型网络
本文插图

本文对《RDSNet: A New Deep Architecture for Reciprocal Object Detection and Instance Segmentation》进行解读 , 论文提出了用于统一目标检测和实例分割的新型网络 RDSNet 。
作者 | Bbuf
编辑 | 丛 末
『设计』RDSNet:统一目标检测和实例分割的新型网络
本文插图

论文地址:https://arxiv.org/abs/1912.05070
开源地址:https://github.com/wangsr126/RDSNet
1 摘要
目标检测和实例分割是两项基本的计算机视觉任务 。 它们之间有着密切的联系 , 但是之前的大多数工作中尚未讨论它们的关系 。
本文提出的 RDSNet , 是一种用于统一目标检测和实例分割的新型网络 。
为了完成这两个任务 , 本文设计了一个双流结构来共同学习目标级(BBox)和像素级(分割掩膜)特征 。 在这个结构中来自两个流的信息交替融合 , 即目标级别的信息将实例和位移信息引入到了像素级别 , 而像素级别的信息则改善了目标级别上的定位精度 。
具体来说 , 一个相关性模块和一个剪切模块被提出来生成实例掩膜 , 另外提出了一个基于掩膜的精炼边界框模块 。 在COCO数据集上进行的大量实验分析和比较证明了RDSNet的有效性 。
2 介绍&贡献
以目标检测为例 , 下面Figure1的(a)(b)检测出的框偏小 , (c)(d)检测出的框偏大 , 如果我们充分利用目标检测和实例分割任务之间的相互关系 , 可以轻松纠正大多数这些错误 。
『设计』RDSNet:统一目标检测和实例分割的新型网络
本文插图

而对于实例分割任务来讲 , 旨在进一步预测类别之外的每个目标的像素二值掩膜图 。 大多数实例分割都是Two-Stage的 , 也即是针对每个目标候选框分别生成掩膜 。 这种实例分割框架(典型的如Mask-RCNN)非常依赖目标检测的准确性 。
基于上面的观察 , 目标检测和实例分割有很大的联系 , 并且是可以相互促进的 , 而这一点几乎是没有相关研究的 。 因此 , 本文提出了RDSNet来共同学习目标级(BBox)和像素级(分割掩膜)特征 。
本文的主要贡献为 , 探索了目标检测和实例分割任务之间的相互关系并提出了一个端到端的RDSNet , 以相互利用目标检测和语义分割任务的特征 , 证明了多任务融合的有效性 。
3 方法
RDSNet的整体结构如Figure2所示 。
『设计』RDSNet:统一目标检测和实例分割的新型网络
本文插图

RDSNet的整体结构
3.1 双流结构RDSBet的核心是双流结构 , 即目标流和像素流 。 这两个流共享同一个FPN骨干网络 , 然后分开处理每种任务 。 目标流关注目标级别的信息 , 包括目标的类别和位置等 , 而像素流的主要关注的是像素级信息并且遵循了FCN的设计 。
3.2 目标辅助实例分割这一小节介绍了一种通过将目标级信息和新设计的相关性/裁剪模块一起使用来产生实例分割掩膜的新方法 。 从实例无关到实例感知实例分割的目的是为每个像素分配一个类别 , 但是由于2D图像中目标的数量和位置不确定 , 因此经常会出现模棱两可的情况 , 即无法使用像素的预定义类别 。 一个可能的解决方案是利用目标级信息来感知实例 。 为此 , 相关性模块被设计为根据像素表示之间的相似性将每个像素链接到其对应的实例 , 分别从目标流和像素流中学习 。 给定一个目标 , 我们用来表示一个目标的特征 , 其中表示目标流中目标的特征 , 是这个表示的维度 。 然后 , 的维度表示我们将前景和背景纳入到考虑范围中 。 类似地 , 我们把整张图像的像素表示写成: , 其中表示来自像素流的特征图 , 和是的尺寸 。 相关性模块的目的就是评估和的相似性 , 相关性操作被如下定义:


推荐阅读