无人驾驶@CVPR2020|阿里达摩院自动驾驶新成果,3D物体检测精度与速度的兼得( 二 )


2) 两阶段检测器 (two-stage): 首先用 PointNet 提取点级特征, 并利用候选区域池化点云 (Pooling from point cloud) 以获得精细特征. 通常能达到很高的精度但速度很慢.
无人驾驶@CVPR2020|阿里达摩院自动驾驶新成果,3D物体检测精度与速度的兼得
本文插图
2. 方法
目前业界主要以单阶段检测器为主 , 这样能保证检测器能高效地在实时系统上进行 。 我们提出的方案将两阶段检测器中对特征进行细粒度刻画的思想移植到单阶段检测中 , 通过在训练中利用一个辅助网络将单阶段检测器中的体素特征转化为点级特征 , 并施加一定的监督信号 , 从而使得卷积特征也具有结构感知能力 , 进而提高检测精度 。 而在做模型推断时 , 辅助网络并不参与计算(detached), 进而保证了单阶段检测器的检测效率 。 另外我们提出一个工程上的改进 , Part-sensitive Warping (PSWarp), 用于处理单阶段检测器中存在的「框-置信度-不匹配」问题 。
无人驾驶@CVPR2020|阿里达摩院自动驾驶新成果,3D物体检测精度与速度的兼得
本文插图
主体网络
用于部署的检测器 , 即推断网络 , 由一个骨干网络和检测头组成 。 骨干网络用 3D 的稀疏网络实现 , 用于提取含有高语义的体素特征 。 检测头将体素特征压缩成鸟瞰图表示 , 并在上面运行 2D 全卷积网络来预测 3D 物体框 。
辅助网络
在训练阶段 , 我们提出一个辅助网络来抽取骨干网络中间层的卷积特征 , 并将这些特征转化成点级特征 (point-wise feature) 。 在实现上 , 我们将卷积特征中的非零信号映射到原始的点云空间中 , 然后在每个点上进行插值 , 这样我们就能获取卷积特征的点级表示 。 令 {():j=0,…,M} 为卷积特征在空间中的表示, {:i=0,…,N} 为原始点云, 则卷积特征在原始点上的表示等于
无人驾驶@CVPR2020|阿里达摩院自动驾驶新成果,3D物体检测精度与速度的兼得
本文插图
辅助任务
我们提出两种基于点级特征的监督策略来帮助卷积特征获得很好的结构感知力 , 一个前景分割任务 , 一个中心点回归任务 。
无人驾驶@CVPR2020|阿里达摩院自动驾驶新成果,3D物体检测精度与速度的兼得
本文插图
具体来说 , 相比于 PointNet 特征提取器 (a) , 卷积网络中的卷积操作和下采样会造成点云结构的破坏(b)使得特征对物体的边界与内部结构不敏感 。 我们利用分割任务来保证部分卷积特征在下采样时不会被背景特征影响 (c) , 从而加强对边界的感知 。 我们利用中心点回归任务来加强卷积特征对物体内部结构的感知能力 (d) , 使得在少量点的情况下也能合理的推断出物体的潜在大小 , 形状 。 我们使用 focal loss 和 smooth-l1 对分割任务与中心回归任务分辨进行优化 。
3. 工程上的改进
无人驾驶@CVPR2020|阿里达摩院自动驾驶新成果,3D物体检测精度与速度的兼得
本文插图
在单阶段检测中 , feature map 和 anchor 的对齐问题是普遍存在的问题 , 这样会导致预测出来的边界框的定位质量与置信度不匹配 , 这会影响在后处理阶段(NMS)时 , 高置信度但低定位质量的框被保留 , 而定位质量高却置信度低的框被丢弃 。 在 two-stage 的目标检测算法中 , RPN 提取 proposal , 然后会在 feature map 上对应的的位置提取特征(roi-pooling 或者 roi-align) , 这个时候新的特征和对应的 proposal 是对齐的 。 我们提出了一个基于 PSRoIAlign 的改进 , Part-sensitive Warping (PSWarp), 用来对预测框进行重打分 。
如上图 , 我们首先修改最后的分类层以生成 K 个部分敏感的特征图 , 用 {X_k:k = 1,2 , ... , K} 表示 , 每个图都编码对象的特定部分的信息 。 例如 , 在 K = 4 的情况下 , 会生成 {左上 , 右上 , 左下 , 右下} 四个局部敏感的特征图 。 同时 , 我们将每个预测边界框划分为 K 个子窗口 , 然后选择每个子窗口的中心位置作为采样点 。 这样 , 我们可以生成 K 个采样网格 {S^k:k = 1,2 , ... , K} , 每个采样网格都与该局部对应的特征图相关联 。 如图所示 , 我们利用采样器 , 用生成的采样网格在对应的局部敏感特征图上进行采样 , 生成对齐好的特征图 。 最终能反映置信度的特征图则是 K 个对齐好特征图的平均 。


推荐阅读