机器之心CVPR2020夜间行人检测挑战赛两冠一亚：DeepBlueAI获胜方案解读( 二 )

不同的数据分布
该比赛的数据集涵盖了不同的城市和天气，之前常用的行人检测数据集一般未同时满足这两个条件。该数据具有多样性，且与常用数据集的数据分布存在较大差异。该比赛数据集与常用于训练预训练模型的数据集（如 COCO 数据集、OBJ365）的数据分布存在很大的不同，因此对基于常用数据集预训练的模型进行 fine-tune 的效果不如预期。
DeepBlueAI 团队解决方案
DeepBlueAI 团队在单帧行人检测和多帧行人检测两个赛道中取得了冠军成绩，在检测单帧中所有物体赛道中获得了亚军。

本文插图

本文插图
就检测器而言，该团队首先通过常规检测所累积的经验构造出一个 baseline：
Baseline = Backbone + DCN + FPN + Cascade + anchor ratio (2.44)
这些模块早已是各个比赛的「常客」，也被许多专业人士进行了比较透彻的分析，此处不再赘述。 DeepBlueAI 团队进行了简单的实验，发现这些模块总是有用，进而将这套算法作为 baseline ，加上一些行人检测的小 trick ，如将 anchor ratio 改为 2.44、针对标注为 ignore 的目标在训练过程中 loss 不进行回传处理。
具体主要工作包含以下几个方面：
1. Double Heads

本文插图
通过观察实验发现， baseline 将背景中的石柱、灯柱等物体检测为行人，这种情况大多和 head 效果不好有关。该团队基于此进行了实验，如 TSD [7]、CLS [8]、double head [9] ，并最终选择了效果好且性价比高的 double head 结构（如下图所示）：

本文插图
Double Heads 结构

本文插图
【机器之心CVPR2020夜间行人检测挑战赛两冠一亚：DeepBlueAI获胜方案解读】
通过对比实验可以发现：使用 FC-head 做分类、Conv-head 做回归，可以得到最好的效果。
分类更多地需要语义信息，而坐标框回归则更多地需要空间信息， double head 方法采用分而治之的思想，针对不同的需求设计 head 结构，因此更加有效。当然这种方法也会导致计算量的增加。在平衡速度和准确率的情况下，该团队最终选择了 3 个残差 2 个 Non-local 共 5 个模块。
2. CBNet [10]

本文插图
合并功能更强大的 backbone 可提高目标检测器的性能。 CBNet 作者提出了一种新颖的策略，通过相邻 backbone 之间的复合连接 (Composite Connection) 来组合多个相同的 backbone 。用这种方式他们构建出了一个更强大的 backbone ，称为「复合骨干网络」(Composite Backbone Network) 。
当然这也带来了模型参数大小和训练时间的增加，属于 speed–accuracy trade-off 。该团队也尝试过其他的改进方式，但最终还是选择了实用性更强的 CBNet ，该方法不用再额外担心预训练权重的问题。

本文插图
该团队选择了性价比较高的双 backbone 模型结构。
3. 数据增强

机器之心CVPR2020夜间行人检测挑战赛两冠一亚：DeepBlueAI获胜方案解读( 二 )

推荐阅读

车轱辘|优享价5.39万起，凯翼炫界正式上市。，林允代言

【新冠肺炎】截至12日北京新冠肺炎线上医生咨询平台访问量234万余人次

zol中关村在线海信护眼平板Q5评测：护眼不是这平板的所有特色

辽宁男篮|11战轰334分！30万临时工打出巨星数据，辽蜜：加薪，下季续约他

中国网科技|老股东亲述：易果生鲜如何从宠儿走到破产重整？

滇红茶古树晒红,普绿古树红茶

81平米现代风装修，二居室的房子越看越有品

『向阳愿景TB』你只知道广州的早茶，却不懂它的宵夜

大腕儿娱乐1 中国却研究发展的最好，日本网友怒斥：明明是我们最先研究

【影之书数码】最有性价比的8+128GB千元机，还支持NFC，从1799降至1329

乐居财经：代价约1.51亿港元，泛海酒店购入面值2180万美元恒大票据

NBA官网|湖人将获1200万美元收入，打剩下8场常规赛

【猫眼娱乐V】安娜·温图尔儿子确诊新冠，曾陪英国女王看秀，被授予王室勋章，原创

让“微光”燎原

可口可乐|再来一瓶无法就近兑奖：魔爪饮料被罚20万

黑乎乎还是黑呼呼

关于恋爱，是不是应该忽冷忽热忽近忽远

小种红茶的几岁老人喝,小种茶的泡法

本·拉登|拉登的妻子和情人众多，揭秘他身边的女人们(组图)

「易度时尚」炫酷和粉嫩，谁是火箭少女腿精？，杨超越吴宣仪同穿“肥宅T恤”