百度|刷新五项SOTA,百度ActBERT:基于动作和局部物体视频文本特征模型( 二 )


第二、有掩码的动作分类任务 。 这个任务是根据语言和物体特征 , 预测被去除的动作标签 。 明确的动作预测可以有两方面的好处 。 1)长时期动作序列线索可以被挖掘 , 该任务可以更好地分辨执行动作时的时间顺序;2)利用区域物体和语言文本可以获得更好的跨模态建模 , 该任务可以增强预训练模型中的动作识别能力 , 可以进一步推广到许多下游任务 。
第三、有掩码的物体分类任务 。 在该任务中 , 局部区域对象特征被随机去除 。 其目标分布为将该区域输入到相同的目标检测模型得到的激活值 。 优化目标是最小化两种分布之间的 KL 差异 。
第四、跨模式匹配 。 与下一个句子预测(NSP)任务类似 , 在第一个符号 [CLS] 的输出后加入了一个线性分类器 , 用来指示语言与视觉特征的相关性 。 如果分数较高 , 表明文本很好地描述了视频剪辑 。
百度|刷新五项SOTA,百度ActBERT:基于动作和局部物体视频文本特征模型
本文插图

实验
实验设置
ActBERT 在 HowTo100M 数据集上进行预训练 。 该数据集涵盖了总计 23,611 项任务 , 例如维护和修理、动物营救、准备食材等 。 在五个任务上评测了 ActBERT 的性能 。
视频描述生成实验结果
百度|刷新五项SOTA,百度ActBERT:基于动作和局部物体视频文本特征模型
本文插图

ActBERT 在所有指标上均优于 VideoBERT , 表明预训练学习到更好的视频表示 , 也表明 ActBERT 对视频序列建模的有效性 。
动作分割实验结果
百度|刷新五项SOTA,百度ActBERT:基于动作和局部物体视频文本特征模型
本文插图

ActBERT 明显优于基准方法 。 它表明预训练的 ActBERT 可以仅处理视觉 。 当删除区域信息时 , 可以观察到性能下降了 , 表明详细的局部线索对于密集视频帧标记任务有重要作用 。
动作步骤定位实验结果
百度|刷新五项SOTA,百度ActBERT:基于动作和局部物体视频文本特征模型
本文插图

ActBERT 的表现明显优于 TVJE , 即平均提升有 7% 。 这个结果甚至比监督学习的性能还要好 。 为了与 TVJE 有公平的对比 , 本文删除了局部区域信息 , 这个结果也明显优于 TVJE , 证明 ActBERT 预训练的有效性 。 完整 ActBERT 模型进一步提高了 4% 。
文本视频片段检索与视频问答实验结果
百度|刷新五项SOTA,百度ActBERT:基于动作和局部物体视频文本特征模型
本文插图

不需要复杂的联合视频文本建模 , ActBERT 明显优于现有其他方法 。 表明 ActBERT 在大规模数据集上的强大学习能力 。
结论
ActBERT 以一种自我监督的方式进行联合视频文本建模 。 该方法直接为全局和局部视觉信息建模 , 以进行细粒度的视觉和语言关系学习 。 ActBERT 将信息的三个来源作为输入 , 并使用了新颖的纠缠编码器进一步增强三个源之间的交互 。 五个视频文本基准测试的定量结果证明了 ActBERT 的有效性 。 未来可以通过设计更强大的视频和文本学习模块来提升 ActBERT , 并将其应用到视频动作识别和检测中 。
参考文献:
Linchao Zhu, Yi Yang, ActBERT: Learning Global-Local Video-Text Representations, CVPR 2020.
Antoine Miech et al., HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips, ICCV 2019.
Chen Sun et al., VideoBERT: A Joint Model for Video and Language Representation Learning, ICCV 2019
Linchao Zhu, Zhongwen Xu, Yi Yang, Bidirectional Multirate Reconstruction for Temporal Modeling in Videos, CVPR 2017.


推荐阅读