百度|刷新五项SOTA,百度ActBERT:基于动作和局部物体视频文本特征模型


机器之心发布
机器之心编辑部
全球计算机视觉顶会 CVPR 2020 上 , 百度共计有 22 篇论文被接收 。 这篇 Oral 论文中 , 百度提出了 ActBERT , 该模型可以学习叙述性视频进行无监督视频文本关系 , 并提出纠缠编码器对局部区域、全局动作与语言文字进行编码 。 最终在 5 项相关测评任务上取得了 SOTA 结果 。
ActBERT 在下游视频和语言任务上 , 即文本视频片段检索、视频描述生成、视频问答、动作步骤定位等任务上明显优于其他技术 , 展示了其在视频文本表示方面的学习能力 。
百度|刷新五项SOTA,百度ActBERT:基于动作和局部物体视频文本特征模型
本文插图

论文:《ActBERT: Learning Global-Local Video-Text Representations》
论文链接:http://openaccess.thecvf.com/content_CVPR_2020/papers/Zhu_ActBERT_Learning_Global-Local_Video-Text_Representations_CVPR_2020_paper.pdf
现有利用 BERT 训练方式进行视频语言建模一般通过量化视频帧特征的方式 , 通过聚类离散化将视觉特征转化为视觉单词 。 但是 , 详细的局部信息 , 例如 , 互动对象 , 在聚类过程中可能会丢失 , 防止模型进一步发现细粒度的视频和文字对应关系 。 本文提出 ActBERT 从配对视频序列中挖掘全局和局部视觉线索和文字描述 , 它利用丰富的上下文信息和细粒度的关系进行视频 - 文本联合建模 , 其贡献有三点:
首先 , ActBERT 整合了全局动作 , 局部区域与文本描述 。 诸如「剪切」、「切片」之类的动作对于各种视频相关的下游任务是有益处的 。 除了全局动作信息 , 结合本地区域信息以提供细粒度的视觉提示 , 区域提供有关整个场景的详细视觉线索 , 包括区域对象特征 , 对象的位置 。 语言模型可以从区域信息中受益以获得更好的语言和视觉一致性 。
其次 , 纠缠编码器模块对来自三个要素进行编码 , 即全局动作 , 局部区域和语言描述 。 新的纠缠编码模块从三个来源进行多模态特征学习 , 以增强两个视觉提示和语言之间的互动功能 。 在全局动作信息的指导下 , 对语言模型注入了视觉信息 , 并将语言信息整合到视觉模型中 。 纠缠编码器动态选择合适的上下文以促进目标预测 。
此外 , 提出四个训练任务来学习 ActBERT 。 预训练后的 ActBERT 被转移到五个与视频相关的下游任务 , 并定量地显示 ActBERT 达到了最先进的性能 。
算法
纠缠编码器
纠缠编码器包括三个编码器 ,三个编码器的输入来自三个来源 。 为了加强视觉和语言特征之间的互动 , 纠缠编码器将视觉信息注入语言编码器 , 并将语言信息整合到视觉编码器中 。 具体来说 , 纠缠编码器利用动作信息催化相互交流 。
【百度|刷新五项SOTA,百度ActBERT:基于动作和局部物体视频文本特征模型】百度|刷新五项SOTA,百度ActBERT:基于动作和局部物体视频文本特征模型
本文插图

C_w 是混合后的语言表示形式 , 而 C_r 是引导后的区域特征 。 然后 , C_w 使用一个线性层获得新的键值对 。 产生的键值对与原始的 a 编码器和 r 编码器键值对堆叠在一起 。 通过这种方式 , 视觉和语言特征更进一步联系在一起 。
百度|刷新五项SOTA,百度ActBERT:基于动作和局部物体视频文本特征模型
本文插图

训练方式
本文提出四个训练方式进行模型学习 。 第一、有掩码的语言建模任务 。 本文利用区域物体和全局动作中的视觉信号 , 发现视觉和语言实体之间的关系 。 该任务迫使模型从上下文描述中学习 , 同时提取相关的视觉特征以协助文本预测 。 当动词被去除时 , 模型应该利用动作特征来更准确预测 。 当描述局部的名词被去除时 , 本地区域特征可以提供更多的上下文信息 。


推荐阅读