米粒创意 登顶权威榜单VCR,重磅!百度多模态模型ERNIE-ViL刷新5项任务纪录( 二 )


基于此观察 , 百度的研究者将包含场景先验知识的场景图(SceneGraph)融入到多模态预训练过程中 , 建模了视觉-语言模态之间的细粒度语义关联 , 学习到包含细粒度语义对齐信息的联合表示 。
如下图所示 , 基于文本中解析出的场景图 , ERNIE-ViL提出了三个多模态预训练的场景图预测(SceneGraphPrediction)任务:物体预测(ObjectPrediction)、属性预测(AttributePrediction)、关系预测(RelationshipPrediction) 。
物体预测:随机选取图中的一部分物体 , 如图中的“house” , 对其在句子中对应的词进行掩码 , 模型根据文本上下文和图片对被掩码的部分进行预测;属性预测:对于场景图中的属性-物体对 , 如图中的“<dress,blue>” , 随机选取一部分词对其中的属性进行掩码 , 根据物体和上下文和图片对其进行预测;关系预测:随机选取一部分“物体-关系-物体”三元组 , 如图的“<cat,ontopof,car>” , 然后对其中的关系进行掩码 , 模型根据对应的物体和上下文和图片对其进行预测 。
米粒创意 登顶权威榜单VCR,重磅!百度多模态模型ERNIE-ViL刷新5项任务纪录
文章图片
通过场景图预测任务 , ERNIE-ViL学习到跨模态之间的细粒度语义对齐 , 如将语言中“猫”、“车是棕色的”、“猫在车上”等语义信息对应到图像中相应的区域 。
除以上提出的场景图预测的任务外 , ERNIE-ViL的预训练还使用了掩码语言模型(MaskedLanguageModelling)、掩码图像区域预测(MaskedRegionPrediction)、图文对齐(Image-TextMatching)等任务 。
实验结果
研究者通过视觉常识推理、视觉问答等多模态下游任务 , 对ERNIE-ViL的模型能力进行了验证 。
除了在视觉常识推理任务上取得SOTA之外 , ERNIE-ViL在视觉问答、跨模态图片检索、跨模态文本检索、引用表达式理解等任务上也刷新了SOTA结果 。
引用表达式理解(ReferringExpressionsComprehension,RefCOCO+)任务是给定一段自然语言描述 , 图像中定位到相关的区域 , 该任务涉及到细粒度的跨模态语义对齐(自然语言短语与图像区域) , 因此更加考查联合表示对语义刻画的精细程度 , ERNIE-ViL在该任务的两个测试集上(testA、testB)对比当前最优效果均提升了2.0个百分点以上 。
米粒创意 登顶权威榜单VCR,重磅!百度多模态模型ERNIE-ViL刷新5项任务纪录
文章图片
视觉问答(VisualQuestionAnswering,VQA)任务是给定一个图片以及文本描述的问题 , 要求模型给出答案 。 该任务需要对文本和图像进行更深入的理解和推理 , 同时该任务里的问题涉及细粒度的语义(物体、物体属性、物体间关系) , 能够检验模型对于场景的理解深度 。 ERNIE-ViL在该任务上以74.93%的得分取得了单模型的最好成绩 。
跨模态图像&文本检索(Cross-modalImage-Retrieval,IR;Cross-modalText-Retrieval,TR)任务是多模态领域的经典任务 , 给定图像检索相关的文本以及给定文本检索相关的图像 。 该任务实质上是计算图像模态和文本模态在语义上的相似度 , 要求模型同时兼顾整体语义和细粒度语义 。 ERNIE-ViL在这两个任务上分别以R@1提升0.56个百分点和0.2个百分点的结果刷新了SOTA 。
米粒创意 登顶权威榜单VCR,重磅!百度多模态模型ERNIE-ViL刷新5项任务纪录
文章图片
模型分析
百度研究者通过构建多模态完形填空测试实验 , 验证了ERNIE-ViL更强的跨模态知识推断能力:给定一组图片-文本对齐数据 , 分别将文本中的物体、关系或属性词掩码 , 让模型根据上下文和图片进行预测 。 实验表明 , 在对文中表述细粒度语义的词(物体、属性、关系)进行预测时 , ERNIE-ViL表现更为优越 , 准确率分别提升2.12%、1.31%和6.00% 。
米粒创意 登顶权威榜单VCR,重磅!百度多模态模型ERNIE-ViL刷新5项任务纪录
文章图片
同时 , 论文中给出了完形填空测试的若干实例 , 从下图中可以看出 , ERNIE-ViL往往能够更精确地预测出被掩码的物体、属性和关系 , 而基线模型往往只能预测出原有词的词性 , 但是很难准确预测出具体的词 。


推荐阅读