机器之心重磅!百度多模态模型ERNIE-ViL刷新5项纪录,登顶权威榜单VCR( 二 )
当人们看到上面这张图的时候 , 首先会关注图中的物体(Objects)以及特点属性(Attributes)和期间的关系(Relationships) 。 如:“车”、 “人”、“猫”、“房屋” 等物体构成了图片场景中的基本元素;而物体的属性 , 如:“猫是白的” , “汽车是棕色的” 则对物体做了更精细的刻画;物体间的位置和语义关系 , 如:“猫在车上” , “车在房屋前” 等 , 建立了场景中的物体的关联 。 因此 , 物体、属性和关系共同构成了描述视觉场景的细粒度语义(Detailed Semantics) 。
基于此观察 , 百度的研究者将包含场景先验知识的场景图(Scene Graph)融入到多模态预训练过程中 , 建模了视觉-语言模态之间的细粒度语义关联 , 学习到包含细粒度语义对齐信息的联合表示 。
如下图所示 , 基于文本中解析出的场景图 , ERNIE-ViL 提出了三个多模态预训练的场景图预测(Scene Graph Prediction)任务:物体预测(Object Prediction)、属性预测(Attribute Prediction)、关系预测(Relationship Prediction) 。
物体预测:随机选取图中的一部分物体 , 如图中的“house” , 对其在句子中对应的词进行掩码 , 模型根据文本上下文和图片对被掩码的部分进行预测;
属性预测:对于场景图中的属性 - 物体对 , 如图中的“” , 随机选取一部分词对其中的属性进行掩码 , 根据物体和上下文和图片对其进行预测;
关系预测:随机选取一部分 “物体 - 关系 - 物体” 三元组 , 如图的“” , 然后对其中的关系进行掩码 , 模型根据对应的物体和上下文和图片对其进行预测 。
本文插图
通过场景图预测任务 , ERNIE-ViL 学习到跨模态之间的细粒度语义对齐 , 如将语言中 “猫”、“车是棕色的”、“猫在车上” 等语义信息对应到图像中相应的区域 。
除以上提出的场景图预测的任务外 , ERNIE-ViL 的预训练还使用了掩码语言模型(Masked Language Modelling)、掩码图像区域预测(Masked Region Prediction)、图文对齐(Image-Text Matching)等任务 。
实验结果
研究者通过视觉常识推理、视觉问答等多模态下游任务 , 对 ERNIE-ViL 的模型能力进行了验证 。
除了在视觉常识推理任务上取得 SOTA 之外 , ERNIE-ViL 在视觉问答、跨模态图片检索、跨模态文本检索、引用表达式理解等任务上也刷新了 SOTA 结果 。
引用表达式理解(Referring Expressions Comprehension, RefCOCO+)任务是给定一段自然语言描述 , 图像中定位到相关的区域 , 该任务涉及到细粒度的跨模态语义对齐(自然语言短语与图像区域) , 因此更加考查联合表示对语义刻画的精细程度 , ERNIE-ViL 在该任务的两个测试集上(testA、testB)对比当前最优效果均提升了 2.0 个百分点以上 。
本文插图
视觉问答(Visual Question Answering,VQA)任务是给定一个图片以及文本描述的问题 , 要求模型给出答案 。 该任务需要对文本和图像进行更深入的理解和推理 , 同时该任务里的问题涉及细粒度的语义(物体、物体属性、物体间关系) , 能够检验模型对于场景的理解深度 。 ERNIE-ViL 在该任务上以 74.93% 的得分取得了单模型的最好成绩 。
跨模态图像 & 文本检索 (Cross-modal Image-Retrieval,IR; Cross-modal Text-Retrieval,TR)任务是多模态领域的经典任务 , 给定图像检索相关的文本以及给定文本检索相关的图像 。 该任务实质上是计算图像模态和文本模态在语义上的相似度 , 要求模型同时兼顾整体语义和细粒度语义 。 ERNIE-ViL 在这两个任务上分别以 R@1 提升 0.56 个百分点和 0.2 个百分点的结果刷新了 SOTA 。
推荐阅读
- Tony老师也在聊股市了!一则传闻引爆A股,两位“绯闻主角”刚刚重磅回应
- 优视汽车|下半年买车可别错过,5款即将上市的重磅新车
- 扫地机器人哪个牌子好?高效清洁首选德国大牌
- 马夏尔▲重磅! 足坛史上最贵转会呼之欲出: 总价高达1.7亿欧, 有望创世界纪录
- 机器人|达闼科技赴美上市一路坎坷 列入“实体名单”后会回归A股吗
- #西甲#重磅! 梅西离开巴萨迎来大反转: 曼城曼联尤文彻底没戏, 西甲大赢家
- 宫爆体育|CBA重磅签约正式完成!天才后卫投奔马布里 未来让人期待
- 富途资讯|| 重磅数据及事件一览表,一周前瞻
- 光一样的少年|电商大促爆仓 智子跃迁分拣机器人直击行业痛点
- 「长安汽车」电动车越来越多了 - 2020下半年三款重磅新能源车型盘点
