机器之心重磅!百度多模态模型ERNIE-ViL刷新5项纪录,登顶权威榜单VCR( 三 )



机器之心重磅!百度多模态模型ERNIE-ViL刷新5项纪录,登顶权威榜单VCR
本文插图
模型分析
百度研究者通过构建多模态完形填空测试实验 , 验证了 ERNIE-ViL 更强的跨模态知识推断能力:给定一组图片 - 文本对齐数据 , 分别将文本中的物体、关系或属性词掩码 , 让模型根据上下文和图片进行预测 。 实验表明 , 在对文中表述细粒度语义的词(物体、属性、关系)进行预测时 , ERNIE-ViL 表现更为优越 , 准确率分别提升 2.12%、1.31% 和 6.00% 。
机器之心重磅!百度多模态模型ERNIE-ViL刷新5项纪录,登顶权威榜单VCR
本文插图
同时 , 论文中给出了完形填空测试的若干实例 , 从下图中可以看出 , ERNIE-ViL 往往能够更精确地预测出被掩码的物体、属性和关系 , 而基线模型往往只能预测出原有词的词性 , 但是很难准确预测出具体的词 。
机器之心重磅!百度多模态模型ERNIE-ViL刷新5项纪录,登顶权威榜单VCR
本文插图
结语
听懂、看懂、理解环境是人工智能的重要目标之一 , 实现该目标的首要任务是让机器具备多模态语义理解能力 。 此次百度提出的知识增强多模态模型 ERNIE-ViL , 首次将场景图知识融入多模态模型的预训练过程 , 在视觉问答、视觉常识推理等 5 个任务上刷新纪录 , 为多模态语义理解领域研究提供了新的思路 。 除了上述公开数据集效果突破外 , ERNIE-ViL 技术也逐步在真实工业应用场景中落地 。 未来百度将在该领域进行更深入的研究和应用 , 使其发挥更大的商业和社会价值 。


推荐阅读