机器之心重磅！百度多模态模型ERNIE-ViL刷新5项纪录，登顶权威榜单VCR( 三 )

本文插图
模型分析
百度研究者通过构建多模态完形填空测试实验，验证了 ERNIE-ViL 更强的跨模态知识推断能力：给定一组图片 - 文本对齐数据，分别将文本中的物体、关系或属性词掩码，让模型根据上下文和图片进行预测。实验表明，在对文中表述细粒度语义的词（物体、属性、关系）进行预测时， ERNIE-ViL 表现更为优越，准确率分别提升 2.12%、1.31% 和 6.00% 。

本文插图
同时，论文中给出了完形填空测试的若干实例，从下图中可以看出， ERNIE-ViL 往往能够更精确地预测出被掩码的物体、属性和关系，而基线模型往往只能预测出原有词的词性，但是很难准确预测出具体的词。

本文插图
结语
听懂、看懂、理解环境是人工智能的重要目标之一，实现该目标的首要任务是让机器具备多模态语义理解能力。此次百度提出的知识增强多模态模型 ERNIE-ViL ，首次将场景图知识融入多模态模型的预训练过程，在视觉问答、视觉常识推理等 5 个任务上刷新纪录，为多模态语义理解领域研究提供了新的思路。除了上述公开数据集效果突破外， ERNIE-ViL 技术也逐步在真实工业应用场景中落地。未来百度将在该领域进行更深入的研究和应用，使其发挥更大的商业和社会价值。

机器之心重磅！百度多模态模型ERNIE-ViL刷新5项纪录，登顶权威榜单VCR( 三 )

推荐阅读

央视新闻|新加坡日本两国计划下月恢复商务旅行

「太平洋电脑网」荣耀新款智能手表曝光：或搭载联发科可穿戴芯片

车视一条|特斯拉表示：质量没问题，但同意召回，特斯拉因车辆缺陷需召回

t1|T1玩运营结果被翻盘，Canna太装秀懵自己，Faker划水越来越离谱了！

cnBeta.COM■展示令人迷惑的“混沌地形”，NASA发布重新处理的木卫二图像

小说三要素是哪三个小说三要素

买菜讨价还价的心理?买菜如何讨价还价

『咖啡』蠢蠢欲动的春天，想泡就泡

云吞|又发现一个适合小成本创业的-云吞店

有哪些好看的两个字带符号昵称？

欧美派：网友质疑声四起，何洁直播自曝三胎女儿是意外？评论区炸了

流年不诉|痛惜！《西游记》“白骨精”配音者阿喜老师因病离世，享年79岁

中考|高考中，天赋和努力哪个更重要？731分的清华女学霸告诉你！

【开放式厨房】开放式厨房不用担心几个小技巧让你远离油烟困扰

杨紫妈|原创51岁老戏骨吃路边摊，坐街上无人认出！曾是童年阴影如今演杨紫妈

孩子吃什么补铁_小孩怎么补铁

貂值得买吗还能买貂吗

如果人繁育后代的方式变成生蛋会咋样

excel最常用的八个函数是什么？

淘宝店怎么找货源一件代发一件代发的商品怎么找商家发货