『』CVPR 2020 | 看图说话之随心所欲:细粒度可控的图像描述自动生成( 三 )
2.2 基于图的语言解码器: 旨在将编码的图转换为图像文本描述 。
(1) 图注意力机制 。
与之前基于独立的图像向量集合进行解码不同 , 编码的图不仅包括节点特征表示 , 还具有图中结构化的连接关系 。 其中 , 节点的连接方式反映了用户所希望的描述顺序 , 不能够被解码器所忽略 。 例如 , 如果当前关注的节点为关系节点 , 那么根据图的流向 , 下一个需要访问的节点很可能是连接该关系节点的宾语物体节点 。
【『』CVPR 2020 | 看图说话之随心所欲:细粒度可控的图像描述自动生成】
为了同时考虑图中语义内容和图结构信息 , 我们结合了两种不同的注意力机制 , 分别称为图语义注意力和图流向注意力 。 图语义注意力考虑查询向量与图编码向量之间的语义相关性;图流向注意力用于刻画图中的结构流向信息 , 如图3所示 。 最后 , 图注意力机制动态地融合了图语义注意力和图流向注意力 。
本文插图
图3. 图流向注意力机制考虑图结构信息对图像描述生成的影响 。
(2) 图更新机制 。
为满足用户的意图需求 , ASG中所有节点都应被文本描述所表达 , 不能出现缺失或者重复的现象 。 因此 , 为了提高从编码图到句子描述的质量 , 我们提出了一个动态记录图节点访问状态的图更新机制 。 在每个解码步 , 我们先将已表达过的ASG中的节点进行动态擦除 , 如果一个节点并不需要再表达 , 则可置为0;然后动态写入新的节点信息 , 更新图中节点的特征表示 , 以记录不同节点的访问状态 。
3、实 验
我们基于两个广泛使用的图像描述数据集VisualGenome和 MSCOCO的标注 , 自动构建细粒度可控模型所需的训练数据 。 其中 ,MSCOCO数据集的ASG比VisualGenome数据集更为复杂 , 包含更多的关系节点和更长的文本描述 。
我们分别从可控性(Controllability)和多样性(Diversity)两个方面评测生成的图像描述质量 。
1、可控性评估 。
由于细粒度可控图像描述生成是一个新的任务 , 我们基于现有模型精心设计了以下两类基线模型进行比较 。 第一类为传统意图无关的图像描述生成模型 , 第二类模型将上述模型扩展为基于ASG控制的图像描述生成模型 。
本文插图
表1:不同模型基于ASG的可控图像描述生成性能对比 。
表1比较了不同模型的结果 。 由于控制信号ASG与标注的文本描述对应 , 可控类模型性能明显由于意图无关的无控制模型 。 所提出的ASG2Caption模型在所有的评价指标上都显著地超过了基线模型性能 , 包括整体图像描述质量和ASG结构对齐性能 。 尤其对于细粒度的属性控制 , 我们将属性对齐误差减少了将近一半 。 图4为基于用户生成的ASG控制图像描述生成的例子 。
本文插图
图4. 模型根据用户指定的不同ASG生成的可控图像文本描述 。 ASG中细微的差别(例如边的方向)也代表了用户的
2. 多样性评估 。
基于ASG控制的图像描述生成的一个好处是可以基于多样化的ASG生成不同的图像描述 , 以不同层次的细节描述不同方面的图像内容 。 我们与现有多样性评测最佳的方法进行比较 , 结果见表2 , 我们模型生成的图像描述具有更高的多样性 。
本文插图
表2. 和现有最佳模型比较多样化的图像文本描述生成 。
图5展示了为示例图像自动采样生成的不同ASG及其对应生成的可控图像描述 。
推荐阅读
- 『腾讯游戏』利润突破20亿,三七互娱冲刺2020增量市场
- 「搜狐新闻」苹果新机或命名iPhone SE(2020):新增256GB版三色可选
- 【Redmi】Redmi Note 9S米粉节限量版亮相:限量2020台
- 2020@2020 iPhone SE终于来了?A13处理器+三种配色
- #家族企业杂志#2020年一季度大类资产收益表现短评
- 「产业气象站」5G时代大有可为?2020为何会出现5G无用论?
- 2020改变就在眼前,量化派助力多行业人工智能化
- 海报东营■利津农商银行召开2020年首次信贷产品发布会
- 北京商报@向社会释放积极明确的信号,财政部:2020年将适当提高财政赤字率、发行特别国债
- 「驱动之家」Redmi Note 9S 米粉节限量版亮相:限量 2020 台
