『』CVPR 2020 | 看图说话之随心所欲:细粒度可控的图像描述自动生成( 二 )


第二 , ASG不仅可以通过节点控制需要描述的图片内容 , 同时也通过节点之间连接的方式隐含地控制了描述的结构顺序 。 因此 , 我们提出的解码器使用基于图注意力机制分别考虑节点的语义内容和连接结构 , 使得模型可以基于图流动顺序描述指定的节点内容 。
最后 , 生成的图像描述需要完全覆盖ASG中指定节点 , 不能有节点内容的缺失或重复 。 为此 , 我们在解码过程中逐渐更新编码的图表示 , 以记录跟踪图中不同节点的访问状态 。
本文的主要贡献包括以下三点:
1. 本文首次提出ASG抽象场景图以细粒度地控制图像描述生成 。 ASG可以控制图像描述生成中的不同细节 , 例如描述什么物体 , 是否描述物体的属性 , 以及物体之间的关系等 。
2. 所提出的ASG2Caption模型由角色感知图编码器和基于图的语言解码器构成 , 能够自动识别ASG中的抽象节点 , 并根据图中指定的语义内容和描述顺序生成所需的图像描述 。
3. 由于缺乏具有ASG标注的数据集 , 我们基于已有图像描述数据集VisualGenome 和 MSCOCO自动构建ASG标签进行训练和测试 。 我们的模型在这两个数据集上都取得了更好的控制性 。 此外 , 模型可基于多样化的ASG生成更具有多样性的图像描述 。
2、方 法
『』CVPR 2020 | 看图说话之随心所欲:细粒度可控的图像描述自动生成
本文插图
图2. 细粒度可控图像描述ASG2Caption模型框架图 。
1、抽象场景图 (Abstract Scene Graph, ASG)
为了细粒度地表达用户意图 , 我们提出抽象场景图概念(Abstract Scene Graph, ASG)作为控制信号 , 以生成自定义的图像描述 。
如图2左上方所示 , ASG中的节点根据意图角色可分为三类:物体节点(object node) , 属性节点(attribute node)和关系节点 (relationship node) 。
如果用户对物体o感兴趣 , 则可将o在图像的区域添加到ASG中作为物体节点;如果用户希望了解关于物体o的更多细节信息 , 可以为其添加不同数目的属性节点a , 并建立a与o之间的有向边;如果用户希望描述两个物体之间的关系 , 可在物体间添加一个关系节点r , 并建立从关系的主语物体指向r和r指向关系的宾语物体的两条边 。
由于ASG不需要任何语义标签 , 我们仅需要使用预训练的object proposal generator , 以及一个简单的判断物体间是否存在关系的二分类器 ,就可自动地生成不同的ASG 。 同时 , 用户也可以方便地构建抽象场景图ASG , 用户不需要繁琐地构建完整的ASG , 仅需像前人工作一样指定关注的物体或者想描述的详细程度等 , 我们可通过算法根据用户需求自动生成完整的ASG用于控制 , 从而具有良好的用户交互性 。
2、ASG2Caption模型
给定图像和指定的ASG , 模型目标是生成流利的文本描述 , 使其严格按照ASG的控制以满足用户的意图 。 该模型整体框架如图 2所示 , 包括角色感知图编码器和基于图的语言解码器 。
2.1 角色感知图编码器:用于对图像和场景抽象图ASG 编码 。
(1) 角色感知向量 。
由于节点除需要刻画其在图像中对应的视觉特征外 , 还应反映出它的意图角色 。 这由于对于区分具有相同图像区域的节点来说至关重要 , 例如对应于同一区域的物体节点和属性节点 。 因此 , 我们提出使用角色感知向量增强节点表征 , 得到意图角色相关的节点表示 。
(2) 多关系图卷积神经网络 。
由于ASG中的节点不是孤立的 , 相邻节点的上下文信息有益于理解节点的语义和角色信息 。 尽管ASG中的边是单向的 , 但节点之间的影响却是相互的 。 此外 , 由于节点的类型不同 , 信息从一种类型节点传递到另一种类型节点的传递方式与其反方向也是不同的 。 因此 , 我们将原始ASG的边扩展为不同的双向边 , 从而生成一个具有多关系的图 , 利用多关系图卷积神经网络(MR-GCN)进行图中上下文编码 。。


推荐阅读