『』CVPR 2020 | 看图说话之随心所欲:细粒度可控的图像描述自动生成( 四 )


『』CVPR 2020 | 看图说话之随心所欲:细粒度可控的图像描述自动生成
本文插图
图5. 基于自动采样的ASG生成多样化图像描述示例
生成的描述有效地按照给定ASG进行句子生成 , 由于ASGs的多样性使得我们的模型能产生显著多样化的图像文本描述 。
3. 消融实验 。
为验证ASG2Caption模型中不同部件的贡献 , 我们在表3中提供了大量的消融实验结果 。 所提出的不同模块均对性能具有帮助 。
『』CVPR 2020 | 看图说话之随心所欲:细粒度可控的图像描述自动生成
本文插图
表3. ASG2Caption模型各组件贡献的消融实验 。
4、总 结
现有大部分图像描述工作都是被动地生成句子 , 完全由训练集中数据的样式来决定可能生成的句子的样式 , 不能与用户交互自由控制 , 而且往往多样性也很低 。
因此 , 在这篇论文中 , 我们探索了一种细粒度的控制信号ASG , 用于控制生成的图像描述应该关注图像中的哪些物体、关系、描述的详细程度等 , 并提出ASG2Caption模型基于图控制生成图像描述 。 通过这种细粒度控制 , 我们不仅可以实现更好的交互性、可解释性 , 同时也使得生成的描述更具有多样性 。
文章代码已开源:https://github.com/cshizhe/asg2cap


推荐阅读