DeepTech深科技|把人骑马变成人牵着马,这篇 CVPR2020 论文实现语义级别图像修改
图像修改是图像生成领域的一个特殊任务 , 它要求生成对原图进行修改后得到的图片 。 例如常用的美颜、修图软件 , 可以得到原照调整后的美颜人像 。 目前 , 绝大多数的图片操纵和生成都是在像素级别进行的 。 随着技术的进步 , 基于语义的图像修改和生成成为可能 。
一篇 CVPR2020 的论文 Semantic Image Manipulation Using Scene Graphs 就聚焦图片语义级别修改问题 , 实现针对场景图的修改图片生成问题 。 即给定一张图片 , 先生成一个表示图片中出现的对象及其关系的语义场景图 , 用户可以利用场景图方便地修改其中的节点(对象)和边(关系) , 模型再根据这些修改后的场景图和原图生成修改后的图片 , 如图一所示 。
这需要模型对原图中的对象进行替换或者改变原图中对象之间的关系 , 但还要保持生成的图片和原图中语义关系以及风格一致 。
图丨基于语义关系的图片修改 。 基于原图(source image) , 模型首先生成场景图 , 接下来用户对场景图进行修改 , 最后模型根据修改的场景图生成新的图片 。 图中用户将女孩和马的关系由 “骑” 变为“在旁边”(来源:Semantic Image Manipulation Using Scene Graphs)
高层级的图片修改是以语义为中心的 , 这项技术有广泛的应用场景 。
编辑旅行风景照时 , 不需要再手动切割、删除其中多余的旅客 , 直接在场景图中删除相应的对象节点即可 。 用户还可以轻松地重新安排对象之间的空间关系 , 重新排列天空中云的位置 , 创造出更美的图片 。 该技术还可以应用到机器人领域 。 当要求机器人 “把房间收拾干净” 时 , 可通过该技术构建出整理后的房间图片 , 帮助机器人完成任务 。
要利用深度学习技术解决这一问题 , 首先面临的难题就是训练数据 。 给定图片 I , 需要得到场景 G, 修改后的场景图 g 以及修改后得到的图片 i 。 要得到这样的训练数据非常困难 。 在本文中 , 作者提出了一个空间语义场景图网络(spatio-semantic scene graph network) , 巧妙避开了数据难题 。 该模型不需要针对场景图的修改操作或者是图片编辑的直接监督信息 , 而可以直接利用现存的数据集进行学习 。
本文插图
图丨模型示意图(来源:Semantic Image Manipulation Using Scene Graphs)
空间语义场景图网络的结构如图所示 。 在测试阶段 , 模型首先利用比较成熟的技术 , 为输入的图片生成场景图 , 表示图片中出现的对象和它们之间的关系 。 接下来 , 用户对场景图进行修改 。 最后 , 模型根据用户的修改操作进行图片生成 。
而在训练阶段 , 输入一张图片 , 模型首先利用预训练模型对图片中的物体进行检测 , 提取这些对象的视觉特征(包括属性信息和位置信息) 。 接下来 , 模型利用比较成熟的技术为图片生成其场景图 。 然后 , 模型以一定的概率将图片中的一些对象和提取的视觉特征遮盖 。 最后 , 模型根据被遮盖的 , 残缺不全的原图和场景图重构原图 。 通过这样的方式 , 模型不需要(I , G , g , i)作为训练数据 , 而可以利用大量易得的显存图片数据集 。
那么为什么遮盖 - 重构的过程可以在训练阶段代替修改 - 重构的过程?
以女孩骑马的图片为例 。 当将女孩和马的关系‘骑’修改为‘在旁边’时 , 模型需要重新安排这些物体的空间位置关系 , 也就是将原有的关系丢弃 , 根据修改后的场景图和其他对象以及关系信息重构图像 。 这个丢弃原有关系重新预测的过程 , 就可类比为将特征遮盖并预测的过程 。
作者在 CLVER 和 Visual Genome 两个数据集上进行了试验 。 CLVER 数据集是利用模拟器生成的合成数据集 , 可以得到图片的修改操作和修改前后的信息 , 便于对模型进行定量的分析 。 Visual Genome 数据集则可测评该模型在无限制的真实场景中的效果 。
推荐阅读
- 2020|影谱科技入选“2020中国AI商业落地价值潜力100强榜单”
- 行业互联网|眼控科技聚焦航空气象报文,人工智能助推编发自动化
- 行业互联网|金风科技中标哈萨克斯坦札纳塔斯二期100MW风电项目
- 无人科技,电池技术|盘点几种常见的无人机电池
- 行业互联网,智慧医疗|商汤科技创“心”升级,探索“联邦学习”入选ECCV
- 行业互联网|创盈Charmwin惊艳亮相2020上海美博会,打造“光”科技健康护肤新风尚
- 科技圈|集成灶两大品牌厨壹堂教你解锁三伏天厨房的正确打开方式
- 黑科技|花两万块钱买一台大法电视是一种怎么样的体验?
- 北京|北京嘀嘀无限科技发展有限公司因涉嫌非法聘用外国人被行政处罚
- 和讯科技|乐视退最后交易日报0.18元/股 明日将被正式摘牌
