科技匠|站神曲 damedane:精髓在于换脸,五分钟就能学会,B( 二 )


运动估计模块:通过自监督学习将目标物体的外观和运动信息进行分离 , 并进行特征表示 。
图像生成模块:模型会对目标运动期间出现的遮挡进行建模 , 然后从给定的名人图片中提取外观信息 , 结合先前获得的特征表示 , 进行视频合成 。
比传统模型强在哪里?有人可能会有疑问 , 这和之前的AI换脸方法有什么不同?作者给出了解释 。
此前的换脸视频操作 , 需要以下操作:
通常需要针对换脸的双方人脸图像数据 , 进行事先训练;需要对源图像进行关键点标注、再进行相应的模型训练 。但现实中个人的人脸数据较少 , 也没有大量的时间进行训练 。 因此 , 传统的模型通常用在特定形象上效果较好 , 但用在普通大众身上 , 质量就很难保证 , 容易翻车 。
因此 , 该论文提出的方法 , 解决了对数据的依赖问题 , 大大提高了生成效率 。 想实现表情、动作迁移 , 只需要在同类别的图像数据集上训练即可 。
比如想实现表情迁移 , 则不管是换谁的脸 , 只要在人脸数据集训练即可;想实现太极动作迁移 , 就用太极视频数据集进行训练 。
训练完成之后 , 使用对应的预训练模型 , 就可以实现让源图像跟着驱动视频动起来的结果 。
【科技匠|站神曲 damedane:精髓在于换脸,五分钟就能学会,B】作者将其方法与目前该方向最先进的方法X2Face和Monkey-Net进行了对比 , 结果在相同的数据集中 , 本方法各个指标都有所提高 , 在两个人脸数据集(VoxCeleb和Nemo)上 , 本方法也明显优于最初提出用于人脸生成的X2Face 。


推荐阅读