■看GAN如何一步步控制图像生成风格?详解StyleGAN进化过程
选自Medium
作者:Jonathan Hui
机器之心编译
【■看GAN如何一步步控制图像生成风格?详解StyleGAN进化过程】 参与:魔王、杜伟
GAN 能够有条不紊地控制其生成图像的风格吗?
你了解自己的风格吗?大部分 GAN 模型并不了解 。 那么 , GAN 能够有条不紊地控制其生成图像的风格吗?
本文插图
原版 GAN 基于潜在因子(latent factor)z 生成图像 。 通常 , 潜在因子 z 采样自正态或均匀分布 , 它们决定了生成内容的类型和风格 。
本文插图
基于此 , 我们需要解答以下两个重要问题:
为什么 z 是均匀或正态分布?
既然 z 包含元信息 , 那么它是否应在每个卷积层生成数据的过程中发挥更主要的作用?(而不是仅作为第一层的输入)
注意:本文将使用「风格」(style)来指代元信息 , 其包含类型信息和风格信息 。
下图是 StyleGAN2 生成的图像:
本文插图
潜在因子 z
机器学习中的潜在因子通常彼此独立 , 以简化模型训练过程 。 例如 , 身高和体重具备高度相关性(个子越高的人通常体重更大) 。 因此 , 基于身高、体重计算得到的身体质量指数(body mass index , BMI)较常用于衡量人体肥胖程度 , 其所需的训练模型复杂度较低 。 而彼此独立的因子使得模型更易于解释 。
在 GAN 中 , z 的分布应与真实图像的潜在因子分布类似 。 如果我们从正态或均匀分布中采样 z , 则优化后的模型可能需要 z 来嵌入类型和风格以外的信息 。 例如 , 我们为军人生成图像 , 并基于男性化程度和头发长度这两个潜在因子来可视化训练数据集的数据分布 。 下图中缺失的左上角表示男性军人不允许留长发 。
本文插图
如果我们均匀采样此空间 , 则生成器会试图生成留长发的男性军人图像 。 这不会成功 , 因为我们没有相关的训练数据 。 换个角度来看 , 当采样使用正态或均匀分布时 , 模型学习的是哪些潜在因子呢?这似乎更加错综复杂了 。 正如 StyleGAN 论文所写的那样:「这导致了一定程度上不可避免的纠缠(entanglement)」 。
在 logistic 回归中 , 我们利用基变换(change of basis)来创建二分类类别的线性边界 。 而 StyleGAN 使用一种叫做映射网络(mapping network)的深度网络 , 将潜在因子 z 转换成中间潜在空间 w 。
本文插图
从概念上来看 , StyleGAN 将可进行均匀或正态分布采样的空间(下图中)扭曲成潜在特征空间(下图左) , 从而轻松生成图像 。 该映射网络旨在创建彼此独立的特征 , 以便生成器更容易地执行渲染 , 同时避免训练数据集中不曾出现的特征组合 。
本文插图
StyleGAN 引入映射网络 f , 利用八个全连接层将 z 转换成中间潜在空间 。 w 可被视为新的 z (z』) 。 通过该网络 , 512 维的潜在空间 z 可被转换为 512 维的中间潜在空间 w 。
本文插图
基于风格的生成器
在原版 GAN 中 , 潜在因子 z 仅作为深度网络第一个层的输入 。 我们可能认为 , 随着网络的深入 , z 的作用会逐渐消失 。
推荐阅读
- 电脑数码精通|夏季如何让电脑的故障率降到最低?早知道早做准备吧
- |支付宝面试题:如果你是支付宝的产品经理,如何让更多人用支付宝点外卖?
- |传统互联网产品经理正在消失,如何自救?
- 华南科技第一线|京东618,大学生换5G新机如何选?
- 毒草科技|如何挑选入门级智能录音笔?搜狗C1对比讯飞A1,谁更值得买?
- cnBetaTB|看机器人如何制作出既有颜值又美味的蛋饼
- 京东京东沃尔玛再加持,达达募资3亿美元如何应战即时配送?
- 电视提前锁定618电视圈“爆款”海信激光电视是如何做到的?
- 搜狐新闻|充电五分钟,看剧四小时!Reno4 Slogan再升级,这些必杀技很能打
- 淘宝|如何在淘宝网上开网店?在淘宝网上开店有什么要求?
