AI|原画师惊到:爆火AI真把梦境画成现实了!下载APP人人可用( 二 )
现在估值达到了4000万美元 。
文章图片
值得一提的是,Wombo在爆火前,曾被200多家VC拒绝过 。
所以这一波下来,真正赢麻了的是最初提供启动资金的家长们 。
比如Paul Pavel的父母就是资助2万美元,最终换来了数十万美元的股票 。
目前,Wombo旗下的两个APP下载量已经达到了8400万+,月活用户超过1000万 。
Wombo上的创作量已经达到10亿,Dream by Wombo这一数据也达到了1.8亿 。
文章图片
由此带来的收入也非常可观,去年Wombo上线4个多月,依靠内部广告和免费歌曲库获得了数十万美元的收入 。
Dream by Wombo支持用户购买自己用AI生成的作品 。
20美元可定制一张海报,加边框的价格则从45美元起算 。
这个AI是怎么画画的?
让AI根据文字作画,了解AI的朋友会知道这属于多模态生成 。
模态,指的是文本、图像、声音等不同的信息表现形式 。
多模态,则是把不同类型的信息结合起来 。
如果给每个图片标上文字描述组成一对,用大量这种图文对去训练AI,就能让它理解到图文之间的对应关系 。
OpenAI开源的CLIP就是这个原理,Wombo工程师也曾在一次采访中透露过,他们的算法中就使用了CLIP 。
CLIP使用了4亿组从网上收集的图文对做训练,可以理解颜色和形状,日常物品或建筑物,甚至抽象的艺术风格比如“印象派”或“赛博朋克” 。
文章图片
△CLIP训练数据示例
接下来,还要解决图像生成的部分 。
没错,又要请出GAN了,而且这次GAN要接受CLIP的指挥 。
整个流程是这样的:
首先生成一张平平无奇的随机图像当种子 。
文章图片
让CLIP给图像与文字描述的相似度打分,反馈给GAN,GAN以提升分数为目标不断迭代 。
整个迭代过程可以在App中直观地看到 。
文章图片
其中的随机性意味着AI几乎不可能两次生成同样的图像 。
如果第一次结果不满意,还可以点击按钮用相同配置再试一次 。
文章图片
至于Wombo的算法具体使用了哪种GAN,并未公开 。
但在招聘信息里,高级机器学习工程师的岗位描述中写着,有DC-GAN经验的优先 。
文章图片
DC-GAN最早于2015年提出,是第一个使用深度卷积网络生成图像的GAN变体 。
意味着Wombo的算法大概率是以此为基础改进而来 。
Wombo选择卷积网络而不是Transformer的理由也不难猜 。
要做成移动App给全球玩家使用,而且生成的是高分辨率图像,卷积在效率上要占优势 。
CLIP+GAN结合成AI画家的方法并非Wombo首创 。
CLIP于2021年1月发布,第二天网友@advadnoun就开始试验其与各种生成模型的组合 。
文章图片
最终他选择了BigGAN,将代码发布为Colab笔记The Big Sleep
文章图片
早期The Big Sleep生成的画,怎么说呢,总是带点精神污染,分辨率也不高 。
文章图片
(建议不要去翻@advadnoun的早期分享,真的有毒)
后来西班牙玩家Katherine Crowson在此基础上发布了CLIP+VQGAN的版本 。
VQGAN是CVPR 2021 Oral入选论文,将CNN的高效率和Transformer的高性能结合起来,生成的图像质量更高 。
推荐阅读
- 白菜花变紫色是什么原因 菜花发紫了是怎么回事
- 同房后下面流黄水什么原因,家里养的竹子叶子发黄什么原因
- 忍冬小说男主第次,经典穿越小说排行榜
- Axon|倪飞:今年很多友商在硬件上“放水” 中兴Axon 40系列影像有惊喜
- 在维修厂见不到面包车的原因是什么?
- 一桶原油是多少升?
- 红黑树底层原理及Linux内核红黑树算法深度研究
- 菊花泡水有苦味是什么原因,有多少人知道花旗参泡水的正确方法花旗参泡水对身体的好处是什么
- 海市蜃楼形成的原因是因为光的折射还是反射,海市蜃楼形成的原因物理图解
- Data Mesh的原则和逻辑架构
