TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了( 二 )


从 AI 文字转图片生成技术开始得到公众关注,到今天各路大厂和小公司挤破头也要掺和,各种不开放的、开放的、收费和免费的模型层出不穷……也就过去了一年左右的时间 。
在这些模型当中,OpenAI 的 DALL·E 是最著名的一款 。该模型一代于2021年推出,今年刚刚更新到了二代 。用户只需提供自然语言描述,模型就能够生成非常写实 (photorealisitic) 的图片 。
图片来源:OpenAI

TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了

文章插图
除了从零开始生成全新照片,DALL·E 2 还有更多功能,适合现实中多种艺术工作场景 。
比如它的编辑能力,可以在一张已经存在的照片中,在用户任选的位置“删除”或者“添加”物体,并且编辑后的效果仍然很写实:
图示:在照片的不同位置添加“火烈鸟” 。图片来源:OpenAI
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了

文章插图
再比如 DALL·E 2 还具备“启发”的能力,能够根据一张已经给定的图片,生成风格近相同的新照片:
图片来源:OpenAI
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了

文章插图
顺便一提:有个跟 OpenAI 没关系的第三方开发者,自己仿着 DALL·E 做了一个图片生成模型,还给免费开放了,取名为 DALL·E mini 。
结果这个“仿制品”比正品还受欢迎,在社交网络 Twitter 上专门搬运这个模型生成的奇怪图片的账号,粉丝量都破了百万 。甚至逼得 OpenAI 专门出来澄清跟它没关系,要求开发者做出改变 。现在这个免费小工具已经改名为 Craiyon 了 。
(听说此事之后,粉丝们还做了一张梗图,嘲笑 OpenAI 那边还在控制测试权限,这边 DALL·E mini 早就给全网玩嗨了……)
图片来源:FALSEKNEES
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了

文章插图
而在硅谷大厂的行列当中,现在谷歌是已知动作最快的,在 DALL·E 2 出来不久后也发布了自己的模型,名为 Imagen 。
就像 DALL·E 的根源是语言超大模型 GPT-3,Imagen 的根源也是谷歌开发的泛用型超大语言模型 T5 。至于 Imagen 的这个命名,其实是图片 (image) +生成 (generate) 的混成词 。
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了

文章插图
图片来源:google Research
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了

文章插图
虽然做的比 DALL·E 晚,同样作为硅谷知名 AI 研究型公司的谷歌,还是非常不服 OpenAI 的,宣称找人做了一堆同类模型的盲测,结果是受试者更喜欢 Imagen 生成的结果,认为其在“生成质量”和“文字描述还原度”上都更胜一筹 。
——当然,究竟是 DALL·E 2 和 Imagen 谁的生成结果更好,还是一个很主观的,见仁见智的事情 。在技术实现上,这两家其实大同小异,都是用了 Diffusion(扩散)模型生成,然后再用 Super-Resolution(超分辨率) 技术来让生成结果更加清晰 。
图片来源:Google Research
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了

文章插图
还有更多规模更小的新创公司也在做 AI 图片生成和艺术创作这件事 。
其中一家比较有意思的公司就是 Midjourney,其创始人是原知名动作感应技术公司 Leap Motion 创始人 David Holz;公司的投资人和顾问团队更是相当强大,都是苹果、特斯拉、AMD、GitHub 等知名公司的核心人物 。
Midjourney 跟 OpenAI、谷歌的写实方向背道而驰,而是在抽象、艺术性、独特风格之间寻求某种巧妙的结合点,这也是这家公司和其模型比较特别之处 。另外 Midjourney 开放模型技术的做法也很“年轻化”,不是发布 API 和文档,而是把服务接口做到了聊天软件 Discord 里 。
说完这些比较知名的公司,再来看一家名不见经传,但是和 TikTok 一样出手极快的美国公司:Stability AI 。
这家公司总部位于硅谷 Los Altos,在上周刚刚发布了一个可以免费使用的 AI 图片生成产品 Stable Diffusion 。
图片来源:Stability AI
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了

文章插图
Stable Diffusion 和前面介绍的几个写实派模型没有太大不同 。但是和产品、公司名称里的“稳定”正相反,这个模型在有害/争议字段的处理上,可以说完全没有任何作为 。而又因为产品是完全免费提供给公众的,已经有很多用户用它制作 deepfake、暴力、恐怖主义、虚假新闻图片等有害的内容了……


推荐阅读