谷歌又炫技：派个AI，帮科幻大师刘宇昆把小说写了( 二 ) _AI

值得注意的是，知名科幻作家刘宇昆（热剧《万神殿》背后的小说作者、《三体》英文版译者）也参与了这一项目。
他在写作过程中遇到了一个场景，需要描述在商店里摆放的各种商品——过去此类写作细节比较容易打乱写作思路，但刘宇昆通过 Wordcraft 的帮助可以直接生成一个列表，节约了自己的脑容量，可以专心去写对故事更重要的东西。

文章插图
而在另一个场景中，他发现自己的想象力被限制了，一直在重复熟悉的概念。于是他将“主动权”交给了 LaMDA，让它来开头，“这样就能够逼迫我探索一些从未想到过的可能性，发现新的写作灵感。”
你可以在 Wordcraft Writers Workshop 的官方页面（阅读原文按钮）中找到刘宇昆在 Wordcraft 帮助下撰写的短篇小说 Evaluative Soliloquies 。顺便，他还借用 Imagen 为小说生成了几张插图：

文章插图
图片来源：Emily Reif via Imagen| 超长、连贯性视频的生成，终于被攻破了？
大家对于 AI 文字生成图片应该都不算陌生了。最近一年里，有 DALL·E 2、Midjourney、Stable Diffusion、Craiyon（不分先后）等知名产品问世；而谷歌也有自己的AI 文字转图片模型，并且一做就是两个：Imagen（基于大预言模型和行业流行的扩散模型），和 Parti（基于谷歌自家的 Pathways 框架）。

文章插图
图片来源：Google Research【谷歌又炫技：派个AI，帮科幻大师刘宇昆把小说写了】尽管今年 AIGC 的热闹都被 Stable Diffusion 这些炸子鸡给抢光了，低调沉稳的谷歌并没有躺平。
当其他人都似乎“阶段性”满足于用文字提示做小图片时，谷歌其实已经在加速往前冲了：它比任何人都更早进入了“文字生成高分辨率视频”，这一从未被探索过的复杂技术领域。
“生成高分辨率，且在时间上连贯的视频，是非常困难的工作，” Google Research 高级研究总监 Douglas Eck 表示。
“不过好在，我们最近有两项研究，Imagen Video 和 Phenaki，可以解决视频生成的问题。”

文章插图
图片来源：Google Research你可以这样理解：文字转图片就是根据一段文字提示来生成一张（或者多张平行的图片），而 Imagen Video 和 Phenaki 是可以根据多条文字提示，来生成在时序上连贯的多张照片——也就是视频。
具体来说，Imagen Video 是通过文本生成图像的扩散模型，能够生成具有前所未有真实度的高清画面；同时由于建立在基于 Transformer 技术的大规模语言模型上，它也具备极强的语言理解能力。
而 Phenaki 则是完全通过大语言模型，在时序上不断生成 token 的方式来生成视频。它的优势在于能够生成极长（数分钟）的视频，且画面的逻辑和视觉连贯性更强。
一个蓝色的气球插在红杉树的树枝上
镜头从挂着蓝色气球的树上移到动物园门口
镜头快速移动到动物园内
第一人称视角：在一个美丽的花园内飞行
长颈鹿的头从旁边冒出来
长颈鹿走向一棵树
放大长颈鹿的嘴
长颈鹿靠近树枝，拿起一个蓝色的气球
一个带白线的蓝色气球向长颈鹿的头部飞去
长颈鹿在附近咀嚼蓝气球镜头
随着单个蓝气球的飞走而向上倾斜
“说句实在话，这个项目不是我做的，但我觉得它真的非常令人惊讶。”Eck 表示，这项技术最强大之处，就在于可以使用多条文字提示组成的序列，来生成超高清晰度的视频，带来一种全新的故事讲述的能力。
“当然，AI 视频生成技术还处在襁褓阶段，我们非常期待跟更多影视专业人士以及视觉内容创作者合作，看他们会如何使用这项技术。”

文章插图
Douglas Eck 图片来源：谷歌| 无参考音频生成
早年 OpenAI 发布 GPT 初代模型的论文标题很经典：“Language models are few-shot learners”，点出了大语言模型在极少量样本的基础上，就可以在多种自然语言处理类任务上展现出强大的能力——同时，这个标题预言了今后更强大的大语言模型，能够做到更多更厉害的事情。
而今天，谷歌展示的 AudioLM 纯音频模型就验证了这一预言。