谷歌又炫技:派个AI,帮科幻大师刘宇昆把小说写了( 二 )


值得注意的是,知名科幻作家刘宇昆(热剧《万神殿》背后的小说作者、《三体》英文版译者)也参与了这一项目 。
他在写作过程中遇到了一个场景,需要描述在商店里摆放的各种商品——过去此类写作细节比较容易打乱写作思路,但刘宇昆通过 Wordcraft 的帮助可以直接生成一个列表,节约了自己的脑容量,可以专心去写对故事更重要的东西 。

谷歌又炫技:派个AI,帮科幻大师刘宇昆把小说写了

文章插图
而在另一个场景中,他发现自己的想象力被限制了,一直在重复熟悉的概念 。于是他将“主动权”交给了 LaMDA,让它来开头,“这样就能够逼迫我探索一些从未想到过的可能性,发现新的写作灵感 。”
你可以在 Wordcraft Writers Workshop 的官方页面(阅读原文按钮)中找到刘宇昆在 Wordcraft 帮助下撰写的短篇小说 Evaluative Soliloquies 。顺便,他还借用 Imagen 为小说生成了几张插图:
谷歌又炫技:派个AI,帮科幻大师刘宇昆把小说写了

文章插图
图片来源:Emily Reif via Imagen| 超长、连贯性视频的生成,终于被攻破了?
大家对于 AI 文字生成图片应该都不算陌生了 。最近一年里,有 DALL·E 2、Midjourney、Stable Diffusion、Craiyon(不分先后)等知名产品问世;而谷歌也有自己的AI 文字转图片模型,并且一做就是两个:Imagen(基于大预言模型和行业流行的扩散模型),和 Parti(基于谷歌自家的 Pathways 框架) 。
谷歌又炫技:派个AI,帮科幻大师刘宇昆把小说写了

文章插图
图片来源:Google Research【谷歌又炫技:派个AI,帮科幻大师刘宇昆把小说写了】尽管今年 AIGC 的热闹都被 Stable Diffusion 这些炸子鸡给抢光了,低调沉稳的谷歌并没有躺平 。
当其他人都似乎“阶段性”满足于用文字提示做小图片时,谷歌其实已经在加速往前冲了:它比任何人都更早进入了“文字生成高分辨率视频”,这一从未被探索过的复杂技术领域 。
“生成高分辨率,且在时间上连贯的视频,是非常困难的工作,” Google Research 高级研究总监 Douglas Eck 表示 。
“不过好在,我们最近有两项研究,Imagen Video 和 Phenaki,可以解决视频生成的问题 。”
谷歌又炫技:派个AI,帮科幻大师刘宇昆把小说写了

文章插图
图片来源:Google Research你可以这样理解:文字转图片就是根据一段文字提示来生成一张(或者多张平行的图片),而 Imagen Video 和 Phenaki 是可以根据多条文字提示,来生成在时序上连贯的多张照片——也就是视频 。
具体来说,Imagen Video 是通过文本生成图像的扩散模型,能够生成具有前所未有真实度的高清画面;同时由于建立在基于 Transformer 技术的大规模语言模型上,它也具备极强的语言理解能力 。
而 Phenaki 则是完全通过大语言模型,在时序上不断生成 token 的方式来生成视频 。它的优势在于能够生成极长(数分钟)的视频,且画面的逻辑和视觉连贯性更强 。
一个蓝色的气球插在红杉树的树枝上
镜头从挂着蓝色气球的树上移到动物园门口
镜头快速移动到动物园内
第一人称视角:在一个美丽的花园内飞行
长颈鹿的头从旁边冒出来
长颈鹿走向一棵树
放大长颈鹿的嘴
长颈鹿靠近树枝,拿起一个蓝色的气球
一个带白线的蓝色气球向长颈鹿的头部飞去
长颈鹿在附近咀嚼蓝气球镜头
随着单个蓝气球的飞走而向上倾斜
“说句实在话,这个项目不是我做的,但我觉得它真的非常令人惊讶 。”Eck 表示,这项技术最强大之处,就在于可以使用多条文字提示组成的序列,来生成超高清晰度的视频,带来一种全新的故事讲述的能力 。
“当然,AI 视频生成技术还处在襁褓阶段,我们非常期待跟更多影视专业人士以及视觉内容创作者合作,看他们会如何使用这项技术 。”
谷歌又炫技:派个AI,帮科幻大师刘宇昆把小说写了

文章插图
Douglas Eck    图片来源:谷歌| 无参考音频生成
早年 OpenAI 发布 GPT 初代模型的论文标题很经典:“Language models are few-shot learners”,点出了大语言模型在极少量样本的基础上,就可以在多种自然语言处理类任务上展现出强大的能力——同时,这个标题预言了今后更强大的大语言模型,能够做到更多更厉害的事情 。
而今天,谷歌展示的 AudioLM 纯音频模型就验证了这一预言 。


推荐阅读