谷歌又炫技:派个AI,帮科幻大师刘宇昆把小说写了( 三 )


谷歌又炫技:派个AI,帮科幻大师刘宇昆把小说写了

文章插图
图片来源:Google Research
AudioLM 是一个具备“长期连贯性”的高质量音频生成框架,不需要任何文字或音乐符号表示的情况下,只在极短(三四秒即可)的音频样本基础上进行训练,即可生成自然、连贯、真实的音频结果,而且不限语音或者音乐 。
用 AudioLM 生成的语句,在句法和语义上仍然保持了较高的可信度和连贯性,甚至能够延续样本中说话人的语气 。
更厉害的是,这个模型最初没有用任何音乐数据进行训练,结果却十分惊人:能够从任何乐器或乐曲录音中进行自动“续写”——这一事实,再一次展现出了大语言模型的真正实力 。
下面的音频是一段20秒左右的钢琴曲,先听听感受一下:
实际上只有前4秒是给到模型的提示,后面都是 AudioLM自己“补完”的 。而且也只有这一段4秒的音频样本,没有“钢琴”、“进行曲”等之类的专业文字提示作为补充 。
“你不需要给它提供整段乐曲来学习,只要给它一小段,他就能直接在音乐的空间里开始续写——任何的音频片段都可以,无论是音乐还是语音 。”Eck 表示,这种无参考的音频生成能力,早已超出了人们曾经对于 AI 创作能力的认知边界 。
| 其他 AIGC 技术、产品
除了上述新技术之外,谷歌还宣布了在其他内容格式上的 AI 内容生成技术 。
比如,在二维的图片/视频基础上,谷歌还让文字转 3D 模型成为了现实 。通过结合 Imagen 和最新的神经辐射场 (Neural Radiance Field) 技术,谷歌开发出了DreamFusion 技术可以根据现有的文字描述,生成在具有高保真外观、深度和法向量的 3D 模型,支持在不同光照条件下进行渲染 。
谷歌又炫技:派个AI,帮科幻大师刘宇昆把小说写了

文章插图
图片来源:DreamFusion: Text-to-3D using 2D Diffusion (dreamfusion3d.github.io)
以及,谷歌在今年 I/O 大会上面向公众推出的尝鲜应用 AI Test Kitchen,也将在近期更新加入 LaMDA 模型创新所解锁的新功能 。比如“城市梦想家” (City Dreamer) 来用文字命令建造主体城市,或者“Wobble”来创造会扭动的卡通形象等 。
用户可以在对应系统的应用商城中下载 AI Test Kitchen,并且前往谷歌网站申请测试资格,实测审批速度挺快 。
谷歌又炫技:派个AI,帮科幻大师刘宇昆把小说写了

文章插图
AI Test Kitchen 支持 IOS 和 Android 系统  图片来源:谷歌、苹果
“我们在神经网络架构、机器学习算法和应用于机器学习的硬件新方法方面取得的进展,帮助 AI 为数十亿人解决了重要的现实问题,”Jeff Dean 表示 。
“更多的进展即将到来 。我们今天分享的是对未来充满希望的愿景:AI 正让我们重新想象技术如何能够带来帮助 。”




推荐阅读