谷歌又炫技：派个AI，帮科幻大师刘宇昆把小说写了( 三 ) _AI

文章插图
图片来源：Google Research
AudioLM 是一个具备“长期连贯性”的高质量音频生成框架，不需要任何文字或音乐符号表示的情况下，只在极短（三四秒即可）的音频样本基础上进行训练，即可生成自然、连贯、真实的音频结果，而且不限语音或者音乐。
用 AudioLM 生成的语句，在句法和语义上仍然保持了较高的可信度和连贯性，甚至能够延续样本中说话人的语气。
更厉害的是，这个模型最初没有用任何音乐数据进行训练，结果却十分惊人：能够从任何乐器或乐曲录音中进行自动“续写”——这一事实，再一次展现出了大语言模型的真正实力。
下面的音频是一段20秒左右的钢琴曲，先听听感受一下：
实际上只有前4秒是给到模型的提示，后面都是 AudioLM自己“补完”的。而且也只有这一段4秒的音频样本，没有“钢琴”、“进行曲”等之类的专业文字提示作为补充。
“你不需要给它提供整段乐曲来学习，只要给它一小段，他就能直接在音乐的空间里开始续写——任何的音频片段都可以，无论是音乐还是语音。”Eck 表示，这种无参考的音频生成能力，早已超出了人们曾经对于 AI 创作能力的认知边界。
| 其他 AIGC 技术、产品
除了上述新技术之外，谷歌还宣布了在其他内容格式上的 AI 内容生成技术。
比如，在二维的图片/视频基础上，谷歌还让文字转 3D 模型成为了现实。通过结合 Imagen 和最新的神经辐射场（Neural Radiance Field）技术，谷歌开发出了DreamFusion 技术可以根据现有的文字描述，生成在具有高保真外观、深度和法向量的 3D 模型，支持在不同光照条件下进行渲染。

文章插图
图片来源：DreamFusion： Text-to-3D using 2D Diffusion （dreamfusion3d.github.io）
以及，谷歌在今年 I/O 大会上面向公众推出的尝鲜应用 AI Test Kitchen，也将在近期更新加入 LaMDA 模型创新所解锁的新功能。比如“城市梦想家” （City Dreamer）来用文字命令建造主体城市，或者“Wobble”来创造会扭动的卡通形象等。
用户可以在对应系统的应用商城中下载 AI Test Kitchen，并且前往谷歌网站申请测试资格，实测审批速度挺快。

文章插图
AI Test Kitchen 支持 IOS 和 Android 系统图片来源：谷歌、苹果
“我们在神经网络架构、机器学习算法和应用于机器学习的硬件新方法方面取得的进展，帮助 AI 为数十亿人解决了重要的现实问题，”Jeff Dean 表示。
“更多的进展即将到来。我们今天分享的是对未来充满希望的愿景：AI 正让我们重新想象技术如何能够带来帮助。”