人工智能OpenAI打造AI“百变歌姬”!训练120万首歌曲,化身猫王布兰妮( 二 )
本文插图
2、生成音乐代码
接下来 , 研究人员用一个简化的自回归稀疏Transformer训练模型 , 使模型学习VQ-VAE模型编码的音乐代码的分布 , 并使模型在这个离散的空间中产生音乐 。
同样地 , 研究人员也从3个层次建模:1个顶层的先验模型 , 可以生成最多的压缩代码;两个上采样先验模型 , 生成较少的压缩代码 。
顶层先验模型模拟音乐的长期结构(long-range structure) , 从这一层次解码的样本音频质量较低 , 但是能捕捉到歌唱、旋律等高级语义 。
中层和底层的上采样先验模型可以模拟出音色等特征 , 显著提升音质 。
一旦所有的先验模型都经过训练 , 研究人员就可以从顶层先验模型生成代码 , 并用上采样先验模型对代码进行上采样 , 再用VQ-VAE解码器将代码解码为原始音频 。
本文插图
3、用120万首歌曲进行训练
模型搭建好后 , 研究人员从网络上搜集了120万首歌曲(其中半数为英文歌曲)对其进行训练 , 还引入了歌词百科LyricWiki中的歌词和元数据提升训练效果 。
元数据包括艺术家、专辑风格、歌曲年份、每首歌表达的常见情绪和播放列表关键字等 。 研究人员用32-bit , 44.1kHz的原始音频进行训练 。 除了原始音频 , 研究人员还通过随机向下混合左右声道产生单声道音频来加强训练效果 。
为了使生成的音乐效果更好 , 研究人员指定了生成歌曲的歌手和艺术风格 。 训练结果显示 , 模型可以在无监督方式下将风格相似的艺术家或流派分为一类 。
【人工智能OpenAI打造AI“百变歌姬”!训练120万首歌曲,化身猫王布兰妮】模型将120万首歌曲及音乐家等数据分类为雷鬼音乐、乡村音乐、电影原声带、古典音乐、POP、爵士乐、布鲁斯音乐、灵魂乐、摇滚乐、Hip-Hop和R&B等 。
本文插图
为了使歌词与音频相匹配 , 研究人员设计了一个简单的方案:训练时 , 为每个字符设置一个固定播放时长的窗口 , 随着音乐持续 , 歌词字符按时间顺序播放 。
训练结果显示 , 借助这一方案 , 大部分歌词都能与音频相匹配 , 除了语速较快的Hip-Hop音乐 。
为了解决这一问题 , 研究人员使用音轨分离软件Spleeter从每首歌曲中提取人声 , 再用自动歌词排列工具NUS AutoLyricsAlign为提取出的人声实现单词级别的匹配 , 以此达到精确的歌词匹配效果 。
本文插图
▲模型对抒情歌词的匹配情况
三、局限性:无法生成合唱音乐 尽管Jukebox能够生成各种流派和艺术风格的音乐 , 提升了自动生成音频的音质、连贯性和长度 , 但它还有一些局限性 。
首先 , Jukebox生成的音乐与人类创造的音乐间还存在较大差距 。 比如 , 虽然Jukebox能够生成效果很好的独唱音乐 , 但它目前还无法生成合唱等结构更加复杂的音乐 。
研究人员称 , 改进分层VQ-VAE模型、使其能够捕捉更多的音乐信息可以改善这个缺陷 。
其次 , Jukebox的采样速度也很慢 , 渲染1分钟的音乐需要花费约9个小时 , 因此Jukebox还不能用于交互式应用程序 。
论文指出 , 将模型提取到并行采样器(parallel sampler)中可以提升采样速度 。
另外 , 目前模型主要采用用英文歌词、西方音乐进行训练 , 还未生成更多语种的歌曲 。
研究人员认为 , 尽管目前Jukebox模型还无法直接用于音乐创作 , 但在未来 , Jukebox或可在音乐家的创作过程中提供辅助 。
推荐阅读
- 国产动画帮|观众妙出品打造影视剧《故宫如梦》
- 企业观脉科技与聚云科技优势互补,共同打造多云生态
- cnBeta.COM|研究人员打造出一种能与锂离子电池相媲美的钠离子电池
- 直播打造流水线主播:每天直播8小时,平均工资4000块
- 简明科学指南|微软用人工智能取代新闻工作者
- 新智元|人工智能领域很多引人注目的进展并不真实
- 消防车鹰驾科技打造智能化全景驾驶方案,让消防车智慧出行
- 千家网|人工智能在半导体市场的发展潜力及其意义
- 国防科技要闻|【每日动态】1000亿美元资助高科技产业/人工智能分析微观结构/下一代武器系统体系结构的评估标准
- 新智元|Science | 人工智能领域很多引人注目的进展并不真实
