人工智能OpenAI打造AI“百变歌姬”!训练120万首歌曲,化身猫王布兰妮
本文插图
智东西(公众号:zhidxcom)编 | 董温淑
智东西5月6日消息 , 近日 , 非营利人工智能研究组织OpenAI利用神经网络研发出一款“自动点唱机”——Jukebox 。 无论是摇滚、Hip-Hop还是爵士 , Jukebox都能毫无压力地生成相应风格的音乐 。
相较之前的音乐生成工具 , Jukebox能精准捕捉到人类的声音以及更微妙的音色、力度和表现力等特征 , 只要输入流派、艺术家和歌词 , 就能生成相应风格的高仿真音乐或歌声 。
本文插图
这项研究发表在OpenAI官网上 , 论文标题为《Jukebox:一个音乐生成模型(Jukebox: A Generative Model for Music)》
GitHub代码:https://github.com/openai/jukebox/
论文链接:https://cdn.openai.com/papers/jukebox.pdf
本文插图
一、音频序列较长 , 建模十分困难 对自动生成音乐的探索可以追溯到半个多世纪之前 。
一种典型方法是钢琴卷帘(Piano Roll) , 即通过指定要每个音符的演奏乐器、音高、时间和速度 , 象征性地用自动钢琴琴键弹奏的方式来产生音乐 。
曾有研究者用这种音乐生成方法生成1分钟长的巴赫合唱、多乐器演奏复调音乐、以及数分钟长的音乐作品 。
不过 , 这种按单个音符生成音乐的方法有局限性 , 无法捕捉人类的声音及更微妙的音色、力度和表现力等特征 , 而这些特征对于演奏的效果十分重要 。
还有一种方法是直接将音乐建模成原始音频 。 相比于对音符建模 , 在音频级别上生成音乐更加困难 。
这是因为音频级别的音乐拥有更长的序列 。 比如 , 一首典型的4分钟长的CD品质(44kHz , 16-bit)音乐 , 就有超过1000万个时间步长(timestep) 。
1000万是什么概念?要知道 , OpenAI参数量高达15亿的通用语言模型GPT-2只有1000个时间步长 , 完虐Dota 2人类选手的OpenAI Five每场比赛也仅耗费数万个时间步长 。
因此 , 要学习音乐的高级语义 , 模型需引入长时记忆(long-range dependency)关系 , 以生成时间更长、结构更多样、音色更多元的音频 。
解决长输入问题的一种方法是使用自动编码器 , 通过舍弃一些在感知上不相关的信息位 , 将原始音频压缩到较低维度的空间 , 然后训练模型在此压缩空间中生成音频 , 并通过上采样最终回到原始音频空间 , 最终生成与预期风格相近的音乐 。
本文插图
二、用120万首歌曲训练!跟布兰妮和席琳·迪翁学流行音乐 研究人员选用分层VQ-VAE模型(hierarchical VQ-VAE architecture)来压缩原始音频 , 再用一个自回归稀疏Transformer来预测音乐 , 同时训练一个自回归上采样算法来重现每个层次中丢失的信息 。
1、压缩原始音频
之前的研究证明 , 分层VQ-VAE模型可以生成高保真图像 。 OpenAI研究人员认为 , 可以借助这一模型来把原始音频压缩为离散的代码 。
研究人员从3个不同的抽象层次为原始音频建模 , 每个VQ-VAE层次独立编码输入 , 底层编码产生最高质量的重构 , 顶层编码只保留基本的音乐信息 。 在每一层 , 利用WaveNet式非因果关系1-D扩张卷积组成的残差网络 , 交织下采样和上采样1-D卷积 , 以此匹配不同的跳跃长度 。
三个层次分别将44kHz的原始音频按照8x、32x、128x压缩 , 每个层次的码本大小(codebook size)为2048 。
通过这种降采样方法生成的音频损失了大部分的细节 , 当进一步降低音量时会出现明显的噪声 。 但是 , 它保留了关于音调、音色和音量的基本信息 。
推荐阅读
- 国产动画帮|观众妙出品打造影视剧《故宫如梦》
- 企业观脉科技与聚云科技优势互补,共同打造多云生态
- cnBeta.COM|研究人员打造出一种能与锂离子电池相媲美的钠离子电池
- 直播打造流水线主播:每天直播8小时,平均工资4000块
- 简明科学指南|微软用人工智能取代新闻工作者
- 新智元|人工智能领域很多引人注目的进展并不真实
- 消防车鹰驾科技打造智能化全景驾驶方案,让消防车智慧出行
- 千家网|人工智能在半导体市场的发展潜力及其意义
- 国防科技要闻|【每日动态】1000亿美元资助高科技产业/人工智能分析微观结构/下一代武器系统体系结构的评估标准
- 新智元|Science | 人工智能领域很多引人注目的进展并不真实
