|MIT、IBM打造AI配音师:动作自动加音效,视频无声胜有声( 三 )
本文插图
传递到多头注意力模块中 , 其计算公式如下:
本文插图
其输出通过两层全连接层和 softmax 后得到下一个 token 在词汇表中的概率分布
实验结果
数据集
研究者在 URMP , AtinPiano 和 MUSIC 这三个乐器演奏视频数据集上进行了实验 , 其中包含手风琴、贝斯、巴松管、大提琴、吉他、钢琴、大号、尤克里里和小提琴共九种不同类别乐器的大约 1000 个演奏视频 。
对比基准
研究者将本文模型与 SampleRNN , WaveNet 和 GAN-based Model 这三种现有方法进行了比较 。 公平起见 , 为所有基准提供的姿态特征是相同的 。
定性评估
在 AMT 上通过四个评价指标定性比较生成音乐的感知质量 。 (1)正确性:生成音乐与视频内容相关;(2)噪音量:生成音乐包含噪音最小;(3)同步性:生成音乐在时间上与视频匹配;(4)综合性:总体质量最佳 。
研究者向 AMT 工作人员展示了四个视频 , 这些视频具有相同的视频内容 , 但具有不同的声音 , 分别由本文方法和三个基准方法合成 。 AMT 工作人员需要分别根据以上指标从中选择出最佳的视频 。
表 1 展示了不同乐器类别的综合性指标结果 , 该方法在所有乐器类别上均优于基准方法 。
本文插图
表 1 综合性指标结果
图 3 分析了正确性 , 噪音量和同步性指标结果 。 可以观察到 , 在所有评价指标上 , 该方法也始终优于并远超基准方法 。
本文插图
图 3 正确性 , 噪音量和同步性指标结果
这些结果证明了本文所提出方法的有效性 , 即 MIDI 有助于改善声音质量 , 语义对齐以及时间同步 。
可视化结果
图 4 左侧展示了这一方法预测的 MIDI 和 GT 之间的对比 。 可以观察到 , 该方法所预测的 MIDI 与 GT 非常相似 。 图 4 右侧展示了不同方法生成的声谱图结果 。 可以发现该方法比其他基准方法生成了更多的结构化谐波分量 。
本文插图
图 4:可视化结果 。
音乐编辑
基于 MIDI 的可解释性和灵活性 , 可以通过 MIDI 文件轻松地进行音乐编辑 , 生成不同风格音乐 , 如图 5 所示 。 这对于以前使用波形或频谱图作为音频表示形式的系统而言难以实现 。
本文插图
【|MIT、IBM打造AI配音师:动作自动加音效,视频无声胜有声】图 5:不同风格音乐 。
推荐阅读
- 人工智能|济南将打造全球首个人工智能医药研发自动化实验室
- 跨境电商|烟台:打造多元化“海上旅行电商产业生态圈”
- 羽度非凡|智能手表只能圆形或方形?华为打造全新设计,续航长达10天
- 智能穿戴|华为打造智能手表全新设计,屏幕尺寸增加,续航长达10天
- 融资并购,区块链|香港环球基金正式宣布战略投资韭菜时代,打造区块链产业新纪元
- IBM|关于数字化转型与数据应用,你想知道的都在这里!
- 读书郎|读书郎联合大屏端品牌,合力打造中小学在线教育生态
- 亚马逊|亚马逊打造“绿色”送货车队 奔驰电动货车喜获史上最大订单
- 开课|上新三款产品,开课吧为数字化人才打造“差异化竞争优势”
- 展厅|微美全息(WIMI.US)助力传统展厅智慧化升级,打造5G+AR沉浸式体验
