|MIT、IBM打造AI配音师:动作自动加音效,视频无声胜有声
机器之心专栏
机器之心编辑部
从无声视频中生成音乐?这听起来很难 。 由MIT-IBM 沃森人工智能实验室主任研究员淦创博士领导的研究小组在 ECCV 2020 的一篇论文中 , 提出了一种名为 “Foley Music” 的模型 , 仅根据音乐家的身体动作就能自动生成一段极具表现力的音乐 。
说起计算机音乐的发展史 , 还要追溯到 1951 年 , 英国计算机科学家艾伦 · 图灵是第一位录制计算机生成音乐的人 。 近年来 , 深度神经网络的出现促使了利用大规模音乐数据进行训练来生成音乐的相关工作 。
然而 , 音乐往往伴随着演奏者与乐器的互动 , 并通过细微的手势与乐器相互作用以产生独特的音乐 。 这就会出现一个有趣的问题:给定音乐家演奏乐器的无声视频片段 , 我们是否可以开发一种模型 , 能够根据音乐家的身体动作自动生成一段逼真的音乐?
这种功能将会为各种应用奠定基础 , 例如自动为视频添加声音效果 , 以避免繁琐的人工操作 , 或在虚拟现实中创造听觉沉浸式体验 。 但具体来说 , 如何实现呢?
研究概述
本文插图
论文地址:https://arxiv.org/pdf/2007.10984.pdf
项目地址:http://foley-music.csail.mit.edu/
为了解决这个问题 , 由MIT-IBM 沃森人工智能实验室主任研究员淦创博士领导的研究小组提出了一种名为 “Foley Music” 的模型 , 可以从无声视频中生成富有表现力的音乐 。 该模型将视频作为输入 , 检测视频中的人体骨架 , 识别其与乐器之间的交互作用 , 预测相应的 MIDI 文件 。 论文已入选计算机视觉顶会 ECCV 2020 。
00:00/00:00倍速
首先 , 研究者确定了生成音乐的两个关键要素 。 对于视觉感知 , 采用身体和手指关键点作为视觉表征 , 从而可以显式地对身体部位和手部动作进行建模;对于音频表征 , 研究者提出使用 MIDI , 可对每个音符事件的时间和强度信息进行编码 , 使用标准音频合成器 , 亦可轻松将 MIDI 转换为逼真的音乐波形 。 由此将音乐生成问题视为 Motion-MIDI 的转换问题 , 如图 1 所示 。 同时研究者还提出了 Graph-Transformer 模块来学习将它们关联起来的映射函数 。
本文插图
图 1:任务定义 。
为了评估生成音乐的质量 , 研究者进行了定性研究实验 , 通过正确性、噪声量、同步性和综合性指标进行衡量 。 实验结果证明 , 该方法的性能明显优于其他现有方法 。 更重要的是 , 由于 MIDI 是完全可解释和透明的 , 能够灵活地进行音乐编辑 。 研究者表示 , 该工作将为通过人体关键点和 MIDI 来探索视频和音乐之间的联系开辟未来的研究方向 。
Graph-Transformer 模型
研究者分别选择了人体姿态和 MIDI 作为视觉和音频表征 , 并提出了一种 Graph-Transformer 模型 , 根据身体姿态特征预测 MIDI 事件 , 整体框架如图 2 所示 。
视觉表征
该模型使用人体姿态特征来捕获身体运动线索 。 首先 , 从视频的每帧中检测身体和手指关键点 , 然后将其 2D 坐标根据时间堆叠为结构化视觉表征 。 在实际应用中 , 使用开源 OpenPose 工具箱提取身体关键点的 2D 坐标 , 并使用预训练手部检测模型和 OpenPose hand API 来预测手指关键点的坐标 。 总共获得了 25 个身体关键点 , 以及 21 个手部关键点 。
音频表征
选择正确的音频表征对于成功生成富有表现力的音乐非常重要 。 研究者选择 MIDI 作为音频表征 , 主要由 note-on 和 note-off 事件组成 , 每个事件也定义了音高和强度 。 研究者使用音乐处理软件从视频的音轨中自动检测 MIDI 。 对于 6 秒钟的视频片段 , 通常包含大约 500 个 MIDI 事件 。 这些 MIDI 事件可以很容易地导入到标准合成器中生成音乐波形 。
推荐阅读
- 人工智能|济南将打造全球首个人工智能医药研发自动化实验室
- 跨境电商|烟台:打造多元化“海上旅行电商产业生态圈”
- 羽度非凡|智能手表只能圆形或方形?华为打造全新设计,续航长达10天
- 智能穿戴|华为打造智能手表全新设计,屏幕尺寸增加,续航长达10天
- 融资并购,区块链|香港环球基金正式宣布战略投资韭菜时代,打造区块链产业新纪元
- IBM|关于数字化转型与数据应用,你想知道的都在这里!
- 读书郎|读书郎联合大屏端品牌,合力打造中小学在线教育生态
- 亚马逊|亚马逊打造“绿色”送货车队 奔驰电动货车喜获史上最大订单
- 开课|上新三款产品,开课吧为数字化人才打造“差异化竞争优势”
- 展厅|微美全息(WIMI.US)助力传统展厅智慧化升级,打造5G+AR沉浸式体验
