|MIT、IBM打造AI配音师：动作自动加音效，视频无声胜有声

机器之心专栏
机器之心编辑部
从无声视频中生成音乐？这听起来很难。由MIT-IBM 沃森人工智能实验室主任研究员淦创博士领导的研究小组在 ECCV 2020 的一篇论文中，提出了一种名为 “Foley Music” 的模型，仅根据音乐家的身体动作就能自动生成一段极具表现力的音乐。
说起计算机音乐的发展史，还要追溯到 1951 年，英国计算机科学家艾伦 · 图灵是第一位录制计算机生成音乐的人。近年来，深度神经网络的出现促使了利用大规模音乐数据进行训练来生成音乐的相关工作。
然而，音乐往往伴随着演奏者与乐器的互动，并通过细微的手势与乐器相互作用以产生独特的音乐。这就会出现一个有趣的问题：给定音乐家演奏乐器的无声视频片段，我们是否可以开发一种模型，能够根据音乐家的身体动作自动生成一段逼真的音乐？
这种功能将会为各种应用奠定基础，例如自动为视频添加声音效果，以避免繁琐的人工操作，或在虚拟现实中创造听觉沉浸式体验。但具体来说，如何实现呢？
研究概述

本文插图

论文地址：https://arxiv.org/pdf/2007.10984.pdf
项目地址：http://foley-music.csail.mit.edu/
为了解决这个问题，由MIT-IBM 沃森人工智能实验室主任研究员淦创博士领导的研究小组提出了一种名为 “Foley Music” 的模型，可以从无声视频中生成富有表现力的音乐。该模型将视频作为输入，检测视频中的人体骨架，识别其与乐器之间的交互作用，预测相应的 MIDI 文件。论文已入选计算机视觉顶会 ECCV 2020 。
00:00/00:00倍速
首先，研究者确定了生成音乐的两个关键要素。对于视觉感知，采用身体和手指关键点作为视觉表征，从而可以显式地对身体部位和手部动作进行建模；对于音频表征，研究者提出使用 MIDI ，可对每个音符事件的时间和强度信息进行编码，使用标准音频合成器，亦可轻松将 MIDI 转换为逼真的音乐波形。由此将音乐生成问题视为 Motion-MIDI 的转换问题，如图 1 所示。同时研究者还提出了 Graph-Transformer 模块来学习将它们关联起来的映射函数。

本文插图

图 1：任务定义。
为了评估生成音乐的质量，研究者进行了定性研究实验，通过正确性、噪声量、同步性和综合性指标进行衡量。实验结果证明，该方法的性能明显优于其他现有方法。更重要的是，由于 MIDI 是完全可解释和透明的，能够灵活地进行音乐编辑。研究者表示，该工作将为通过人体关键点和 MIDI 来探索视频和音乐之间的联系开辟未来的研究方向。
Graph-Transformer 模型
研究者分别选择了人体姿态和 MIDI 作为视觉和音频表征，并提出了一种 Graph-Transformer 模型，根据身体姿态特征预测 MIDI 事件，整体框架如图 2 所示。
视觉表征
该模型使用人体姿态特征来捕获身体运动线索。首先，从视频的每帧中检测身体和手指关键点，然后将其 2D 坐标根据时间堆叠为结构化视觉表征。在实际应用中，使用开源 OpenPose 工具箱提取身体关键点的 2D 坐标，并使用预训练手部检测模型和 OpenPose hand API 来预测手指关键点的坐标。总共获得了 25 个身体关键点，以及 21 个手部关键点。
音频表征
选择正确的音频表征对于成功生成富有表现力的音乐非常重要。研究者选择 MIDI 作为音频表征，主要由 note-on 和 note-off 事件组成，每个事件也定义了音高和强度。研究者使用音乐处理软件从视频的音轨中自动检测 MIDI 。对于 6 秒钟的视频片段，通常包含大约 500 个 MIDI 事件。这些 MIDI 事件可以很容易地导入到标准合成器中生成音乐波形。

|MIT、IBM打造AI配音师：动作自动加音效，视频无声胜有声

推荐阅读

『海峡军志』日本自卫队舰出动，彻底撕破脸？俄罗斯战舰包围北方四岛

产业协会|中国电视剧制作产业协会：电视剧创作要去浮华浮躁、重创作规律

猪八戒俗名为啥叫做猪刚鬣这个名字是谁给他起的

人为什么是群居动物不合群的人有三个特点

蛋糕能带上高铁吗

『怀孕初期』怀孕初期可以吃海鲜吗

洋哥爱生活|星光璀璨，桃花飞扬，转角遇旧爱，再结眷侣，恩爱到白头，9月

化妆行业的就业前景如何学化妆有前途吗

收藏|太疯狂了吧，超经典水彩线描装饰，配色无敌精美，内含教程，一定要收藏哦！

uzi|欧成又输给uzi，小狗向粉丝掏心掏肺：我真的玩不动了，已经累了

白带恶臭■白带恶臭怎么回事

季后赛|习惯了钓鱼? 乔治14中3惨不忍睹, 帕金斯: 乔治知道季后赛开始了吧

北青网综合|猫咖店曝光男子半年前虐猫视频虐猫男子：我错了，当天已道歉并提出赔偿

迷恋维情|国羽苦练体能成果显著！体测部分项目集体满分，何冰娇俩月瘦16斤

青少年|白天上课晚上学习到深夜？多数青少年睡眠不足！有超重风险，注意4点可调节

什么样的人适合做销售？什么人适合做销售

安庆绪被谁杀的,安禄山儿子安庆绪什么下场-

央视网|突袭伊斯坦布尔53个毒贩据点，?土耳其加大缉毒力度

老茎生花，花儿竟不开在枝条上，此乃热带雨林特有的植物现象！

杜拉升职记游戏杜拉拉升职记手游下载