肢体语言|研究动态|语音驱动姿势生成模型来了,肢体语言比总统候选人还丰富( 二 )
研究者进一步发现 , 该方法可以在不损失动作的感知自然度的情况下 , 准确地控制姿势风格 。
最后 , 研究者展示了该方法同样适用于行走和站立等全身姿态的动作合成 。
接下来 , 我们来看该模型的实现原理和具体效果 。
实现原理
该研究提出的概率生成模型基于近期关于归一化流的工作构建 , 尤其是 MoGlow [HAB19] 。 该模型可在大型非结构化运动数据集上进行训练 , 且数据无需手动标注 。
与直接基于语音合成动作的方法不同 , 该模型的训练过程中将语音作为输入 , 建模动作的条件概率分布 。 这样就可以基于概率分布采样新的姿势 , 从而每一次都可以生成不同却合理的姿势 。 这与人类行为一致 , 并且可以为虚拟智能体和动画行业提供不错的应用优势 。
该方法的优势包括:
- 数据集无需手动标注;
- 具备不确定性(因而可以得到无限种类的姿势变体);
- 能够输出全身姿势 。
本文插图
该模型的思路是在使用归一化流的姿势序列
本文插图
稳定自回归模型中 , 学习姿势 X 的多维下一步(next-step)分布 。 归一化流这一通用技术在表示大量连续值分布 p(x) 时能够同时实现高效推理(概率计算)以及高效的分布采样 。
整体转换和中间结果表示如下:
本文插图
此外 , 归一化流的核心难题是设计出一个灵活、可逆、可微分且具有快速计算雅克比行列式(Jacobian determinant)的 f_n 变换参数族 。 2018 年 , Diederik P. Kingma 等研究者提出了 Glow 方法 , 在生成面部图像上实现了显著的效果 。 之后 , 又出现了改进版 MoGlow 。
MoGlow 专注于零算法延迟的运动控制 , 并不非常适合语音驱动姿势合成任务 。 与语音同时出现的人体姿势可以分割为准备、执行(stroke)和撤回三个阶段 。
基于此 , 该研究令时间实例 t 时的控制输入 c_t 同时包含当前语音特征 a_t 以及周围语音特征
的视窗(window) , 从而将足够的未来信息考虑在内 。 完整的动作生成流程如上图 1 所示 。
实现效果如何?
在所有实验中 , 评分者需要观看和聆听人体姿势的 18 秒视频片段(如下图所示) , 并根据给定的评分标准进行打分(5 分制) 。
本文插图
人体相似性和适当性评估
下图 3 和表 1 展示了人体相似性、适当性、风格控制人体相似性和全身姿势人体相似性的平均得分:
本文插图
风格控制评估
下图 4 展示了风格控制对系统生成动作的影响 , 其中每一行表示不同的风格控制系统(分别是 M-H、MG-V、MG-R 和 MG-S) 。
本文插图
全身姿势评估
评估结果如上图 3 中最右侧图 , 全身 GT 平均得分为 4.005 , FB-C 平均得分为 3.764 , FB-U 平均得分为 3.421 。
本文插图
推荐阅读
- 技术编程|如何利用数据库进行世界史研究
- 环球Tech|室内飞无人机担心互撞?研究人员开发AI算法来防撞
- 春光研究院|兼具家用和车载,售价只要竞品零头!洒哇地咔K11吸尘器开箱评
- 科学|如果欧洲核子研究中心发现了一种新的粒子,这意味着什么呢?
- 戒毒|防治毒品复吸新靶点 研究团队“擦除”小鼠成瘾记忆
- 科学|2020年蝗虫频繁来袭,研究发现,它们在向人类传达重要信息
- 交通|深圳北斗应用技术研究院斩获2020红点奖
- 互联网|美林数据:参与组建国内首个省级泛在电力物联网工程研究中心
- |苹果宣布将弃用代码库中的非包容性语言
- 人工智能|哈工大将在重庆建研究院,聚集汽车、机器人、人工智能等领域
