Bash@任你旋转跳跃不停歇,也能完美呈现3D姿态估计 | 代码开源
鱼羊 十三 发自 凹非寺量子位 报道 | 公众号 QbitAI
本文插图
让AI通过预测 , 捕捉你「左手画龙 , 右手画彩虹」的动作 , 对于AI理解人类行为至关重要 。
想要做到这一点 , 人体运动数据不可或缺 , 但实际上 , 真实的3D运动数据恰恰是稀缺资源 。
现在 , 来自马克斯·普朗克智能系统研究所的一项研究 , 利用对抗学习框架 , 在缺少真实3D标签的情况下 , 也能对实时视频里的人体运动 , 做出运动学上的合理预测 。
就像这样 , 奔跑、跳跃都能跟得上:
本文插图
并且 , 相比前辈 , 这一名为VIBE的方法更懂人心 , 连胳膊要抬几度 , 都计算得明明白白 。
本文插图
那么 , VIBE到底是如何做到的?
对抗学习框架 关键创新 , 在于采用了对抗学习框架 。
本文插图
【Bash@任你旋转跳跃不停歇,也能完美呈现3D姿态估计 | 代码开源】一方面 , 利用时间(temporal)生成网络 , 预估视频序列中每个帧的SMPL人体模型参数 。
注:SMPL , 即A Skinned Multi-Person Linear Model , 马普所提出的一种人体建模方法 。
本文插图
具体来说 , 给定一个单人视频作为输入 , 使用预先训练的CNN提取每个帧的特征 。
训练双向门控循环单元组成的时间编码器 , 输出包含过去和将来帧中信息的潜在变量 。
然后 , 利用这些特征对SMPL人体模型的参数进行回归 。
另一方面 , 运动鉴别器能够以SMPL格式访问大量人体动作 。
将生成器生成的样本 , 和取自AMASS的样本作为鉴别器的输入 , 训练其辨别真实动作和“伪”动作 。
AMASS是一个大型开源3D运动捕捉数据集 , 包含40个小时的运动数据 , 344个主题 , 超过11000个动作 。 (项目地址见文末)
本文插图
由于循环网络在顺序处理输入时会更新其隐藏状态 , 最终的隐藏状态将保留该序列中信息的摘要 。 研究人员在鉴别器中引入了自注意力机制 , 来放大最终表示中最重要的帧的作用 。
本文插图
多项性能指标达SOTA 老规矩 , 先来看下数据集 。
对于训练数据集 , 混合使用了2D和3D数据集 。 PennAction和PoseTrack是唯一的ground-truth 2D视频数据集 , 3D数据集方面采用的是MPI-INF3DHP和Human3.6M 。 除此之外 , 还利用AMASS进行对抗性训练 , 获得真实样本 。
在评估、对比方面 , 采用的数据集主要是3DPW、MPI-INF3DHP和Human3.6M 。
那么 , 在训练后 , 在上述三个数据集上 , 采用最先进方法结果的比较 , 如表1所示:
本文插图
△表1:在3DPW、MPI-INF-3DHP、H36M三个数据集上 , 各个最先进方法的结果比较
研究人员在这个三个数据集上 , 将VIBE和其他最先进的 , 基于帧和时间的模型做了性能比较 。
可以不难看出 , VIBE在3DPW和MPI-INF-3DHP这两个数据集上的表现是比较好的 , 性能上超越了其他模型 。
推荐阅读
- 「小葵花唯一」掌握这些想钓什么鱼任你选!,鱼饵搭配六大原则
- ITheat热点科技:功能加量不加价,TCL·XESS旋转智屏开启预售:首款可旋转电视
- 「ITheat热点科技」功能加量不加价,TCL·XESS旋转智屏开启预售:首款可旋转电视
- #我的第一部5G手机#返10万京豆!4月京东手机换新季5G新品+套餐任你选
- 『爱笑的世界』只好把家里的车轮卸了,搞笑GIF:大哥没有旋转桌
- 「旋转部件」大棚旋耕作业效果差?快来学微耕机作业中的正确操作及注意事项
- :德国Osann欧颂360°旋转安全座椅,KIN360L升级上线
- 穿搭讲究▲在旋转的那一刻,网友:什么骚操作?,有种高跟鞋叫张钧甯的高跟鞋
- 『』?移动公司终于“不抠了”!10年没换卡用户,3大“特权”任你用
- 关羽:春季赛首个五杀诞生!AG七年\旋转流\关羽拿下五杀,感谢一诺收刀了
