深度学习:人类读不懂唇语?交给深度学习,精度可达84.41%( 二 )
本文插图
【雷锋网注:基本架构】
一方面 , 研究团队施加「局部互信息最大化」(local mutual information maximization , LMIM)约束 , 限制每个时间步生成的特征 , 以使它们能够与语音内容具有强关系 , 从而提高模型发现精细的口型变化及发音类似的词之间的差异(例如“spend”和“spending”)的能力 。
本文插图
【雷锋网注:LMIM 训练基础网络】
另一方面 , 研究团队引入「全局互信息最大化」(global mutual information maximization , GMIM)约束 , 使得模型更多地关注对与语音内容相关的关键帧的识别 , 同时更少地关注各种可能出现的噪声 。
本文插图
【GMIM 训练基础网络】
利用 LRW 和 LRW-1000 评估 为验证这一方法 , 研究团队利用 2 个大规模词汇水平的数据集对其进行评估 , 将其与其他主流的唇语识别模型方法进行了详细的几方面分析、比较 , 包括 LMIM 和 GMIM 与基线的比较、深度学习可视化等 。
以下是 2 个数据集的具体信息:
- LRW:于 2016 年发布 , 总样本量为 488766 , 包括 500 个词汇等级 , 涉及讲者超 1000名 , 讲话环境差异很大 。 该数据集被主流唇读方法广泛使用 , 具有挑战性的数据集;
- LRW-1000:总样本量为 70000 , 总时长约 57 小时 , 包括 1000 个词汇等级 。 该数据集旨在覆盖不同的语音模式和画面条件 , 从而结合在实际应用中遇到的挑战 。
本文插图
此外 , 通过引入 LMIM , 模型对发音相似的词汇的识别的确显示出了更高的准确性和明显的改进 , 例如 Makes/making 和 Political/politics(如下图) 。
本文插图
同时 , 研究团队利用可视化对 GMIM 的效果进行了进一步探究 。 如下图所示 , 下列这些词之间的差异范围从 -20 至 20 扩大到 -40 至 60 之间——这意味着随着 GMIM 的引入 , 区分词汇变得更容易 。
本文插图
可见 , 在不使用额外数据或额外预训练模型的前提下 , 该研究团队的上述方法相比其他主流唇读模型性能的确较为突出 , 希望这一方法为其他模型提供借鉴 。
参考资料:
https://arxiv.org/abs/2003.06439
https://www.leiphone.com/news/201611/lmrRpn2DdOUoex3E.html
推荐阅读
- 游深度@痛击玩家心态,一次团灭销毁存档?融合RPG的回合制卡牌Roguelike
- 『兄弟』兄弟DCP-T710W喷墨一体机评测:微信打作业 在线学习更简单
- 泡泡网@米兔儿童学习手表4上线!首发仅需849元
- 中新网■土耳其东部发生4.7级地震 震源深度10千米
- 和鲸携手在线公益AI项目,助力学习实训一体化
- 体坛焦点@利物浦是维尔纳的完美下家吗?,深度:从技术特点到战术打法分析
- 「学习」成功人士每天都会告诉自己这 7 件事
- 【线下】线上学习线下行动,龙潭街道各级组织召开主题党日活动
- 「美股研究社」谷歌将提供10万个免费热点,疫情下加州学生网络学习难度大
- 大众网@陪伴百万女性终身学习,简知书院:打造专业的女性成长平台
