深度学习:人类读不懂唇语?交给深度学习,精度可达84.41%( 二 )


本文插图
【雷锋网注:基本架构】
一方面 , 研究团队施加「局部互信息最大化」(local mutual information maximization , LMIM)约束 , 限制每个时间步生成的特征 , 以使它们能够与语音内容具有强关系 , 从而提高模型发现精细的口型变化及发音类似的词之间的差异(例如“spend”和“spending”)的能力 。
深度学习:人类读不懂唇语?交给深度学习,精度可达84.41%
本文插图
【雷锋网注:LMIM 训练基础网络】
另一方面 , 研究团队引入「全局互信息最大化」(global mutual information maximization , GMIM)约束 , 使得模型更多地关注对与语音内容相关的关键帧的识别 , 同时更少地关注各种可能出现的噪声 。
深度学习:人类读不懂唇语?交给深度学习,精度可达84.41%
本文插图
【GMIM 训练基础网络】
利用 LRW 和 LRW-1000 评估 为验证这一方法 , 研究团队利用 2 个大规模词汇水平的数据集对其进行评估 , 将其与其他主流的唇语识别模型方法进行了详细的几方面分析、比较 , 包括 LMIM 和 GMIM 与基线的比较、深度学习可视化等 。
以下是 2 个数据集的具体信息:

  • LRW:于 2016 年发布 , 总样本量为 488766 , 包括 500 个词汇等级 , 涉及讲者超 1000名 , 讲话环境差异很大 。 该数据集被主流唇读方法广泛使用 , 具有挑战性的数据集;
  • LRW-1000:总样本量为 70000 , 总时长约 57 小时 , 包括 1000 个词汇等级 。 该数据集旨在覆盖不同的语音模式和画面条件 , 从而结合在实际应用中遇到的挑战 。
经评估 , 研究团队发现 GMIM 可将精度提高到 84.41% , 这主要得益于它对不同帧关注不同的特性 。 与其他除视觉信息外务额外输入的唇读方法相比 , 研究团队在 LRW 数据集上得到了迄今为止最佳的性能(如下图) 。
深度学习:人类读不懂唇语?交给深度学习,精度可达84.41%
本文插图
此外 , 通过引入 LMIM , 模型对发音相似的词汇的识别的确显示出了更高的准确性和明显的改进 , 例如 Makes/making 和 Political/politics(如下图) 。
深度学习:人类读不懂唇语?交给深度学习,精度可达84.41%
本文插图
同时 , 研究团队利用可视化对 GMIM 的效果进行了进一步探究 。 如下图所示 , 下列这些词之间的差异范围从 -20 至 20 扩大到 -40 至 60 之间——这意味着随着 GMIM 的引入 , 区分词汇变得更容易 。
深度学习:人类读不懂唇语?交给深度学习,精度可达84.41%
本文插图
可见 , 在不使用额外数据或额外预训练模型的前提下 , 该研究团队的上述方法相比其他主流唇读模型性能的确较为突出 , 希望这一方法为其他模型提供借鉴 。
参考资料:
https://arxiv.org/abs/2003.06439
https://www.leiphone.com/news/201611/lmrRpn2DdOUoex3E.html


推荐阅读