深度学习:人类读不懂唇语?交给深度学习,精度可达84.41%
读懂唇语 , 这是摆在我们面前的一道难题 , 大多数人平均只能读对一句唇语的十分之一 。 那么 AI 能做到吗?
早在 2016 年 , 牛津大学人工智能实验室、谷歌 DeepMind 和加拿大高等研究院(CIFAR)就联合开发了结合深度学习技术的唇读程序 LipNet 。 随后 , 提高计算机唇读精度 , 便成为了该领域的一项重要挑战 。
近日 , 来自浙江工业大学、中科院计算技术研究所智能信息处理重点实验室、中国科学院大学的研究团队更是共同提出了在局部特征层和全局序列层上引入互信息约束 , 增强口型特征与语音内容的关系 , 将计算机唇读精度提升至 84.41% 。
当地时间 2020 年 3 月 13 日 , 相关论文 Mutual Information Maximization for Effective Lip Reading(有效唇读的互信息最大化)发表于预印本网站 arXiv 。
本文插图
解决词汇级唇读的“固有”问题 唇读(lip-reading/speech-reading) , 简单来讲就是观察说话者的口型变化 , “读出”其表达的内容 。 实际上 , 唇读的过程是利用视觉信道信息补充听觉信道信息 , 这对听力较弱的群体、嘈杂环境中的工作者以及执法机构具有实际应用意义 。
而在计算机视觉领域的语境下 , 唇读作为一种基于深度学习的模型 , 更多地被用来推断视频中的语音内容 , 可对基于音频的语音识别、生物认证等进行辅助 。
在论文中 , 研究团队提到了「词汇级唇读」(word-level lip reading)的概念 。 实际上 , 词汇级唇读是唇读的一个分支 , 也是研究团队此次研究的主要关注方向 , 它存在一些“固有”问题 。
第一 , 即使在同一视频中存在其他单词 , 每个输入视频都用单个词标签来注释 。 例如下图中包括总共 29 个帧的视频样本被注释为“ABOUT” , 但是“ABOUT”一词的实际帧仅包括在时间步 T=12~19 处的帧 , 即红框中的部分 , 而红框前后的帧对应的词汇分别为“JUST”和“TEN” 。
本文插图
【深度学习:人类读不懂唇语?交给深度学习,精度可达84.41%】上面这个例子反映出词汇级唇读的一个问题——模型无法完全关注有效的关键帧 , 因此词汇边界划分不准确 。
第二 , 同一词汇标签下的视频样本画面经常存在变化 。 例如下图中的画面都属于以“ABOUT”为标签的视频 。
本文插图
上述 2 个词汇级唇读的特性要求唇读模型能够抵抗序列中的噪声 , 从而在各种语音环境下捕获一致的潜在模式 。
此外 , 准确捕捉口型的变化也并不容易——发音相似的词汇口型相似 , 同音词的识别也更是使难度升级 。
实际上 , 确保计算机唇读性能良好 , 很大程度上正是取决于 2 点:
- 是否能有效地捕获口型变化;
- 是否能有效地抵抗由姿态、光线、扬声器外观等变化引起的噪声 。
引入不同层级的「互信息最大化」 雷锋网了解到 , 互信息(mutual information , MI)是用于测量两个随机变量之间的关系的基本量 , 当给定一个随机变量时 , 它总是用来计算另一个随机变量所拥有的信息量 。 基于此 , 两个随机变量的互信息总是被用来衡量两变量间的相互依赖性 。
为解决上述问题 , 此次研究团队主要从两方面着手 , 引入了不同层级的「互信息最大化」(mutual information maximization , MIM) , 旨在使得模型同时具备较好的鉴别能力及鲁棒性 , 保证唇读更为有效 。
推荐阅读
- 游深度@痛击玩家心态,一次团灭销毁存档?融合RPG的回合制卡牌Roguelike
- 『兄弟』兄弟DCP-T710W喷墨一体机评测:微信打作业 在线学习更简单
- 泡泡网@米兔儿童学习手表4上线!首发仅需849元
- 中新网■土耳其东部发生4.7级地震 震源深度10千米
- 和鲸携手在线公益AI项目,助力学习实训一体化
- 体坛焦点@利物浦是维尔纳的完美下家吗?,深度:从技术特点到战术打法分析
- 「学习」成功人士每天都会告诉自己这 7 件事
- 【线下】线上学习线下行动,龙潭街道各级组织召开主题党日活动
- 「美股研究社」谷歌将提供10万个免费热点,疫情下加州学生网络学习难度大
- 大众网@陪伴百万女性终身学习,简知书院:打造专业的女性成长平台
