技术终于有人对语音技术来了次彻头彻尾的批判( 六 )
本文插图
原始的研究报告请在这里查看(https://blog.timbunce.org/2019/02/11/a-comparison-of-automatic-speech-recognition-asr-systems-part-2/) , 关于ASR系统在真实世界中的情况 , 将野外表现与人类基准相对比的案例极少 。 即便在清晰的英文语音中 , 人类也有4-11的WER(取决于域)!
我理解研究是遵循周期性的(新的尝试效率低下 , 优化后再取得新的进展) , 但似乎ASR研究是古德哈特定律在实践中的一个很好的例子 。
- 如果你阅读了在PyTorch上预训练的深度语音的发布通知 , 并看到“不要指望这些模型能够在你自己的数据上执行良好”这样的话 , 可能会很惊讶——经过了1千小时语音的训练之后 , CER和WER都很低 。 但在实践中 , 配有某些1万小时的理想数据集的系统 , 其WER趋近25-30%(而不是像广告中那样 , 清晰语音5%和嘈杂语音10%);
- 在CV相关的研究中 , 更好的Imagenet性能实际上转移到了数据集更小的真实任务上 , 与之不同 , 在语音中 , LibriSpeech上的更佳性能并没有转移到真实世界的数据上 。 你无法像在CV中用1千张图像训练你的网络那样 , 仅通过1千小时的语音来“快速调整”你的网络;
- 所有这些意味着学术界和企业界已经有越来越多的复杂方法针对LibriSpeech进行过度拟合 。
过度依赖大型计算
本文插图
过度参数化的案例 。 谷歌在实验中显示:其大型和中型网络之间没有显著的质量差异 , 即在实践中我们可以放弃中型网络 , 使用其他技巧来提高质量 。
下面是我们对著名或近期ASR论文中所使用计算的分析:
本文插图
本文插图
因为变形更多 , 俄语比英语更难 , 尽管我们的数据集包含很多域 , 因此无法直接与LibriSpeech相比较 , 不过LibriSpeech同质化更严重 , 噪音也更小 。
查看下表 , 我们可以发现以下信息:
- 大多数在LibriSpeech上训练的模型都以周期性的方法来完成 , 即N次显示完整数据集 。 成本非常低效 , 因此我们使用课程学习方法;
- QuartzNet. 这篇论文较为关注效率 , 但似乎用于训练的计算量与其他论文相当;
- TDS. 尽管他们没有明确报告训练其网络所需要的时间(我们尝试复制其网络 , 但失败了) , 但他们有许多很合理的理念——使用字节对编码(byte pair encoder , BPE) , 使用strides超过2或3的模型 , 使用简单来说算是可分离卷积的东西;
- JasperNet. 他们报告中说道:对其网络进行了或50个或500个时期的训练 , 但没有明确提到训练时间或使用的硬盘量;
- Wav2Letter. 在回顾中 , Wav2Letter的论文实际上并没有报告任何指标 , 这令人惊讶 。 我们尝试了类似Wav2Letter的网络 , 有大约20-30M的参数 , 但没有提供俄语;
- Deep Speech 2. 很难将原始的Deep Speech论文包括在本列表中 , 主要是因为他们尝试、推广和开创了很多不同的东西 。 我们只能把他们最常被引用的LibriSpeech试验和递归模型包括在内 。
推荐阅读
- 潇湘大视野接受特朗普是因为没有选择,半数国民发声:没有人比奥巴马做得好
- 虎扑他们可能会起诉NBA,巴克利谈复赛:如果有人生病
- 海南师范大学海南省科学技术厅谢京厅长一行赴我校调研指导重点实验室建设工作
- 周扒皮看热闹裸车不到15W,动力1.4T混动,4.9米的车身,大众终于放大招了
- 奇闻烩谈清华大学女教授终于将圆明园“复活”!看完震撼人心!,耗时15年
- 叽歪数码P30Pro跌至“新低价”,网友:终于等到了,华为再亮剑
- SENSORO升哲科技需要物联网技术来寻找新的增长点,后疫情时代下的零售业
- 微尼观影有人发现了乃万这个宝藏女孩了吗?什么神仙宝贝
- 「庞统」庞统临死前,终于看穿刘备真面目!宴席上暗示魏延,可惜魏延没懂
- 「麒麟990」华为旗舰一降再降,徕卡+麒麟990,网友:终于等到你
