技术终于有人对语音技术来了次彻头彻尾的批判( 六 )



技术终于有人对语音技术来了次彻头彻尾的批判
本文插图

原始的研究报告请在这里查看(https://blog.timbunce.org/2019/02/11/a-comparison-of-automatic-speech-recognition-asr-systems-part-2/) , 关于ASR系统在真实世界中的情况 , 将野外表现与人类基准相对比的案例极少 。 即便在清晰的英文语音中 , 人类也有4-11的WER(取决于域)!
我理解研究是遵循周期性的(新的尝试效率低下 , 优化后再取得新的进展) , 但似乎ASR研究是古德哈特定律在实践中的一个很好的例子 。

  • 如果你阅读了在PyTorch上预训练的深度语音的发布通知 , 并看到“不要指望这些模型能够在你自己的数据上执行良好”这样的话 , 可能会很惊讶——经过了1千小时语音的训练之后 , CER和WER都很低 。 但在实践中 , 配有某些1万小时的理想数据集的系统 , 其WER趋近25-30%(而不是像广告中那样 , 清晰语音5%和嘈杂语音10%);
  • 在CV相关的研究中 , 更好的Imagenet性能实际上转移到了数据集更小的真实任务上 , 与之不同 , 在语音中 , LibriSpeech上的更佳性能并没有转移到真实世界的数据上 。 你无法像在CV中用1千张图像训练你的网络那样 , 仅通过1千小时的语音来“快速调整”你的网络;
  • 所有这些意味着学术界和企业界已经有越来越多的复杂方法针对LibriSpeech进行过度拟合 。
尽管可以理解:研究人员想要在自己的问题上取得进展 , 并使用可用的数据;但最终事实证明:首先将类似ImageNet这样的项目用于创建真正大型且具有挑战性的数据集会更加有用 。
过度依赖大型计算
技术终于有人对语音技术来了次彻头彻尾的批判
本文插图

过度参数化的案例 。 谷歌在实验中显示:其大型和中型网络之间没有显著的质量差异 , 即在实践中我们可以放弃中型网络 , 使用其他技巧来提高质量 。
下面是我们对著名或近期ASR论文中所使用计算的分析:
技术终于有人对语音技术来了次彻头彻尾的批判
本文插图

技术终于有人对语音技术来了次彻头彻尾的批判
本文插图

因为变形更多 , 俄语比英语更难 , 尽管我们的数据集包含很多域 , 因此无法直接与LibriSpeech相比较 , 不过LibriSpeech同质化更严重 , 噪音也更小 。
查看下表 , 我们可以发现以下信息: