技术终于有人对语音技术来了次彻头彻尾的批判( 六 )
本文插图
原始的研究报告请在这里查看(https://blog.timbunce.org/2019/02/11/a-comparison-of-automatic-speech-recognition-asr-systems-part-2/) , 关于ASR系统在真实世界中的情况 , 将野外表现与人类基准相对比的案例极少 。 即便在清晰的英文语音中 , 人类也有4-11的WER(取决于域)!
我理解研究是遵循周期性的(新的尝试效率低下 , 优化后再取得新的进展) , 但似乎ASR研究是古德哈特定律在实践中的一个很好的例子 。
- 如果你阅读了在PyTorch上预训练的深度语音的发布通知 , 并看到“不要指望这些模型能够在你自己的数据上执行良好”这样的话 , 可能会很惊讶——经过了1千小时语音的训练之后 , CER和WER都很低 。 但在实践中 , 配有某些1万小时的理想数据集的系统 , 其WER趋近25-30%(而不是像广告中那样 , 清晰语音5%和嘈杂语音10%);
- 在CV相关的研究中 , 更好的Imagenet性能实际上转移到了数据集更小的真实任务上 , 与之不同 , 在语音中 , LibriSpeech上的更佳性能并没有转移到真实世界的数据上 。 你无法像在CV中用1千张图像训练你的网络那样 , 仅通过1千小时的语音来“快速调整”你的网络;
- 所有这些意味着学术界和企业界已经有越来越多的复杂方法针对LibriSpeech进行过度拟合 。
过度依赖大型计算
本文插图
过度参数化的案例 。 谷歌在实验中显示:其大型和中型网络之间没有显著的质量差异 , 即在实践中我们可以放弃中型网络 , 使用其他技巧来提高质量 。
下面是我们对著名或近期ASR论文中所使用计算的分析:
本文插图
本文插图
因为变形更多 , 俄语比英语更难 , 尽管我们的数据集包含很多域 , 因此无法直接与LibriSpeech相比较 , 不过LibriSpeech同质化更严重 , 噪音也更小 。
查看下表 , 我们可以发现以下信息:
- 大多数在LibriSpeech上训练的模型都以周期性的方法来完成 , 即N次显示完整数据集 。 成本非常低效 , 因此我们使用课程学习方法;
- QuartzNet. 这篇论文较为关注效率 , 但似乎用于训练的计算量与其他论文相当;
- TDS. 尽管他们没有明确报告训练其网络所需要的时间(我们尝试复制其网络 , 但失败了) , 但他们有许多很合理的理念——使用字节对编码(byte pair encoder , BPE) , 使用strides超过2或3的模型 , 使用简单来说算是可分离卷积的东西;
- JasperNet. 他们报告中说道:对其网络进行了或50个或500个时期的训练 , 但没有明确提到训练时间或使用的硬盘量;
- Wav2Letter. 在回顾中 , Wav2Letter的论文实际上并没有报告任何指标 , 这令人惊讶 。 我们尝试了类似Wav2Letter的网络 , 有大约20-30M的参数 , 但没有提供俄语;
- Deep Speech 2. 很难将原始的Deep Speech论文包括在本列表中 , 主要是因为他们尝试、推广和开创了很多不同的东西 。 我们只能把他们最常被引用的LibriSpeech试验和递归模型包括在内 。
推荐阅读
- |荷兰企业推出全新半导体技术,并承诺对华投资!中国光刻机获突破
- 辰宜科技|区块链技术与应用专题分享交流会
- 吴铭园|华为概念机设计图首次曝光,居然采用屏下摄像头技术
- |小米快跟进!华为新专利曝光:屏下摄像头终于要来了
- 数码与拖拉机维修技术|经典性价比机型再升级:TS-453Dmini 2.5GbE NAS拆解体验
- |《5G技术助力国产机器人完成全球首场骨科实时远程手术》公示材料
- 电热汇|科普:冷却塔的选择、配置与安装详解
- 兰州新闻网|创新驱动 情报先行——记兰州市科学技术情报研究所
- 最极客网|原创 中兴推5G视频手机,衰颓之后还能凭技术回归主流吗?
- CSDN|牛!2020年,这项技术将获得99000000000元人民币“国家领投”!
