技术终于有人对语音技术来了次彻头彻尾的批判( 七 )


模型大小 vs 最终结果, Deep Speech 2. 数据量 vs 最终结果, Deep Speech 2.
查看下表 , 我们还可以发现以下趋势:

  • 几乎到处都在使用大型计算 , 并且没有明显的硬件需求趋势(尽管论文中声称计算负担已经减轻);
  • 网络的范围从紧凑到庞大 , 但终归大多数网络都在过度拟合LibriSpeech的假定是很安全的 , 无论使用什么计算;
  • 如果跳至“已取得的总体进步” , 查看我们的收敛曲线和下面的收敛曲线 , 你会发现90%的融合发生在最初2-3天内 , 与整个行业一致(但我们使用的总体计算要少得多) 。

技术终于有人对语音技术来了次彻头彻尾的批判
本文插图

Deep Speech 2的收敛曲线
技术终于有人对语音技术来了次彻头彻尾的批判
本文插图

其他常见的批评
在处理机器学习或语音转文本方面的常见批评:
  • 通常 , 论文在方法的一般化方面(即域外测试)含糊其辞;
  • 对于超参数的稳定性很少关注;
  • 全新的半监督及无监督学习方法(wav2vec, cyclic STT-TTS training)并没有对样本效率、鲁棒性或一般化进行任何清晰或简便的检查 , 而且大多关注新颖性的元素;
  • 对所有情况执行端对端标准 。 学术论文通常会过度拟合其LMs , 并在一个小型的理想化数据集中(LibriSpeech)执行后期处理 , 其方法声称:由于文本域中可用数据量至少要高出1千倍 , 顶级的端对端结果极其次优(比如:将Wiki的大小与LibriSpeech的所有文本相比);
  • 对梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients)过度依赖 。 我们尚未看到对短时傅里叶变换(STFT)、梅尔频率倒谱系数、梅尔滤波器组(Mel-filter banks)以及小波(wavelets)等数据进行合适的比对 。 在我们试验的较小数据集中 , 最终使用什么并没有区别 , 但在实际生活中对于嘈杂的数据结果是不同的;
  • 短时傅里叶变换是最好的 。 此外 , 我们无法提供更新的网络过滤器SincNet)来执行有意义的试验 。

我们的解决方案也有缺陷 公平起见 , 我们也涵盖了一些针对自己的批评:
  • 我们使用了私有数据来训练模型 , 尽管与整个数据集的大小相比 , 私有数据集的大小要小得多 , 有着数量级的差异 , 即大约500小时(其中100小时经过手动标注)的“高质量基准” , 而公共数据集的大小则是2万小时;
  • 此外 , 本文所报告的主要结果仅通过极少量的手动标注就可达成(即 , 我们仅手动标注了验证集) 。 我们使用了这些少量的私有数据主要是因为我们需要在主域里获得生产结果;
  • 与我们的数据集不同 , 由于所有这些研究都是针对自筹资金的商业项目完成的 , 因此我们不共享训练管道、特殊的超参数、模型设置与预训练模型 。 我们本可以通过非商业许可的方式进行共享 , 但基于普遍共识 , 除非政府支持的垄断企业 , 否则在俄罗斯知识产权法并不起作用 。 我们正在寻求资金支持 , 以开源所有内容 , 包括将来在其他语言上的工作 。

结论 近来在大众媒体眼里 , 有监督的机器学习泛滥起来 。 这种情况是由于无法兑现的承诺被人为炒作 , 从而针对该领域出现了不合理的繁荣和过度投资 。
这很糟糕 , 因为这种情况可能会导致对整个社会有利的领域无法获得投资 。 例如无人驾驶卡车公司Starsky的故事就完美证明了这个观点 。 他们发布了可用的产品 , 但市场由于“AI泛滥”而没有准备好迎接 。 借用那篇文章里的概念和图像 , 你可以直观地通过以下曲线看到社会对于新技术的反应 。 如果技术达到L1 , 则会获得广泛采用 , 人人受益 。 如果可以达到L2 , 但需要大量的投资和时间 , 可能只有大型公司或有政府支持的垄断企业才能收获其成果 。 如果是L3的情况 , 则很可能人们只会在将来才重新启用这项技术 。


推荐阅读