技术终于有人对语音技术来了次彻头彻尾的批判( 三 )
Wav2Letter++
256
21
C++
提交的版本与发行版可能更相似
FairSeq
956
111
PyTorch
OpenNMT
2,401
138
PyTorch
EspNet
5,441
51
PyTorch
Typical Project
100-500
1 - 10
PyTorch
依靠框架或工具包 , 而不是从头写起的情况非常常见 。 人们会希望有为STT设计的专用框架和工具包 , 然后基于这些框架所提供的模型进行构建 , 而不是在基础的PyTorch或TensorFlow上从头写自己的模型 。 不幸的是:对于语音识别来说 , 情况并非如此 。 使用这些解决方案来开启自己的STT项目并不合理 , 原因很多:
- 代码是为了大型运算而优化过的;
- 只有小型学术数据集中存在引导方案(端对端案例表明如何使用这些框架) , 无法在未经大型运算的情况下扩展到大型数据集中;
- 这些引导方案的样本效率极低(我们最喜欢的样本在数据集中训练10GB的LMs , 文本足有数百兆字节);
- 即便在LibriSpeech上对模型进行了预训练 , 很可能也无法转移到真实环境中;
- 如果想要构建一个内部的STT解决方案 , 将其内部化并正确理解优化 , 你可能需要一个大型团队或者相当可观的时间来将这个工具包内部化;
- 上述工具包或是已经发布的内部解决方案 , 或是PR版、抢先上市版或生态系统构建工具 。 这意味着大多数情况下 , 这款工具包会作为恰当的MVP或基准出现 , 但如若不投入大量资源 , 你无法轻易优化此类管道(对于公司来说 , 无论如何都会编写自己的工具包) 。
解决并不存在的问题 构建一个更新更好、可用于8个价值1万美元的GPU上运行的工具包 , 对于真实世界的应用来说并无帮助 。
基于真实生活中的数据 , 创建并发布一个免费、开放及公共领域的数据集 , 然后发布对其进行预训练的模型(这就是CV中发生的情况)才是真正的解决方案 。 然而 , 除了Mozilla的Common Voice项目之外 , 我们还没看到任何有价值的计划 。
无法再现的结果 在机器学习中有一个常见的模式 , 即每周都有人声称获得了最前沿的结果 , 但这类结果很少是可重现的 , 或者附有可简单运行的代码 。
考虑到与加速后的硬件 , 以及大型数据集的集成问题 , 其困难度及训练模型所耗费的时间使得可重现性更难实现 。
与“最为前沿”的口号相反 , 我们相信 , 应当将更多注意力转向“优秀到足以在真实生活中使用的”解决方案和公共数据集上 。
本文插图
对学术界的批评 下面是我们观点的简单总结:
- 如果一大群人都在关注追求某种标准上的顶尖成果 , 则这项指标会失去其意义(可参考见古德哈特定律:当一个政策变成目标 , 它将不再是一个好的政策) 。 如果不能快速迭代 , 学术数据集将成为各大公司用以炫耀的“排行榜” 。 为了达到最先进的水平 , 在大型计算中使用庞大而样本低效的网络已经成为默认规则 , 尽管较小型的从业者无法参与;
- 理想情况下 , 论文应当有足够的细节信息 , 从而令独立研究人员也能获得95%以上的论文信息;
- 在实际情况下 , 论文内容和结构通常会因其实际目的和真实生活中的应用而受到质疑 , 即其发表时以“不发表就完蛋”的心态来发布 , 其中以复杂的数学来解释新概念 , 尽管事实上这些研究者自身也许与所列举的数学信息并无关联 , 只是借用现成的工具罢了 。
推荐阅读
- 潇湘大视野接受特朗普是因为没有选择,半数国民发声:没有人比奥巴马做得好
- 虎扑他们可能会起诉NBA,巴克利谈复赛:如果有人生病
- 海南师范大学海南省科学技术厅谢京厅长一行赴我校调研指导重点实验室建设工作
- 周扒皮看热闹裸车不到15W,动力1.4T混动,4.9米的车身,大众终于放大招了
- 奇闻烩谈清华大学女教授终于将圆明园“复活”!看完震撼人心!,耗时15年
- 叽歪数码P30Pro跌至“新低价”,网友:终于等到了,华为再亮剑
- SENSORO升哲科技需要物联网技术来寻找新的增长点,后疫情时代下的零售业
- 微尼观影有人发现了乃万这个宝藏女孩了吗?什么神仙宝贝
- 「庞统」庞统临死前,终于看穿刘备真面目!宴席上暗示魏延,可惜魏延没懂
- 「麒麟990」华为旗舰一降再降,徕卡+麒麟990,网友:终于等到你
