技术终于有人对语音技术来了次彻头彻尾的批判( 五 )
传统意义上 , 在机器学习中 , 新的想法已经以数学公式的形式共享了 。 这种做法历史悠久 , 也容易理解 , 但存在缺陷 。 由于如今开源工具的广泛采用 , 在构建应用解决方案、优化现有方案、解释事物运行方式(这是一项单独的艰苦工作)、构建基本模块或框架(如果百度构建的warp-ctc , 或者脸书构建的PyTorch)和创建新的数学方法存在着明显的分界线 。
机器学习的研究人员通常都同意这个看法:论文中存在很多为方程式而方程式的内容 。 但它们是否真的有助于我们理解事物的真正运行方式呢?我们以CTC(Connectionist Temporal Classification)损失为例来说明这个观点 。 几乎每篇用到这个损失的STT论文中都有专门的章节来描述 , 你可能会在其中找到一些公式 , 但是否能帮助你理解呢?
CTC损失是个复杂的问题 , 而且很可能是STT研究最大的推动力 , 但很少有论文提到它们使用了哪种实现 。 在我读过的论文中 , 还没看到下列看法 。 该怪我的无知 , 或者实现时的怪癖 , 还是他们故意忽略了这些内容呢?
- 每3个月 , 我会将warp-ctc与PyTorch原生的CTC损失相比较 , 使用真实数据时后者无法正常运作;
- 与标准损失相比 , CTC损失相当“激进”;
- 通常需要某种形式的修剪或预热 , CTC损失“喜欢”爆炸;
- 对于在第一阶段向你的网络展示哪些数据 , 你应当非常小心 。
试想一下 , 如果机器学习论文和出版物遵循以下模板 , 传递结果的难度要降低多少:
- 使用这些工具包、实现和想法;
- 进行这些主要的改动;
- 运行这些试验 , 这是我们的结论 。
我们来看看从推广ASR的原始论文Deep Speech 2开始 , 到现在进步了多少 。
本文插图
从这篇论文改编 , 《Deep Speech 2》的论文中所报告的人类结果 。
是否似乎字符错误率(CER)和词组错误率(WER)的指标实际上降低了60% , 并超过了人类水平?因此 , 如果运行效果如此之好 , 为什么我们不能在每台设备上看到理想的STT弹出?为什么语音接口仍被认为是一项很酷的功能 , 特别是在商业应用中?
尽管根据下表的数据 , 在转到音频时 , 人类通常会有5-10%的错误率 , 但这个表格具有误导性 。 我们阅读了一些论文 , 并发现了一些情况:
- 较新的论文很少使用较小的模型来执行消融试验(ablation tests);
- 声称包含最先进性能的ASR论文很少会出现收敛曲线;
- 这些论文很少报告用于超参数搜索和模型收敛的计算量;
- 在我们读过的论文中 , 仅有Deep Speech 2对较小型数据集上的性能如何转化到实际生活的数据方面有所关注(即域外验证);
- 没有针对真实数据集的样本效率和可伸缩性做过优化 。 2019年的几篇论文与(Time-Depth Separable Convolutions, QuartzNet)讲述的内容大致相似 , 但更关注减少模型大小 , 而不是训练时间 。
推荐阅读
- 潇湘大视野接受特朗普是因为没有选择,半数国民发声:没有人比奥巴马做得好
- 虎扑他们可能会起诉NBA,巴克利谈复赛:如果有人生病
- 海南师范大学海南省科学技术厅谢京厅长一行赴我校调研指导重点实验室建设工作
- 周扒皮看热闹裸车不到15W,动力1.4T混动,4.9米的车身,大众终于放大招了
- 奇闻烩谈清华大学女教授终于将圆明园“复活”!看完震撼人心!,耗时15年
- 叽歪数码P30Pro跌至“新低价”,网友:终于等到了,华为再亮剑
- SENSORO升哲科技需要物联网技术来寻找新的增长点,后疫情时代下的零售业
- 微尼观影有人发现了乃万这个宝藏女孩了吗?什么神仙宝贝
- 「庞统」庞统临死前,终于看穿刘备真面目!宴席上暗示魏延,可惜魏延没懂
- 「麒麟990」华为旗舰一降再降,徕卡+麒麟990,网友:终于等到你
