技术终于有人对语音技术来了次彻头彻尾的批判

2026-01-20

本文插图
作者 | Alexander Veysov
译者 | 孙薇，责编 | 夕颜
出品 | CSDN（ID：CSDNnews）
ImageNet的出现带来计算机视觉领域的突破发展，掀起了一股预训练之风，这就是所谓的ImageNet时刻。但与计算机视觉同样重要的语音领域，却是迟迟不见“ImageNet时刻”的到来。而作为NLP研究中最重要的方向之一——语音转文本（Speech-to-Text ， STT）更是如此，虽然这项技术几乎已经渗透进我们日常生活的方方面面，但是研究上却也未有历史性的突破。这是为什么？终于，有专家站了出来，对语音领域研究做了一次彻头彻尾的批判，从学术界到工业界都没放过。
本文中，这位专家将从构建STT模型的实践过程中，回答下面的几个问题：

什么是所谓的ImageNet时刻，它为什么重要？
为什么语音行业的ImageNet时刻尚未到来，学术界和工业界为此需负什么责任？

技术终于有人对语音技术来了次彻头彻尾的批判

本文插图
ImageNet时刻是什么? 在我们看来，在特定机器学习子领域中的ImageNet时刻指的是：

解决95%的标准“有用”任务所需的框架和模型组件，作为标准和经过测试的开源框架模块获得广泛的可用性；
大多数流行的模型都可以使用来自大型数据集的预训练权重，使得通过较少数据对下游任务进行微调成为可能；
解决了从使用预训练模型的标准任务，到不同日常任务的这类微调（即很可能效果良好）；
与之前在论文中报告的计算需求（在STT领域是100-1000GPU日）相比，训练日常任务模型所需的计算量（例如在STT领域是1-10GPU日）很小；
小型独立公司和研究小组可以使用大型模型的预训练计算。

如果满足上述条件，全新实用的应用就能以合理的成本进行开发。此外，行业民主化也会随之而来——人们不必再依赖诸如谷歌这样的大公司作为行业中的唯一真相来源。

技术终于有人对语音技术来了次彻头彻尾的批判

本文插图
为什么STT的ImageNet时刻尚未到来？要了解这一点，我们先试着理解有哪些事件和趋势代表着计算机视觉（CV）领域进入了ImageNet时刻。

技术终于有人对语音技术来了次彻头彻尾的批判

本文插图
可视化图表：引领计算机视觉领域进入ImageNet时刻的关键趋势和事件
简单来说：

数十年来， NVIDIA公司一直在制造和优化消费类GPU ，众所周知，现在只需将4-8个顶级GPU放在一起，便可以构建一台“超级计算机”；
据传言称， 2000年代后期， NVIDIA设想GPU性能足以满足机器学习的需求，就在那时他们开始投资CUDA技术（首个版本发布于2007年），这是一个基于大多数GPU加速的机器学习应用而构建的低级矩阵乘法框架；
2009年，一支由李飞飞教授领导的团队发布了ImageNet数据集，之后在2011年发起了现称ImageNet大规模视觉识别挑战赛（ILSVRC）的竞赛。在2012年， Alex Krizhevsky等人也使用了NVIDIA GPU和CUDA来训练现在著名的AlexNet神经网络，并实现了远超之前的性能表现；
自此之后，深度学习框架一直在发展，并在2017-2018年左右逐渐成熟。本文发表之际， PyTorch和TensorFlow已是首选的解决方案，除了图像分类之外，它们还针对许多任务提供了海量的预训练模型；
同一时期，在ImageNet上实现SOTA性能的模型框架也在一直不断完善，随着发展，训练和评估这些模型的代码也随着在相同流行框架中的预训练权重一并发布。
- 上一页
- 1
- 2
- 3
- 4
- 5
- 6
- 下一页
推荐阅读

上一篇：搜狐新闻以小见大点易拍E1680D A3高拍仪图赏

下一篇：风险投资2020青岛?全球创投风投网络大会业界大咖共赴云上之约