技术终于有人对语音技术来了次彻头彻尾的批判
本文插图
作者 | Alexander Veysov
译者 | 孙薇 , 责编 | 夕颜
出品 | CSDN(ID:CSDNnews)
ImageNet的出现带来计算机视觉领域的突破发展 , 掀起了一股预训练之风 , 这就是所谓的ImageNet时刻 。 但与计算机视觉同样重要的语音领域 , 却是迟迟不见“ImageNet时刻”的到来 。 而作为NLP研究中最重要的方向之一——语音转文本(Speech-to-Text , STT)更是如此 , 虽然这项技术几乎已经渗透进我们日常生活的方方面面 , 但是研究上却也未有历史性的突破 。 这是为什么?终于 , 有专家站了出来 , 对语音领域研究做了一次彻头彻尾的批判 , 从学术界到工业界都没放过 。
本文中 , 这位专家将从构建STT模型的实践过程中 , 回答下面的几个问题:
- 什么是所谓的ImageNet时刻 , 它为什么重要?
- 为什么语音行业的ImageNet时刻尚未到来 , 学术界和工业界为此需负什么责任?
本文插图
ImageNet时刻是什么? 在我们看来 , 在特定机器学习子领域中的ImageNet时刻指的是:
- 解决95%的标准“有用”任务所需的框架和模型组件 , 作为标准和经过测试的开源框架模块获得广泛的可用性;
- 大多数流行的模型都可以使用来自大型数据集的预训练权重 , 使得通过较少数据对下游任务进行微调成为可能;
- 解决了从使用预训练模型的标准任务 , 到不同日常任务的这类微调(即很可能效果良好);
- 与之前在论文中报告的计算需求(在STT领域是100-1000GPU日)相比 , 训练日常任务模型所需的计算量(例如在STT领域是1-10GPU日)很小;
- 小型独立公司和研究小组可以使用大型模型的预训练计算 。
本文插图
为什么STT的ImageNet时刻尚未到来? 要了解这一点 , 我们先试着理解有哪些事件和趋势代表着计算机视觉(CV)领域进入了ImageNet时刻 。
本文插图
可视化图表:引领计算机视觉领域进入ImageNet时刻的关键趋势和事件
简单来说:
- 数十年来 , NVIDIA公司一直在制造和优化消费类GPU , 众所周知 , 现在只需将4-8个顶级GPU放在一起 , 便可以构建一台“超级计算机”;
- 据传言称 , 2000年代后期 , NVIDIA设想GPU性能足以满足机器学习的需求 , 就在那时他们开始投资CUDA技术(首个版本发布于2007年) , 这是一个基于大多数GPU加速的机器学习应用而构建的低级矩阵乘法框架;
- 2009年 , 一支由李飞飞教授领导的团队发布了ImageNet数据集 , 之后在2011年发起了现称ImageNet大规模视觉识别挑战赛(ILSVRC)的竞赛 。 在2012年 , Alex Krizhevsky等人也使用了NVIDIA GPU和CUDA来训练现在著名的AlexNet神经网络 , 并实现了远超之前的性能表现;
- 自此之后 , 深度学习框架一直在发展 , 并在2017-2018年左右逐渐成熟 。 本文发表之际 , PyTorch和TensorFlow已是首选的解决方案 , 除了图像分类之外 , 它们还针对许多任务提供了海量的预训练模型;
- 同一时期 , 在ImageNet上实现SOTA性能的模型框架也在一直不断完善 , 随着发展 , 训练和评估这些模型的代码也随着在相同流行框架中的预训练权重一并发布 。
推荐阅读
- 潇湘大视野接受特朗普是因为没有选择,半数国民发声:没有人比奥巴马做得好
- 虎扑他们可能会起诉NBA,巴克利谈复赛:如果有人生病
- 海南师范大学海南省科学技术厅谢京厅长一行赴我校调研指导重点实验室建设工作
- 周扒皮看热闹裸车不到15W,动力1.4T混动,4.9米的车身,大众终于放大招了
- 奇闻烩谈清华大学女教授终于将圆明园“复活”!看完震撼人心!,耗时15年
- 叽歪数码P30Pro跌至“新低价”,网友:终于等到了,华为再亮剑
- SENSORO升哲科技需要物联网技术来寻找新的增长点,后疫情时代下的零售业
- 微尼观影有人发现了乃万这个宝藏女孩了吗?什么神仙宝贝
- 「庞统」庞统临死前,终于看穿刘备真面目!宴席上暗示魏延,可惜魏延没懂
- 「麒麟990」华为旗舰一降再降,徕卡+麒麟990,网友:终于等到你
