技术终于有人对语音技术来了次彻头彻尾的批判
本文插图
作者 | Alexander Veysov
译者 | 孙薇 , 责编 | 夕颜
出品 | CSDN(ID:CSDNnews)
ImageNet的出现带来计算机视觉领域的突破发展 , 掀起了一股预训练之风 , 这就是所谓的ImageNet时刻 。 但与计算机视觉同样重要的语音领域 , 却是迟迟不见“ImageNet时刻”的到来 。 而作为NLP研究中最重要的方向之一——语音转文本(Speech-to-Text , STT)更是如此 , 虽然这项技术几乎已经渗透进我们日常生活的方方面面 , 但是研究上却也未有历史性的突破 。 这是为什么?终于 , 有专家站了出来 , 对语音领域研究做了一次彻头彻尾的批判 , 从学术界到工业界都没放过 。
本文中 , 这位专家将从构建STT模型的实践过程中 , 回答下面的几个问题:
- 什么是所谓的ImageNet时刻 , 它为什么重要?
- 为什么语音行业的ImageNet时刻尚未到来 , 学术界和工业界为此需负什么责任?
本文插图
ImageNet时刻是什么? 在我们看来 , 在特定机器学习子领域中的ImageNet时刻指的是:
- 解决95%的标准“有用”任务所需的框架和模型组件 , 作为标准和经过测试的开源框架模块获得广泛的可用性;
- 大多数流行的模型都可以使用来自大型数据集的预训练权重 , 使得通过较少数据对下游任务进行微调成为可能;
- 解决了从使用预训练模型的标准任务 , 到不同日常任务的这类微调(即很可能效果良好);
- 与之前在论文中报告的计算需求(在STT领域是100-1000GPU日)相比 , 训练日常任务模型所需的计算量(例如在STT领域是1-10GPU日)很小;
- 小型独立公司和研究小组可以使用大型模型的预训练计算 。
本文插图
为什么STT的ImageNet时刻尚未到来? 要了解这一点 , 我们先试着理解有哪些事件和趋势代表着计算机视觉(CV)领域进入了ImageNet时刻 。
本文插图
可视化图表:引领计算机视觉领域进入ImageNet时刻的关键趋势和事件
简单来说:
- 数十年来 , NVIDIA公司一直在制造和优化消费类GPU , 众所周知 , 现在只需将4-8个顶级GPU放在一起 , 便可以构建一台“超级计算机”;
- 据传言称 , 2000年代后期 , NVIDIA设想GPU性能足以满足机器学习的需求 , 就在那时他们开始投资CUDA技术(首个版本发布于2007年) , 这是一个基于大多数GPU加速的机器学习应用而构建的低级矩阵乘法框架;
- 2009年 , 一支由李飞飞教授领导的团队发布了ImageNet数据集 , 之后在2011年发起了现称ImageNet大规模视觉识别挑战赛(ILSVRC)的竞赛 。 在2012年 , Alex Krizhevsky等人也使用了NVIDIA GPU和CUDA来训练现在著名的AlexNet神经网络 , 并实现了远超之前的性能表现;
- 自此之后 , 深度学习框架一直在发展 , 并在2017-2018年左右逐渐成熟 。 本文发表之际 , PyTorch和TensorFlow已是首选的解决方案 , 除了图像分类之外 , 它们还针对许多任务提供了海量的预训练模型;
- 同一时期 , 在ImageNet上实现SOTA性能的模型框架也在一直不断完善 , 随着发展 , 训练和评估这些模型的代码也随着在相同流行框架中的预训练权重一并发布 。
推荐阅读
- |荷兰企业推出全新半导体技术,并承诺对华投资!中国光刻机获突破
- 辰宜科技|区块链技术与应用专题分享交流会
- 吴铭园|华为概念机设计图首次曝光,居然采用屏下摄像头技术
- |小米快跟进!华为新专利曝光:屏下摄像头终于要来了
- 数码与拖拉机维修技术|经典性价比机型再升级:TS-453Dmini 2.5GbE NAS拆解体验
- |《5G技术助力国产机器人完成全球首场骨科实时远程手术》公示材料
- 电热汇|科普:冷却塔的选择、配置与安装详解
- 兰州新闻网|创新驱动 情报先行——记兰州市科学技术情报研究所
- 最极客网|原创 中兴推5G视频手机,衰颓之后还能凭技术回归主流吗?
- CSDN|牛!2020年,这项技术将获得99000000000元人民币“国家领投”!
