技术终于有人对语音技术来了次彻头彻尾的批判( 四 )
除了可重现性之外 , 论文常见的问题还包括:
- 在方法的一般化(即域外测试)上含糊其辞 , 如果看一下论文 , 似乎神经网络在自动语音识别(ASR)上打败了人类 , 但那只是“排行榜”问题的另一个症状 , 并非事实;
- 他们通常不会说明所花费的计算量;
- 他们几乎不会发布收敛曲线(即达成最先进成果的一部分所需要耗费的时间和计算量是多少) 。 通常在机器学习中 , 95%甚至99%的结果只需要总计算量的很小一部分即可达成 。
被SOTA bug咬住 我真的很喜欢“被SOTA bug咬住”这样的表达 。 简而言之 , 如果一大群人都专注于追求某个抽象指标的顶尖成果 , 则该指标就失去了意义(这也是古德哈特定律的经典体现) 。 这类情况发生的具体原因不一而足 , 而且可能非常技术性 , 但在机器学习中 , 通常是由于模型与用于指标计算的数据集中某些隐藏的内在特质过度拟合所导致的 , 例如 , 在计算机视觉领域 , 这类模式通常是视觉上类似的一组图像 。
相对于较为大型、更热门的社区来说 , 追求学术或科学目标的小型理想主义的低调社区更不容易成为古德哈特定律的受害者 。 一旦达到一定的知名度 , 社区就会开始追求指标或道德信标(释放道德信号 , 以某种言论显示自己站在道义一方;单为炫耀而炫耀自己的道德价值观 , 无需付出任何实际努力) , 不再追求真正的进步 , 除非某些危机来临 。 这就是被SOTA bug咬住的意思 。
举个例子:在自然语言处理(NLP)领域 , 这种态度导致人们对根据公共学术基准而优化的大型模型的非理性过度投资 , 但是这样的“进步”实用性非常有限 , 原因很多:
- 即使最好最先进的模型对于手上的任务理解也很有限(毕竟机器学习属于模式匹配);
- 由于计算所耗费量可能会相差几个数量级 , 最近的最先进成果也越来越难比较了;
- 难以再现的性质限制了其在真实世界中的使用;
- 更多数据&计算量 = SOTA不是研究新闻;
- 排行榜指标被过度高估 。
- 这些数据集大多是英文的;
- 就研究可能性方面 , 这些数据集很棒 , 但与CV不同 , 在实际管道中它们很难合并;
- 尽管在构建类似SQUAD这样的数据集上所花费的努力和精力都很可观 , 但在生产模型中想要使用还无法真正做到;
- 稳定的生产级NLP模型通常基于大出若干个数量级的数据来构建 , 或者就是手上的任务相当简单 。 举个例子:假设某个神经网络可以可靠地完成命名实体识别(Named Entity Recognition , NER)很安全 , 但在回答问题或维持对话方面 , 目前还只是科幻小说级别 。 我喜欢这个恰当的比喻:用transformer来构建AGI , 就像是通过建设高塔来登月 。
另一方面 , 好消息是工业界的人士开始考虑方法的效率 , 甚至谷歌也开始发表关于有效训练Transformer模型库的论文了 。
论文内容和结构
本文插图
推荐阅读
- |荷兰企业推出全新半导体技术,并承诺对华投资!中国光刻机获突破
- 辰宜科技|区块链技术与应用专题分享交流会
- 吴铭园|华为概念机设计图首次曝光,居然采用屏下摄像头技术
- |小米快跟进!华为新专利曝光:屏下摄像头终于要来了
- 数码与拖拉机维修技术|经典性价比机型再升级:TS-453Dmini 2.5GbE NAS拆解体验
- |《5G技术助力国产机器人完成全球首场骨科实时远程手术》公示材料
- 电热汇|科普:冷却塔的选择、配置与安装详解
- 兰州新闻网|创新驱动 情报先行——记兰州市科学技术情报研究所
- 最极客网|原创 中兴推5G视频手机,衰颓之后还能凭技术回归主流吗?
- CSDN|牛!2020年,这项技术将获得99000000000元人民币“国家领投”!
