技术终于有人对语音技术来了次彻头彻尾的批判( 四 )
除了可重现性之外 , 论文常见的问题还包括:
- 在方法的一般化(即域外测试)上含糊其辞 , 如果看一下论文 , 似乎神经网络在自动语音识别(ASR)上打败了人类 , 但那只是“排行榜”问题的另一个症状 , 并非事实;
- 他们通常不会说明所花费的计算量;
- 他们几乎不会发布收敛曲线(即达成最先进成果的一部分所需要耗费的时间和计算量是多少) 。 通常在机器学习中 , 95%甚至99%的结果只需要总计算量的很小一部分即可达成 。
被SOTA bug咬住 我真的很喜欢“被SOTA bug咬住”这样的表达 。 简而言之 , 如果一大群人都专注于追求某个抽象指标的顶尖成果 , 则该指标就失去了意义(这也是古德哈特定律的经典体现) 。 这类情况发生的具体原因不一而足 , 而且可能非常技术性 , 但在机器学习中 , 通常是由于模型与用于指标计算的数据集中某些隐藏的内在特质过度拟合所导致的 , 例如 , 在计算机视觉领域 , 这类模式通常是视觉上类似的一组图像 。
相对于较为大型、更热门的社区来说 , 追求学术或科学目标的小型理想主义的低调社区更不容易成为古德哈特定律的受害者 。 一旦达到一定的知名度 , 社区就会开始追求指标或道德信标(释放道德信号 , 以某种言论显示自己站在道义一方;单为炫耀而炫耀自己的道德价值观 , 无需付出任何实际努力) , 不再追求真正的进步 , 除非某些危机来临 。 这就是被SOTA bug咬住的意思 。
举个例子:在自然语言处理(NLP)领域 , 这种态度导致人们对根据公共学术基准而优化的大型模型的非理性过度投资 , 但是这样的“进步”实用性非常有限 , 原因很多:
- 即使最好最先进的模型对于手上的任务理解也很有限(毕竟机器学习属于模式匹配);
- 由于计算所耗费量可能会相差几个数量级 , 最近的最先进成果也越来越难比较了;
- 难以再现的性质限制了其在真实世界中的使用;
- 更多数据&计算量 = SOTA不是研究新闻;
- 排行榜指标被过度高估 。
- 这些数据集大多是英文的;
- 就研究可能性方面 , 这些数据集很棒 , 但与CV不同 , 在实际管道中它们很难合并;
- 尽管在构建类似SQUAD这样的数据集上所花费的努力和精力都很可观 , 但在生产模型中想要使用还无法真正做到;
- 稳定的生产级NLP模型通常基于大出若干个数量级的数据来构建 , 或者就是手上的任务相当简单 。 举个例子:假设某个神经网络可以可靠地完成命名实体识别(Named Entity Recognition , NER)很安全 , 但在回答问题或维持对话方面 , 目前还只是科幻小说级别 。 我喜欢这个恰当的比喻:用transformer来构建AGI , 就像是通过建设高塔来登月 。
另一方面 , 好消息是工业界的人士开始考虑方法的效率 , 甚至谷歌也开始发表关于有效训练Transformer模型库的论文了 。
论文内容和结构
本文插图
推荐阅读
- 潇湘大视野接受特朗普是因为没有选择,半数国民发声:没有人比奥巴马做得好
- 虎扑他们可能会起诉NBA,巴克利谈复赛:如果有人生病
- 海南师范大学海南省科学技术厅谢京厅长一行赴我校调研指导重点实验室建设工作
- 周扒皮看热闹裸车不到15W,动力1.4T混动,4.9米的车身,大众终于放大招了
- 奇闻烩谈清华大学女教授终于将圆明园“复活”!看完震撼人心!,耗时15年
- 叽歪数码P30Pro跌至“新低价”,网友:终于等到了,华为再亮剑
- SENSORO升哲科技需要物联网技术来寻找新的增长点,后疫情时代下的零售业
- 微尼观影有人发现了乃万这个宝藏女孩了吗?什么神仙宝贝
- 「庞统」庞统临死前,终于看穿刘备真面目!宴席上暗示魏延,可惜魏延没懂
- 「麒麟990」华为旗舰一降再降,徕卡+麒麟990,网友:终于等到你
