量子位别再SOTA了，那叫“微调”！Science发文炮轰论文灌水( 二 )

本文插图
ShrinkBench提供了标准化和可扩展的功能，可以用于训练、剪枝、微调、计算度量和绘图，而且都是使用标准化的预训练模型和数据集。
正如另一位作者John Guttag所说：
如果你不能衡量某种东西，就很难让它往好的方向发展。
好了，现在要是再想在剪枝算法上，稍微搞个小进展就水一篇论文，可能不再那么容易了。
Science发文炮轰水论文
最近， Science也针对“水论文”一事发表文章，认为人工智能领域中的许多分支，其发展都是不稳定的：
2019年，对搜索引擎中使用的信息检索算法进行的一项元分析，得出了一个“高水位线”(high-water mark) ，然而，它早在2009年就有了；
同样是2019年，另外一项研究复现了7个神经网络推荐系统，结果，其中6个系统的表现，还没有多年前开发的更简单的非神经网络算法好；
今年2月，卡内基梅隆大学的计算机科学家Zico Kolter在arXiv发表论文，他发现早期的对抗训练方法PGD ，只需要用简单的小技巧增强一下，就能达到目前所谓更新、更复杂方法的效果；
今年3月，康奈尔大学的计算机科学家Kevin Musgrave ，在arXiv上发表了一篇论文研究了损失函数，在一项涉及图像检索的任务中，他对其中十几个算法进行了平等的比较，结果发现，与这些科研工作者的说辞恰巧相反，自2006年以来，准确率就没有提高过。

本文插图
正如Musgrave表示：
炒作浪潮一直存在。
反观那些经久不衰的算法，像LSTM ，自1997年被提出后，在语言翻译任务中取得了重大突破。
如果LSTM得到适当的训练，它的性能就能和20年后(现在)的算法相当。
类似的还有像2014年提出的GAN ，大幅提高了生成图像的能力。在2018年的一篇报告称，只要有足够的计算量，原有的GAN方法可以与后来的方法相媲美。

本文插图
对此， Kolter认为，研究人员应当热衷于开创全新的算法，让这个新算法达到SOTA效果，而不是对现有算法做调整。
那么，如今这种论文灌水背后的原因，又是什么呢？
其中一个因素，便是MIT研究人员所指出的评估标准问题——数据集不同、调整方法不同、性能指标和基线都不同，这种比较是不可行的。
而另外一个原因，便是AI领域的爆炸性增长，论文数量远超有经验的审稿人数，评审人员应当坚持跟一个合理、科学的基准，做更好的比较。
比论文灌水更可怕的，是造假
以为学术乱象只有这些？
不，还有一股“造假风” 。
5月20日，国外网友便曝出了一个学术造假大事件：
8篇文章，不同作者，不同医院，不同癌症种类，不同蛋白表达，愣是完全一样的结果，发了8篇论文。

本文插图
UAB医学院糖尿病中心博士后研究员、营养学博士，微博网友“晨光us”对此表示：
如此丧心病狂的造假，简直让人看得窒息。

本文插图
然而，更令人悲哀的是，论文作者全部来自中国……
而且从文章署名来看，从一线医生到主任副主任医师、医院副院长，还有多篇是国家自然科学基金资助。
如此造假，简直不简单。

量子位别再SOTA了，那叫“微调”！Science发文炮轰论文灌水( 二 )

推荐阅读

海峡要闻|中方早已严阵以待，形势急剧恶化！五角大楼紧急行动再对华下黑手

扬子晚报|两车同属违停处理却相异，市民投诉交警要“说法”

羊城晚报|荷叶清暑化湿，还能降脂减肥！

去腋毛最干净的方法

#石油商报#吕建中：能源应急保障能力建设可成为“新基建”的重头戏

不浪不舒服斯基电竞|35年前的“魂”游戏，红白机上令无数玩家崩溃的《魔界村》

奇瑞瑞虎：奇瑞瑞虎7提车作业，车主驾驶2个月后，晒出真实油耗

怎样看待老公的红颜知己

16家银行理财子开业：不再只投债，打新、港股、黄金都到碗里来

[iphone11]扎心了！宁愿买iPhone11，也不愿意买华为P40Pro呢？原因太现实

健康海盐|【科普】中医四季养生

文汇|上海首批商标保险集体签约涉及16件注册商标

军队文职离职率为什么高？

鼠标|为什么我的鼠标难用？鼠标引擎惹的祸

绿茶并非越鲜越好喝新茶或出现不适

联想威6商务笔记本真实测评联想商务笔记本电脑哪款好

孕五月肚子经常发硬正常吗

时尚阅砚台|杨采钰古装大片

80年代文革砖品评,老同志流金岁月品评

防止头发分叉有妙招头发分叉八大注意事项要避免