机器之心Pro|揭秘同行评审「十宗罪」,这样做才能改进论文评审机制
北京联盟_本文原题:揭秘同行评审「十宗罪」 , 这样做才能改进论文评审机制
选自arXiv
作者:Anna Rogers、Isabelle Augenstein
机器之心编译
编辑:魔王
顶会公布论文评审结果和论文接收结果时 , 就是大家放肆吐槽评审制度时 。 然而 , 年年吐槽 , 周而复始 。 为什么评审制度还没有得到改进?问题出在哪里?来自哥本哈根大学的研究者从多个角度分析评审制度的优缺点 , 并提出改进建议 。
一般来说 , 同行评审应该是高质量、高影响力研究的过滤器 , 但事实并非如此:
- 同行评审无法保证质量控制 , 不管是小的错误还是严重的方法缺陷 , 即使在发表错误结果会导致实质损害的生物医学领域也是如此 。
- 同行评审无法发现有影响力的论文 。 会议拒稿率和会议论文影响力(被引用状况)之间的相关性并不强 , 被这个会议拒绝的文章有时甚至获得了另一个会议的奖项 。
再来看论文影响力 。 与科学价值不同 , 它主要依赖于完全正交的因子:主题的小众程度、文章的宣传力度、论文是否具备较低的进入门槛 。
我们可以期待同行评审拒绝有明显方法缺陷的论文 , 聚焦那些有利于领域发展的 idea 。 但是 , 目前的同行评审流程设置并不是为了实现这些目的 , 而是将所有投稿论文按评分进行排序 , 筛选出 top 25% 。 而这项任务基本上是不可能完成的 。
同行评审为什么这么难?
如果论文评分分布在优秀论文和糟糕论文之间有一道明确的界限 , 那同行评审就很简单了 。 但是 , 很显然事实并非如此 。 基于引用数 , Anderson (2009) 假设论文评分符合 Zipf 分布 , 如图 1 所示 。 这意味着即使对于最客观的评审者 , 接收论文中最差的和被拒论文中最好的差异也不到 1% 。
本文插图
更糟糕的是 , 并不存在清晰的标准帮助评审人员绘制决策边界 。 Anderson (2009) 讨论了 SIG-COMM 2006 的一次实验 , 他们首先对低评分方差的论文给出接收 / 拒绝的决定 , 然后将高方差的论文分配给 9 位额外的评审人员 。 评审者不得不讨论难以决定的论文 , 据报道他们快被这种无法拿来对比的事情逼疯了 , 如这篇处在被拒边缘的论文缺乏完备的评估 , 另一篇应用范围较窄 。 不管我们思考多久 , 决策结果看起来都是随机的 。 例如:NIPS 2014 上 , 两位不同的 PC 对其中 10% 的提交论文进行评审 , 结果 57% 的论文接收决策是不一致的 。
对于大型 ACL 会议而言 , 情况更加糟糕:我们通常用不同的优缺点对不同类型的论文进行权衡(参见图 2) 。 哪一篇更有科学价值?这恐怕没有「正确」答案 。
本文插图
现行评审十大问题
面对客观上不可能的任务 , 评审人员做了人类在不确定情况下的普遍决策:使用启发式方法 , 而这引入了偏差 。 这么做还有一个诱因 , 将难以比较的事物强行对比是一个很慢、需要深思熟虑、成本较高的过程 , 而同行评审目前仍是免费的工作 。
下文列出了 NLP 领域中一些最有问题的启发式方法:
1. 写作风格:语言错误、不标准的文风或结构很容易看出来 , 并被认为写作草率 。 这就使得几乎所有人在与北美作者的对阵中处于劣势 。
2. 实验结果未超过 SOTA:尽管工程贡献应该展示该研究相比之前方法的改进 , 但未必一定得是预测性能的提升 , 计算效率或数据效率、可解释性、认知合理性等方面的进步也是有价值的提升 。 对预测性能的过度关注鼓励了预训练数据和算力的「军备竞赛」 , 加剧了方法论问题 。 与最新 SOTA 模型进行对比这项要求把我们变成了转轮子的老鼠 , 论文提交时实验就已经过时 。
推荐阅读
- 仙人球|养花试试这几款,花色丰富,观之心旷神怡,美不胜收
- 机器|国宝“冻白菜”太逼真,媲美台北故宫镇馆之宝,发现时被当坏白菜
- 繁殖|这三种花号称繁殖机器,养上一盆轻松变出百盆,真是太省钱了
- 机器|领导训员工:不想干就走,很多人抢着做,员工一个举动让领导后悔
- 漂亮|号称“开花机器”的4种漂亮花,养一盆赏花300天,是阳台盆栽佳品
- 盆栽|月季里的“开花机器”,能开一整年,花量非常多,阳台盆栽也可以
- 机器|不爱红妆爱工装,维修废旧机器的90后:向世界证明,谁说女子不男
- 开花|几种花养家里,旺运招财,堪称是“开花机器”,养在阳台极美了
- 机器人|赣州应用技术职业学校被举报涉嫌违规收费 政府:全部退还并整改
- 骨粉肥|养三角梅,反复做这件事,才不愧“开花机器”的美誉
