机器之心Pro|揭秘同行评审「十宗罪」，这样做才能改进论文评审机制

北京联盟_本文原题：揭秘同行评审「十宗罪」，这样做才能改进论文评审机制
选自arXiv
作者：Anna Rogers、Isabelle Augenstein
机器之心编译
编辑：魔王
顶会公布论文评审结果和论文接收结果时，就是大家放肆吐槽评审制度时。然而，年年吐槽，周而复始。为什么评审制度还没有得到改进？问题出在哪里？来自哥本哈根大学的研究者从多个角度分析评审制度的优缺点，并提出改进建议。
一般来说，同行评审应该是高质量、高影响力研究的过滤器，但事实并非如此：

同行评审无法保证质量控制，不管是小的错误还是严重的方法缺陷，即使在发表错误结果会导致实质损害的生物医学领域也是如此。
同行评审无法发现有影响力的论文。会议拒稿率和会议论文影响力（被引用状况）之间的相关性并不强，被这个会议拒绝的文章有时甚至获得了另一个会议的奖项。

问题在于，这两项期待从一开始就是不切实际的。同行评审人员无法执行质量控制，因为那意味着确保论文可复现。但对于只有几个小时的论文评审而言，这是不可能的。这其实也是基于深度学习的 NLP 领域的一般问题。 EMNLP 2020 的可复现性清单在这个方向上迈出了第一步。
再来看论文影响力。与科学价值不同，它主要依赖于完全正交的因子：主题的小众程度、文章的宣传力度、论文是否具备较低的进入门槛。
我们可以期待同行评审拒绝有明显方法缺陷的论文，聚焦那些有利于领域发展的 idea 。但是，目前的同行评审流程设置并不是为了实现这些目的，而是将所有投稿论文按评分进行排序，筛选出 top 25% 。而这项任务基本上是不可能完成的。
同行评审为什么这么难？
如果论文评分分布在优秀论文和糟糕论文之间有一道明确的界限，那同行评审就很简单了。但是，很显然事实并非如此。基于引用数， Anderson (2009) 假设论文评分符合 Zipf 分布，如图 1 所示。这意味着即使对于最客观的评审者，接收论文中最差的和被拒论文中最好的差异也不到 1% 。

本文插图

更糟糕的是，并不存在清晰的标准帮助评审人员绘制决策边界。 Anderson (2009) 讨论了 SIG-COMM 2006 的一次实验，他们首先对低评分方差的论文给出接收 / 拒绝的决定，然后将高方差的论文分配给 9 位额外的评审人员。评审者不得不讨论难以决定的论文，据报道他们快被这种无法拿来对比的事情逼疯了，如这篇处在被拒边缘的论文缺乏完备的评估，另一篇应用范围较窄。不管我们思考多久，决策结果看起来都是随机的。例如：NIPS 2014 上，两位不同的 PC 对其中 10% 的提交论文进行评审，结果 57% 的论文接收决策是不一致的。
对于大型 ACL 会议而言，情况更加糟糕：我们通常用不同的优缺点对不同类型的论文进行权衡（参见图 2）。哪一篇更有科学价值？这恐怕没有「正确」答案。

本文插图

现行评审十大问题
面对客观上不可能的任务，评审人员做了人类在不确定情况下的普遍决策：使用启发式方法，而这引入了偏差。这么做还有一个诱因，将难以比较的事物强行对比是一个很慢、需要深思熟虑、成本较高的过程，而同行评审目前仍是免费的工作。
下文列出了 NLP 领域中一些最有问题的启发式方法：
1. 写作风格：语言错误、不标准的文风或结构很容易看出来，并被认为写作草率。这就使得几乎所有人在与北美作者的对阵中处于劣势。
2. 实验结果未超过 SOTA：尽管工程贡献应该展示该研究相比之前方法的改进，但未必一定得是预测性能的提升，计算效率或数据效率、可解释性、认知合理性等方面的进步也是有价值的提升。对预测性能的过度关注鼓励了预训练数据和算力的「军备竞赛」，加剧了方法论问题。与最新 SOTA 模型进行对比这项要求把我们变成了转轮子的老鼠，论文提交时实验就已经过时。