机器之心Pro|揭秘同行评审「十宗罪」,这样做才能改进论文评审机制


北京联盟_本文原题:揭秘同行评审「十宗罪」 , 这样做才能改进论文评审机制
选自arXiv
作者:Anna Rogers、Isabelle Augenstein
机器之心编译
编辑:魔王
顶会公布论文评审结果和论文接收结果时 , 就是大家放肆吐槽评审制度时 。 然而 , 年年吐槽 , 周而复始 。 为什么评审制度还没有得到改进?问题出在哪里?来自哥本哈根大学的研究者从多个角度分析评审制度的优缺点 , 并提出改进建议 。
一般来说 , 同行评审应该是高质量、高影响力研究的过滤器 , 但事实并非如此:

  • 同行评审无法保证质量控制 , 不管是小的错误还是严重的方法缺陷 , 即使在发表错误结果会导致实质损害的生物医学领域也是如此 。
  • 同行评审无法发现有影响力的论文 。 会议拒稿率和会议论文影响力(被引用状况)之间的相关性并不强 , 被这个会议拒绝的文章有时甚至获得了另一个会议的奖项 。
问题在于 , 这两项期待从一开始就是不切实际的 。 同行评审人员无法执行质量控制 , 因为那意味着确保论文可复现 。 但对于只有几个小时的论文评审而言 , 这是不可能的 。 这其实也是基于深度学习的 NLP 领域的一般问题 。 EMNLP 2020 的可复现性清单在这个方向上迈出了第一步 。
再来看论文影响力 。 与科学价值不同 , 它主要依赖于完全正交的因子:主题的小众程度、文章的宣传力度、论文是否具备较低的进入门槛 。
我们可以期待同行评审拒绝有明显方法缺陷的论文 , 聚焦那些有利于领域发展的 idea 。 但是 , 目前的同行评审流程设置并不是为了实现这些目的 , 而是将所有投稿论文按评分进行排序 , 筛选出 top 25% 。 而这项任务基本上是不可能完成的 。
同行评审为什么这么难?
如果论文评分分布在优秀论文和糟糕论文之间有一道明确的界限 , 那同行评审就很简单了 。 但是 , 很显然事实并非如此 。 基于引用数 , Anderson (2009) 假设论文评分符合 Zipf 分布 , 如图 1 所示 。 这意味着即使对于最客观的评审者 , 接收论文中最差的和被拒论文中最好的差异也不到 1% 。
机器之心Pro|揭秘同行评审「十宗罪」,这样做才能改进论文评审机制
本文插图

更糟糕的是 , 并不存在清晰的标准帮助评审人员绘制决策边界 。 Anderson (2009) 讨论了 SIG-COMM 2006 的一次实验 , 他们首先对低评分方差的论文给出接收 / 拒绝的决定 , 然后将高方差的论文分配给 9 位额外的评审人员 。 评审者不得不讨论难以决定的论文 , 据报道他们快被这种无法拿来对比的事情逼疯了 , 如这篇处在被拒边缘的论文缺乏完备的评估 , 另一篇应用范围较窄 。 不管我们思考多久 , 决策结果看起来都是随机的 。 例如:NIPS 2014 上 , 两位不同的 PC 对其中 10% 的提交论文进行评审 , 结果 57% 的论文接收决策是不一致的 。
对于大型 ACL 会议而言 , 情况更加糟糕:我们通常用不同的优缺点对不同类型的论文进行权衡(参见图 2) 。 哪一篇更有科学价值?这恐怕没有「正确」答案 。
机器之心Pro|揭秘同行评审「十宗罪」,这样做才能改进论文评审机制
本文插图

现行评审十大问题
面对客观上不可能的任务 , 评审人员做了人类在不确定情况下的普遍决策:使用启发式方法 , 而这引入了偏差 。 这么做还有一个诱因 , 将难以比较的事物强行对比是一个很慢、需要深思熟虑、成本较高的过程 , 而同行评审目前仍是免费的工作 。
下文列出了 NLP 领域中一些最有问题的启发式方法:
1. 写作风格:语言错误、不标准的文风或结构很容易看出来 , 并被认为写作草率 。 这就使得几乎所有人在与北美作者的对阵中处于劣势 。
2. 实验结果未超过 SOTA:尽管工程贡献应该展示该研究相比之前方法的改进 , 但未必一定得是预测性能的提升 , 计算效率或数据效率、可解释性、认知合理性等方面的进步也是有价值的提升 。 对预测性能的过度关注鼓励了预训练数据和算力的「军备竞赛」 , 加剧了方法论问题 。 与最新 SOTA 模型进行对比这项要求把我们变成了转轮子的老鼠 , 论文提交时实验就已经过时 。


推荐阅读