机器之心Pro|揭秘同行评审「十宗罪」,这样做才能改进论文评审机制( 二 )


3. 主题狭窄:基于流行的主题写的论文更容易发表 。 例如 , 过去两年 NLP 界的话题霸主 Transformer , 光 BERT 就是 150 多项研究进行分析和修改的目标 。 「热门趋势」形成了一种定势 , 这类论文应被推荐接收 。 而小众的主题(如历史文本归一化)被低估(除非它使用了 BERT) 。
4. 研究所涉及的语种不包括英语:典型的 NLP 实验使用英语作为目标语言 , 使用其他语种的论文则被认为小众 。 这种观点是站不住脚的 , 因为只在其他小语种上测试的方法和在英语数据上测试的方法具备同等的泛化性能 。 这强化了英语的「默认」地位 。
5. 知名的研究和来自著名实验室的工作:如果评审人员发现一篇论文已经被研究社区接受了 , 他们就不会多做审阅 。 例如 , BERT 论文不可能经历完全匿名的同行评审 。
6. 提出的解决方案看起来太简单:典型的「可接收」论文具备复杂的 DL 模型 , 而简单的解决方案可能看起来像作者没有做太多工作 。 但这种观点大错特错 , 研究的目的是解决问题 , 而不是用复杂的方式解决问题 。
7. 非主流方法:由于目前的「主流」ACL 论文使用基于深度学习的方法 , 其他方法似乎都不在主流之列 , 即使 ACL 的全称是「Association for Computational Linguistics」 。 这就使得跨学科方法处于劣势 , 例如理论论文和语言资源类文章不被优先考虑 , 因为它们不包含深度学习实验 。
8. 资源论文:在一个如此依赖监督式机器学习的领域中 , 资源论文却经常因其是资源论文而被拒 。
9. 新方法:这听起来很荒谬 , 但科学同行评审整体上偏向无可非议(而不是新颖)的工作 。 评审过程支持「安全」、渐进式 , 甚至有些无聊的工作 , 而把非主流的工作置于劣势地位 。
10. 替换问题:「这篇论文有多好?」是一个很难回答的问题 , 因为科学评分的标准很模糊 。 人类在回答难题时通常倾向于用一个简单的问题替换掉它 。 该研究怀疑其中一个替换问题是「这篇论文是否存在明显的改进方式?」这就能解释长论文和短论文的接收率差距了 , 因为后者包含的细节和实验较少 , 更容易被挑出错误 。
如何改进同行评审制度?
同行评审虽然有诸多问题 , 但仍然算是目前不错的选择 , 仍有很大的改进空间 。
首先 , 同行评审成为学术简历的重要部分 , 雇主愿意投入时间的事情 。 工作量过大的人在自由时间做的评审工作不会是高质量的 。
其次 , 我们需要减少对评审和领域主席(AC)在高度不确定情况下进行推理决策的需求 。 这无法完全避免 , 但可以通过以下方式进行改进 。
更优的评审人员匹配:评审者在面对不是自己专长领域的论文时 , 更有可能使用启发式方法 。 因此好的匹配应该考虑任务和方法 。 由于肯定存在不完美匹配的情况 , 这时配备具备互补专业知识的多位评审就成为次优选择 。
更细粒度的 track:AC 不应当对不同类型的论文进行决策 。 如果会议接收 survey、opinion、资源和分析论文等 , 则这些类型的论文应有各自的接收率和最佳论文奖项 。
为不同论文类型设置专门的评审格式:用新颖性去评判可复现性报告或用 SOTA 结果评判资源论文都是不合理的 。 COLING 2018 提出考虑论文贡献类型的评审格式 。
论文提交前宣布会议优先关注的内容:特定会议的主要关注点是什么 , SOTA 工程结果、方法的多样性 , 还是新的 idea?哪些因素对论文接收与否影响比较大?清晰地说明这些问题有助于作者为自己的研究选择合适的会议 , 也有助于评审和领域主席在论文推荐中更加一致 。
不要求评审提交整体推荐分数:这是相似的论文在不同评审那里排名随机的理由 , 评审人员可能对很多问题存在不一致意见 。 即使有明确的策略也于事无补 。 解决方案在于 , 评审应仅提交特定项的分数(原创性、技术完善性等) , 而这是决定论文接收与否的基础 。


推荐阅读