子非鱼|SOTA论文也未必能被接收,谷歌科学家Eric Jang谈顶会审稿尺度( 三 )


假如有论文提出了新算法 , 我但愿这个算法至少比之前的工作好 。 但是 , 只要论文给出了该算法为什么不比之前工作更好的事实性分析 , 我仍会投接收票 。
假如你宣称你的算法表现更优的原因是 X , 我但愿看到你用实验证实了原因不是其它的 X1、X2……
正确性是很难验证的 。 过去五年 , 许多论文提出了许多度量学习方法 , 并被主要会议接收 。 不外 Musgrave et al. 2020 年的论文《A Metric Learning Reality Check》指出这些论文的实验方法并不一致 。
我当然不会得意洋洋地批判这一点 , 究竟我也是其中的一员 。 我已经审视过 10 多场会议和研讨会的论文 , 但诚实说 , 单靠阅读 , 我只能理解其中 25% 。 为了写出一篇研究论文 , 作者可能会投入几十乃至数百小时来设计和执行实验 , 但我仅用几个小时来决定它是不是「准确的科学」 。 我很少碰到那些我真正有足够的专业能力执行严格的正确性评估的论文 。
我经常问自己一个题目:「怎样的实验能说服我相信作者的解释是准确的 , 而不是由于其它假设?这些作者检查过这些假设吗?」
我相信我们应该接收所有「合格的」论文 , 像是「品味」和「简洁性」这种更主观的看法不应被用作是否接收论文的尺度 , 而应该保存为评估是否得奖、Spotlight 展示论文和 Oral 展示论文的尺度 。 我不知道是否所有人都应该采用这样的尺度 , 但作为一位审稿人 , 我觉得在接收 / 拒绝决议计划上保持公然透明至少会有一些匡助 。


推荐阅读