子非鱼|SOTA论文也未必能被接收,谷歌科学家Eric Jang谈顶会审稿尺度( 二 )


子非鱼|SOTA论文也未必能被接收,谷歌科学家Eric Jang谈顶会审稿尺度
本文插图

足够难题的题目:某些审稿人会由于评估方法的数据集(好比 MNIST)过于简朴而拒绝论文 。 「足够难题」是一个不断变动的目标 , 其中隐含着一个预期:该领域会不断开发出更好的方法 , 因此评估尺度也应该变得更难题 , 这样才能推动领域的发展 , 解决之前无法解决的题目 。 同样 , 在简朴基准上的 SOTA 方法并不一定就是更难题基准上的 SOTA , 而更难题的基准往往更接近真实应用 。 幸好我被引用最多的论文写于 MNIST 数据集尚可接受的时代 。
是否「出人意料」:即便某篇论文确实给出了成功的结果 , 审稿人可能仍是会说这个结果「并不意外」或「显而易见」 。 举个例子 , 将尺度的目标识别技术应用于某个新数据集的论文可能会被以为「过于简朴和直接」 , 尤其考虑到现在该领域的专家普遍认为目标识别题目基本已得到解决(这并非事实 , 但评估基准还未反映出这一点) 。
我真的很喜欢违反直觉的论文 , 而且我个人也在努力写能给人惊喜的论文 。
在这方面 , 我个人最喜欢的一些论文根本没有实现 SOTA 或提出新算法:
Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet , 有关该论文的先容可参阅《过往 Net , 皆为调参?一篇 BagNet 论文引发学界震惊》(这是本文的作者 Eric Jang 写的一篇分析解读) 。
Understanding Deep Learning Requires Rethinking Generalization. 可参阅《要理解深度学习 , 必需突破常规视角去理解优化》
A Metric Learning Reality Check
Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations
Adversarial Spheres , 可参阅《谷歌大脑提出 Adversarial Spheres:从简朴流形探讨对抗性样本的来源》
是否真实:这与「足够难题的题目」紧密相关 。 某些审稿人以为游戏是研究强化学习的优良试验场 , 但其它一些审稿人(通常来自典型的机器人研究社区)则以为 Mujoco Ant 和真正的四足机器人是完全不同的题目 , 在前一领域的算法比较并不能为后者的同类型实验提供任何见解 。
你的研究是否符合良好的 AI 道德伦理?某些审稿人以为开发机器学习技术的目的是构建一个更好的社会 , 所以他们不会支持那些与他们的 AI 道德伦理观相悖的论文 。 今年 , 向 NeurIPS 提交论文时需要填写「Broader Impact(更广泛的影响)」称述 , 这说明该领域正在更为严厉地对待这一题目 。 举个例子 , 假如你提交一篇仅靠人脸识别来推断犯罪可能性的论文或一篇执行自动武器瞄准的论文 , 我相信不管你开发了怎样的方法 , 这篇论文都很可能被拒 。
不同的审稿人在以上题目的优先级方面都有各自的看法 , 而且其中许多尺度都非常主观(好比对题目的品味、道德伦理、简洁性) 。 对于以上的每一条尺度 , 都有可能找出反例(但可能满意其它尺度) , 而且其中一些反例还有很高的引用量或对机器学习领域有很大的影响 。
Eric Jang的尺度
我还想分享一下我在审议论文时的尺度 。 在涉及到建议接收或拒绝时 , 我最关心的尺度是正确性和新信息 。 即便我以为你的论文很无趣 , 在 10 年内都不可能成为一个活跃的研究领域 , 但只要你的论文能帮我了解我以为之前还没有过的新东西 , 我就会投支持票 。
更详细地举几个例子:
假如你在引言中提到了强化学习研究中类似人类的探索能力然后提出了一种能实现能力的算法 , 那我但愿能看到实质性的实验证据 , 说明这个算法确实与人类的能力类似 。
假如你的算法没有实现 SOTA , 我能够接受这一点 。 但我但愿能看到你具体地分析了你的算法不能实现 SOTA 的原因 。


推荐阅读