中年|机器学习必读TOP 100论文清单:高引用、覆盖面广丨GitHub 21.4k星( 二 )


7、Decaf: A deep convolutional activation feature for generic visual recognition (2014), J. Donahue et al.
http://arxiv.org/pdf/1310.1531
这篇论文验证了卷积特征在各种场合上的效果 , 算是transfer learning和一些验证的论文 。 而且 , DeCAF可以算是著名的框架Caffe的前身 。
优化、技巧方法
8、Training very deep networks (2015), R. Srivastava et al.
http://papers.nips.cc/paper/5850-training-very-deep-networks.pdf

作者提出了一种全新的高速网络结构 (Highway Networks) , 用于优化深度神经网络由于梯度爆炸和梯度消失而导致的训练困难的问题 。 而且 , ResNet 的思路和这篇文章所提出的想法有很多相似之处 。 (小tips , 这篇论文发表于 2015 年 05 月份 , ResNet 发表于 2015 年 12 月份)
9、Batch normalization: Accelerating deep network training by reducing internal covariate shift (2015), S. Loffe and C. Szegedy
http://arxiv.org/pdf/1502.03167
这篇文章引入了BN层 , 并介绍了引入原因 。 引入 BN 后 , 我们可以不用太在意参数的初始化 , 同时使用更大的学习率 , 而且也会有正则化的效果 , 在一些情况下可以不用再使用 Dropout 。
10、Delving deep into rectifiers: Surpassing human-level performance on imagenet classification (2015), K. He et al.
http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/He_Delving_Deep_into_ICCV_2015_paper.pdf
这篇论文是来自MSRA的何恺明的论文 , 论文首次公开宣布图像的识别率超越人类水平 。
11、Dropout: A simple way to prevent neural networks from overfitting (2014), N. Srivastava et al.
http://jmlr.org/papers/volume15/srivastava14a/srivastava14a.pdf

大牛集结的论文 , Hinton、Bengio都有参与 。 这篇文章对dropout进行了研究 , 结果表明 , 在视觉、语音识别、文档分类和计算生物学等方面 , dropout都能提高神经网络在有监督学习任务中的性能 , 在许多基准数据集上都获得了最新的结果 。
12、Adam: A method for stochastic optimization (2014), D. Kingma and J. Ba
http://arxiv.org/pdf/1412.6980
本文展示了如何将优化算法的设计转换为一个学习问题 , 使算法能够自动地在感兴趣的问题中利用结构 。 文中的学习算法由LSTMs实现 。
13、Improving neural networks by preventing co-adaptation of feature detectors (2012), G. Hinton et al.
http://arxiv.org/pdf/1207.0580.pdf
Hinton的论文 , 文章对过拟合问题进行了研究 。 训练网络时 , 随机忽略一半的feature detectors能够防止因训练集太小带来的过拟合问题 。 这能够防止一些detectors联合在一起才起作用的情况 , 每个神经元预测一个特征有利于提高准确率 , 这种dropout的方法能提高很多benchmark的成绩 。
14、Random search for hyper-parameter optimization (2012) J. Bergstra and Y. Bengio
http://www.jmlr.org/papers/volume13/bergstra12a/bergstra12a

Bengio的论文 , 关于超参数优化的方法 。 论文指出 , Random Search比Gird Search更有效 。 实际操作的时候 , 一般也是先用Gird Search的方法 , 得到所有候选参数 , 然后每次从中随机选择进行训练 。
无监督学习、生成模型
15、Pixel recurrent neural networks (2016), A. Oord et al.
http://arxiv.org/pdf/1601.06759v2.pdf
本文提出了一个深度神经网络 , 它根据顺序沿着两个空间维度来预测图片中的像素 。 这种模型离散了原始像素值的可能性 , 同时编码保证了整个图片的完整性 。 对自然图片的分布进行建模一直以来都是无监督学习中的里程碑式的难题 。 这要求图片模型易表达、易处理、可拓展 。


推荐阅读