技术编程最强多层感知机?谷歌科学家用 β( 三 )


技术编程最强多层感知机?谷歌科学家用 β
本文插图
训练卷积核较大的卷积网络
该研究还使用β-lasso训练了具备不同卷积核大小的ResNet18 , 并将其与SGD进行对比 。 结果表明 , 在所有数据集和所有卷积核大小情况下 , β-lasso的性能都优于SGD , 如下图5所示:
技术编程最强多层感知机?谷歌科学家用 β
本文插图
方向很好 , 但技术细节有待完善
对于这篇论文 , 网友的评价总体来说比较正面 , 他们认为这是一个很棒的研究方向 。 正如下面这位网友所说:
「这项研究太酷了 , 目前很多深度学习都是基于人工控制(human-imposed)的架构先验构建 , 而这里是基于卷积 。 」
但同时 , 这位网友也提出了一些疑问 , 比如论文中的β-lasso方法究竟是什么样的?看起来算法1是作者唯一提到的技术细节 , 而且算法中也有搞不懂的地方 。
接着又指出了另一个问题 , 论文中称lasso通常鼓励稀疏性 , 但他没有看懂这样做是如何鼓励权重共享的 。
技术编程最强多层感知机?谷歌科学家用 β
本文插图
也有网友发问:「这只是一种稀疏的全卷积网络(FCN)吧?」
推特网友PierreAblin表示这篇论文引入了两个新的超参数 , 但他不太明白如何设置这两个超参数 , 以及它们是否同样重要 。
此外 , 他指出这项研究无法使用动量(momentum) , 并询问作者有没有尝试使用Fista等方法 。
对此 , 论文作者BehnamNeyshabur回复道:「论文中简单讨论了这一点 。 超参数Beta(β)通常不那么敏感 , 所以使用默认值50应该就可以;但lambda(λ)需要调整 , 实验中典型的数值范围是(1e-6,1e-4) 。 此外 , 这项研究没有使用Fista方法 。 」
技术编程最强多层感知机?谷歌科学家用 β
本文插图
此外 , 同为谷歌员工的谷歌大脑研究科学家TingChen表示:
「在我看来 , 由于计算/样本效率 , CNN在实践中的效果优于MLP 。 如果你使用正确的(无监督)目标或正则化方法、大数据和算力 , MLP可以实现同样好的结果 。 」
技术编程最强多层感知机?谷歌科学家用 β
本文插图
对此 , 论文作者回复道:「我同意你关于计算的想法 。 这项研究降低了样本效率方面的差距 , 但很明显使用不错的搜索算法和大量无监督数据 , 仍然无法找到比卷积网络更好的方法 , 对吧?」
TingChen对此并不认同 。
技术编程最强多层感知机?谷歌科学家用 β
本文插图
作者简介
技术编程最强多层感知机?谷歌科学家用 β
本文插图
论文作者BehnamNeyshabur现为谷歌高级研究科学家 。
2017年夏 , 他取得了丰田工业大学芝加哥分校(TTI-Chicago)的计算机科学博士学位 。 2018年成为纽约大学博士后研究员 , 与2018年图灵奖得主、深度学习三巨头之一YannLeCun共同工作 , 并且还是普林斯顿高等研究院(IAS)SanjeevArora教授领导的理论机器学习(TheoreticalMachineLearning)项目组成员 。 2019年6月加入谷歌至今 , 担任高级研究科学家 。
他的研究兴趣是机器学习 , 主要研究方向为深度学习的优化和泛化 。
AmazonSageMaker是一项完全托管的服务 , 可以帮助开发人员和数据科学家快速构建、训练和部署机器学习模型 。 SageMaker完全消除了机器学习过程中每个步骤的繁重工作 , 让开发高质量模型变得更加轻松 。


推荐阅读