技术编程最强多层感知机？谷歌科学家用 β( 三 ) |谷歌|AI人工智能|

本文插图
训练卷积核较大的卷积网络
该研究还使用β-lasso训练了具备不同卷积核大小的ResNet18 ，并将其与SGD进行对比。结果表明，在所有数据集和所有卷积核大小情况下， β-lasso的性能都优于SGD ，如下图5所示：

本文插图
方向很好，但技术细节有待完善
对于这篇论文，网友的评价总体来说比较正面，他们认为这是一个很棒的研究方向。正如下面这位网友所说：
「这项研究太酷了，目前很多深度学习都是基于人工控制（human-imposed）的架构先验构建，而这里是基于卷积。」
但同时，这位网友也提出了一些疑问，比如论文中的β-lasso方法究竟是什么样的？看起来算法1是作者唯一提到的技术细节，而且算法中也有搞不懂的地方。
接着又指出了另一个问题，论文中称lasso通常鼓励稀疏性，但他没有看懂这样做是如何鼓励权重共享的。

本文插图
也有网友发问：「这只是一种稀疏的全卷积网络（FCN）吧？」
推特网友PierreAblin表示这篇论文引入了两个新的超参数，但他不太明白如何设置这两个超参数，以及它们是否同样重要。
此外，他指出这项研究无法使用动量（momentum），并询问作者有没有尝试使用Fista等方法。
对此，论文作者BehnamNeyshabur回复道：「论文中简单讨论了这一点。超参数Beta（β）通常不那么敏感，所以使用默认值50应该就可以；但lambda（λ）需要调整，实验中典型的数值范围是（1e-6,1e-4）。此外，这项研究没有使用Fista方法。」

本文插图
此外，同为谷歌员工的谷歌大脑研究科学家TingChen表示：
「在我看来，由于计算/样本效率， CNN在实践中的效果优于MLP 。如果你使用正确的（无监督）目标或正则化方法、大数据和算力， MLP可以实现同样好的结果。」

本文插图
对此，论文作者回复道：「我同意你关于计算的想法。这项研究降低了样本效率方面的差距，但很明显使用不错的搜索算法和大量无监督数据，仍然无法找到比卷积网络更好的方法，对吧？」
TingChen对此并不认同。

本文插图
作者简介

本文插图
论文作者BehnamNeyshabur现为谷歌高级研究科学家。
2017年夏，他取得了丰田工业大学芝加哥分校（TTI-Chicago）的计算机科学博士学位。 2018年成为纽约大学博士后研究员，与2018年图灵奖得主、深度学习三巨头之一YannLeCun共同工作，并且还是普林斯顿高等研究院（IAS）SanjeevArora教授领导的理论机器学习（TheoreticalMachineLearning）项目组成员。 2019年6月加入谷歌至今，担任高级研究科学家。
他的研究兴趣是机器学习，主要研究方向为深度学习的优化和泛化。
AmazonSageMaker是一项完全托管的服务，可以帮助开发人员和数据科学家快速构建、训练和部署机器学习模型。 SageMaker完全消除了机器学习过程中每个步骤的繁重工作，让开发高质量模型变得更加轻松。

技术编程最强多层感知机？谷歌科学家用 β( 三 )

推荐阅读

腾讯体育|英雄联盟S10淘汰赛抽签：SN遭遇JDG TES对阵FNC

5岁女儿总说窗外有人“偷看”自己，医生检查后：问题在父母身上

动软代码生成器下载？动软代码生成器生成好以后要怎么用？

东方网|宝山工业园区城管开展夜间综合执法全面提升市容环境品质

新买的冰箱要不要清洗

描写灯塔的诗?描述灯塔的唯美的诗句

襄阳国家高新技术产业开发区网站|官方通报婚车失控撞死姐弟俩：肇事司机与受害者家属达成谅解

拍一个简单的CT院方到底成本多少

网吧|在外国大火的网文《系统的黑科技网吧》

糯米粉可以做什么好吃的？

网上车市|或搭迈巴赫GLS同款内饰，梅赛德斯-迈巴赫S级路试谍照

【】上半年电力投资快速增长

建筑施工建筑施工行业人员流动性大，如何防控？应做好四点

五分钟了解大清朝的八旗制度清朝八旗

台湾|台当局对淘宝台湾动手：判定为陆资罚41万新台币限期撤资或改正

描写岁寒三友的诗句是什么?岁寒三友的名言诗句

4399H5游戏|一周H5新游推荐【第161期】

寰宇猎奇趣事|Mojang 探访：热爱是第一生产力，《我的世界：地下城》开发商

中医说徐大夫|这叶子夏季到处是，解暑祛湿、防感冒！

『穿衣搭配』张柏芝气质惊艳，穿黑色西装高级时髦，搭配红唇妆更是气场十足