深度学习|Adam又要“退休”了?耶鲁大学团队提出AdaBelief优化器( 二 )
在CIFAR-10和CIFAR-100数据集上 , 用VGG11、ResNet34和DenseNet121三种网络进行训练 , AdaBelief都显示出更好的收敛结果 。
而且在ImageNet数据上 , AdaBelief在Top-1准确率上仅次于SGD 。
本文插图
时间序列建模
在Penn TreeBank数据集上 , 用LSTM进行实验 , AdaBelief都实现了最低的困惑度 。
本文插图
GAN
在WGAN和WGAN-GP上的实验表明 , 经AdaBelief训练的结果都得到了最低的FID 。
本文插图
网友质疑
虽然AdaBelief在多个任务上取得了不错的效果 , 但该方法还是遭到不少网友质疑 。
因为这些年来号称取代Adam的优化器不计其数 , 但最终获得时间检验的却寥寥无几 。
网友首先质疑的是实验baseline的选取问题 。
有人认为 , 在CIFAR上 , 很难相信2020年SOTA模型的准确率低于96% , 因此AdaBelief论文最终在选取baseline时有可能是选择了与不太好的结果进行比较 。
在ImageNet测试的表2里 , 为什么要使用ResNet18代替更标准的ResNet50?而且AdaBelief不是最优结果 , 却用加粗方式标出 , 容易让人产生误解 。 绝妙的技巧是将提出的方法的得分加粗 。
另外 , 还有人在作者未测试的NLP任务上进行实验 , 很快AdaBelief就“崩溃”了 , 而SGD能够很好地收敛 。
本文插图
【深度学习|Adam又要“退休”了?耶鲁大学团队提出AdaBelief优化器】AdaBelief不会是最后一个意图取代Adam的优化器 , 它的泛化能力究竟如何 , 还有待更多研究者进一步地检验 。
推荐阅读
- 标杆学习|走进青岛海尔、红领(酷特智能)总部商务考察学习
- 标杆学习|走进北京小米新总部参观考察-对标小米互联网思维与生态链创新
- 标杆学习|走进北京京东总部商务考察学习精彩集锦
- 职场办公学习|每次进货价格不一样,Excel批量计算利润
- 南方都市报|中科院心理所第五届心理学应用论坛聚焦与智能产业深度结合
- 红星新闻|5G赋能影视城深度工业化,象山影视城要从1.0升级到2.0
- 心花木向阳生|为什么“现金流”越来越比“利润率”更重要?(深度好文)
- 华为手机,Android系统|华为P30Pro升级EMUI11,深度体验2天,优缺点有一说一
- 智东西|华为Mate 40 Pro强到无死角?一周深度体验看到底Pro在哪
- |深度解析!光峰科 FABULUS 柔性菲涅尔屏性能有多强
