没有最快,只有更快!富士通74.7秒在ImageNet上训练完ResNet - 5( 二 )
本文原始标题为:没有最快 , 只有更快!富士通74.7秒在ImageNet上训练完ResNet - 50---来源是:
本文原始标题为:没有最快 , 只有更快!富士通74.7秒在ImageNet上训练完ResNet - 50---来源是:
论文下载地址:
https://arxiv.org/abs/1903.12650
论文中提到 , 深度学习在过去的两年内迅速发展 , 发展速度加快了三十倍 , 人们对于能够高效执行机器学习的算法的需求越来越大 。 使用大规模minibatch的分布式深度学习是解决这个需求的关键技术 , 但很难准确地在大型集群上实现很高的可扩展性 。
在大型数据集上训练的深度神经网络(DNN)模型在各领域(如物体检测 , 语言翻译等)都取得了令人瞩目的成果 。 然而 , 随着DNN模型和数据集的增多 , DNN训练的计算成本也增加了 。
众所周知 , 具有数据并行性的分布式深度学习能快速进行群集训练 。 此方法中 , 在群集上进行的所有进程都具有相同的DNN模型和权重 。 每个进程使用不同的minibatch训练模型 , 但是所有进程的权重梯度通过组合来更新 。
这种通信开销(communicationoverhead)成为大型集群的重要问题 。 为了减少大型集群的开销 , 研究团队增加了DNN的minibatch并且同时进行DNN训练 。 然而 , 使用大型mini-batch训练通常会导致DNN模型的验证准确性更差 。 因此 , 他们使用几种方法来增加mini-batch的大小 , 这代表在迭代中计算的输入图像的数量 , 而且不会影响验证准确性 。
关于使用的计算资源 , 他们在ABCI集群和优化的MXNet深度学习框架上使用2,048个GPU 。 在ImageNet上使用81,920mini-batch , 74.7秒内就训练好ResNet-50 , 达到了75.08%验证准确度 。
推荐阅读
- 李连杰|明明网上很火的电视剧,你却一集也没有看过,你中了几部?
- 华晨宇|华晨宇团队荣获金芒一等奖,如此强大的团队,居然只有三个人?!
- 刘诗诗|看惯了温婉柔情的刘诗诗,你有没有看过如此“撩妹”的刘诗诗呢
- 王馨平|王馨平富豪老公生日,夫妻深情对视太甜蜜,结婚21年无子没有怨言
- 开端|《开端》全员演技在线,只有此人是败笔,观众:看到他就想快进!
- 美颜|没有美颜,没有滤镜,这七位女星的生图全都输给了周迅
- 华晨宇|华晨宇团队荣获金芒一等奖,网友惊呼顶流歌王团队只有三人!
- 成龙|功夫电影前景如何?成龙:只有三个人有国际影响力,吴京不行!
- 客服|纹眉一个月眉毛没有了完整操作是“二次”?
- 188男团|水千丞新作被指蹭188男团热度?只有捆绑才能达到利益最大化?
