没有最快,只有更快!富士通74.7秒在ImageNet上训练完ResNet - 5( 二 )

本文原始标题为:没有最快 , 只有更快!富士通74.7秒在ImageNet上训练完ResNet - 50---来源是:

本文原始标题为:没有最快 , 只有更快!富士通74.7秒在ImageNet上训练完ResNet - 50---来源是:

论文下载地址:

https://arxiv.org/abs/1903.12650

论文中提到 , 深度学习在过去的两年内迅速发展 , 发展速度加快了三十倍 , 人们对于能够高效执行机器学习的算法的需求越来越大 。 使用大规模minibatch的分布式深度学习是解决这个需求的关键技术 , 但很难准确地在大型集群上实现很高的可扩展性 。

在大型数据集上训练的深度神经网络(DNN)模型在各领域(如物体检测 , 语言翻译等)都取得了令人瞩目的成果 。 然而 , 随着DNN模型和数据集的增多 , DNN训练的计算成本也增加了 。

众所周知 , 具有数据并行性的分布式深度学习能快速进行群集训练 。 此方法中 , 在群集上进行的所有进程都具有相同的DNN模型和权重 。 每个进程使用不同的minibatch训练模型 , 但是所有进程的权重梯度通过组合来更新 。

这种通信开销(communicationoverhead)成为大型集群的重要问题 。 为了减少大型集群的开销 , 研究团队增加了DNN的minibatch并且同时进行DNN训练 。 然而 , 使用大型mini-batch训练通常会导致DNN模型的验证准确性更差 。 因此 , 他们使用几种方法来增加mini-batch的大小 , 这代表在迭代中计算的输入图像的数量 , 而且不会影响验证准确性 。

关于使用的计算资源 , 他们在ABCI集群和优化的MXNet深度学习框架上使用2,048个GPU 。 在ImageNet上使用81,920mini-batch , 74.7秒内就训练好ResNet-50 , 达到了75.08%验证准确度 。


推荐阅读