【阿里云计算】【开发者成长】揭秘阿里云大规模深度学习性能优化实践( 五 ) |深度学习|人工智

而我们另一个架构升级 FastGPU 即刻构建主要帮助用户快速搭建大规模分布式训练集群，并且帮助客户在云端做到业务成本最优化，接下来和大家介绍通过 FastGPU 即刻构建云端大规模分布式训练集群。
因为现在阿里云的云计算服务都会提供 OpenAPI 的接口直接创建计算资源、存储资源和网络资源。我们可以通过 FastGPU 来封装这些 OpenAPI 接口来直接创建出一个云端的大规模分布式的集群，同时可以开始大规模分布式的训练任务。

本文插图

如上图所示，绿色部分代表用户，蓝色部分代表阿里云资源，橙色部分代表 FastGPU 。用户在起始状态的时候，先把训练数据集上传到云存储 OSS 里，开一台 ECS 做为开发主机来存训练代码（或者放在 Cloud Shell 上）。然后在这台开发机上一键就可以通过 FastGPU 来创建深度学习应用需要的基础资源，包括大规模 GPU 计算资源、云盘和并行文件系统的存储资源、Tmux 和 Tensorboard 的交互式资源，都可以创建出来，用户可以通过交互式资源实时查看训练过程。
等训练所需要的资源都 ready 之后，就可以自动的启动分布式训练任务。当分布式训练任务结束之后，可以自动的释放这些基础资源，训练得到的模型和 log 文件可以存在 OSS 或者开发机上供用户使用。
FastGPU 能够做到既省时、又省钱、又易用。
首先是节省时间，举个例子，我们之前要配置一个分布式的深度学习环境的话，需要先准备 GPU 的基础资源、网络资源，再准备存储资源，然后需要配置每台机器的深度学习环境：包括某版本的操作系统、某版本的 GPU 驱动、某版本的 CUDA、某版本的 cuDNN、某版本的 Tensorflow 等，然后再把训练数据上传到每台机器上，然后再把多台机器之间的网络打通，这个可能要耗费一个工程师一天的时间来准备环境，而用 FastGPU 的话只需要 5 分钟的时间就可以完成。
其次是省钱，我们可以做到让 GPU 资源的生命周期和训练的生命周期保持同步，也就是说只有在我们的训练或者推理任务准备好时才去开启 GPU 资源，而当训练或者推理任务结束之后，就会自动的释放掉 GPU 的资源，不会造成 GPU 资源的闲置，同时也支持可抢占 GPU 实例（低价格实例）的创建和管理。
第三是易用，我们创建的所有的资源都是 IaaS（基础设施）的资源，所有创建的资源和运行的任务都是可访问、可调式、可复现和可回溯的。
大规模深度学习应用架构和性能优化实践在做大规模分布式训练的时候，我们希望训练的性能能够随着 GPU 数量的增长而线性增长，但是实际情况下往往达不到这么理想的加速比，甚至往往在增加 GPU 服务器时，性能却没有相应增加。
其中主要有两方面的瓶颈，一方面在多台 GPU 服务器同时读取训练文件的时候，文件系统的并行访问能力包括 IOPS 和带宽会是瓶颈；另外一方面， GPU 服务器之间的通信会是瓶颈。
在阿里云上可以一键创建高并发的并行文件系统 CPFS 解决文件高并发访问的问题，而通过 AIACC 来解决大规模分布式通信的性能问题。
最后，跟大家分享图像识别、大规模 CTR 预估、大规模人脸识别、大规模自然语言理解，这 4 个大规模深度学习场景的应用架构和性能优化的实践。
第 1 个案例是一键构建大规模图像识别的分布式训练任务。
这个场景需要训练 128 万张 ImageNet 的图片，模型是 ResNet-50 和 VGG-16 ，训练框架是 Tensorflow 。
通过 FastGPU 一键拉起右边的架构，包括多台 8 卡 P100 的 GPU 服务器、25Gb 网络和并行文件系统 CPFS ，并且通过 AIACC-Tensorflow 框架来做分布式训练。

【阿里云计算】【开发者成长】揭秘阿里云大规模深度学习性能优化实践( 五 )

推荐阅读

长电科技：长电科技刚扭亏为盈，却遭遇诉讼，散户是去还是留？

中医刘医师|而是无知，吃小橘子的4大禁忌，值得一看，让人倒下的往往不是病

潇洒的人生|还有这四员猛将可以，吕布是其一，除了马超能打得曹操割须弃袍外

|我国003号航母离下水时间越来越近，哪一省命名的可能性最大？

tiktok|TikTok不卖给微软！挑衅特朗普，有种你关停！小心输掉大选

西红柿黄桑鱼汤的做法

吃冬菜上火吗？冬菜的营养价值有哪些?

『游戏追随者』三天成型，刷副本不可或缺！，魔兽世界怀旧服新手最适合的职业

超凡电竞@JackeyLove：希望iG的兄弟轻点捶我，让我少死几次，TES赛后群访

烹饪|夏天萝卜不要炒着吃，教你1个新吃法，天天吃都不腻，真香

看三国|众人前来营救，曹操：将前来营救的人，全部斩了！，曹操遭遇刺杀

女士|让8岁女儿给全家洗碗拖地！这是亲妈？网友炸了→，女子再婚后

三点论史特朗普担心的事情还是发生了，蝴蝶效应！大国抛售千亿美债

小李子爱体育|国足一哥何去何从？名记爆料或登陆英超！狼队正在跟西班牙人谈判

「语川军事」地缘优势最好的10个国家

微墨随谈|那温暖人心的举动，寒冬里

沈建光：吸取欧洲教训，平衡好数据使用与隐私保护的关系

清朝|乾隆查看贪官抄家之物，发现多不堪入目，原来是被闽浙总督调换了

AIGC时代，亚马逊云科技推动AI真正落地

青岛卫健委：已排查到密切接触者132人，其中9人核酸检测结果阳性