【阿里云计算】【开发者成长】揭秘阿里云大规模深度学习性能优化实践( 三 )
对于调度层:不管是基于容器的调度还是基于物理机的调度 , 需要去做 CPU 和 GPU 的混合调度 , 需要做 GPU 显存共享调度 , 以及对不同深度学习计算框架的分布式调度 。
对于框架层来说:各种主流的深度学习计算框架都有不同的分布式计算模式 , 需要在应用层做不同的分布式实现、调度层做不同的分布式调度 , 同时需要对针对底层的网络实现对各种框架做分布式性能优化 。
这其中的任何一项 , 无不需要专业知识非常深厚的技术专家、架构师、工程师来部署和实现 。
基于云计算的大规模深度学习应用架构 这些高深技术的实现和应用如何能够飞入寻常百姓家呢?幸好有云计算 。
本文插图
拿阿里云举例说明 , 从基于云计算的大规模深度学习应用的架构可以看出 , 在资源层 , 我们对于大规模 GPU 服务器集群的需求直接创建大规模 GPU 云计算服务器;对于这种大容量并行文件系统 , 直接可以创建并行文件系统 CPFS;对于大规模 TCP、RDMA 网络可以直接采用阿里云网络资源 。
在调度层 , 我们对于大规模 GPU 集群的调度的需求 , 可以直接使用云容器调度 ACK 或者使用云虚机调度 EHPC 。 可以说当前云计算的产品基本能够快速解决大规模资源和调度层面的问题 , 并且不需要多高深的技术功底 。
云计算对于大规模深度学习具有易用、弹性和稳定等天然优势 。
首先是易用性 。如果我们有一个非常紧急的需求需要在短时间内使用大量的 GPU 计算、存储和网络资源 , 阿里云在可以在十几分钟内按需开启大规模的 GPU 计算资源、大规模存储资源和大规模网络资源 , 而自己采购和部署的话一方面需要计算、存储、网络领域的技术高手 , 另一方面周期是按月来计 。
第二是弹性 。当业务高峰来的时候 , 可以弹性扩充出更多的基础资源来承接新增业务 , 而当业务高峰过去之后 , 就可以释放多余的基础资源 , 这样可以达到业务和基础资源成本的最佳配比 。
第三是稳定性 。阿里云提供的计算服务、存储服务和网络服务的稳定性都远超物理资源 , 阿里云的计算 + 网络服务的可靠性是 99.95% , 而存储服务的可靠性是 99.9999999999% 。
第四是成本优势 。因为云计算本身具有规模性的优势 , 所以它具备物理硬件集中采购的成本优势 , 以及物理硬件集中管理、运维的成本优势 , 对业务来讲 , 则通过弹性伸缩达到业务成本最优配比 。
对于大规模深度学习应用 , 除了云计算带来的这些优势之外 , 我们团队还做了两个基于云计算的架构升级 , 第 1 个是飞天 AI 加速引擎 AIACC , 第 2 个是 FastGPU 即刻构建 。
本文插图
首先给大家介绍飞天 AI 加速引擎 AIACC , 前面提到了不同框架的不同分布式模式对用户写分布式代码、分布式性能优化以及分布式调度都产生极大的学习成本和困难 , 而 AIACC 主要解决框架层面的大规模深度学习的统一性能加速和统一调度问题 。 它是业界首次统一加速 Tensorflow、PyTorch、MXNET、Caffe 等主流开源框架的性能加速引擎 , 具有四大优势 。
第 1 个优势是统一加速 。
前面提到 , 各种计算框架的不同的分布式模式会对统一的调度和应用层分布式的实现 , 都产生极大的阻碍 。
而 AIACC 可以做到统一的分布式模式和分布式性能加速 , 这样调度层可以做到统一的分布式调度 , 应用层可以做到统一的分布式计算 , 同时对于底层分布式通信的优化只需要一份工作 , 各种框架都能享受到性能提升的好处 。
第 2 个优势就是针对网络和 GPU 加速器都做了极致的优化 , 这个后面一节会详细的讲 。
推荐阅读
- 畜牧业@畜牧互联网再次引爆:阿里养猪,京东养鸡,快看大佬们都在干嘛
- 『手机技巧超人』手机开发者选项居然这么神奇!手机用了这些年,你不会还不知吧?
- 『腾讯科技』淘宝天猫蒋凡在阿里内网回应传闻:深表歉意,恳请公司展开调查
- #阿里巴巴#将饿了么卖给阿里,套现600亿的大学生,如今在干什么呢?
- 服务@云市场跨步式发展 打造ToB云市场阿里腾讯外“第三股势力”
- 『程序员』阿里程序员感慨:公司期权套牢了我,外面开五六万的薪资都不想接
- 「创作者来直播」阿里老师给检察官做直播,猜猜带的什么货?
- 『湘潭』华为、京东、阿里云……湘潭欲打造的这个“英雄联盟”很是“牛”
- #新开普#阿里系进驻后股价翻倍,这家豫股却遭大股东减持套现63次丨立方财报眼
- 【天猫】天猫“总裁夫人”手撕张大奕:如涵股价暴跌9% 阿里股价波动较小
