【阿里云计算】【开发者成长】揭秘阿里云大规模深度学习性能优化实践( 七 )


【阿里云计算】【开发者成长】揭秘阿里云大规模深度学习性能优化实践
本文插图

我们扩展了 AIACC 的接口来支持 Transformer 和 Bert 模型的分布式训练 , 最终 Transformer 模型在 16 张 GPU 卡上 , 取得了 7.8 倍的性能提升 , Bert 模型在 16 张 GPU 卡上取得了 7.4 倍的性能提升 。
【阿里云计算】【开发者成长】揭秘阿里云大规模深度学习性能优化实践
本文插图

【【阿里云计算】【开发者成长】揭秘阿里云大规模深度学习性能优化实践】
FastGPU 一键部署和训练手势识别应用的源码:https://github.com/aliyun/alibabacloud-aiacc-demo/tree/master/pytorch/gtc-demo
上文介绍的大规模人脸识别分布式训练源码:https://github.com/aliyun/alibabacloud-aiacc-demo/tree/master/mxnet/insightface
上文介绍的大规模自然语言理解分布式训练源码:https://github.com/aliyun/alibabacloud-aiacc-demo/tree/master/tensorflow/bert
后续还会开源更多大规模深度学习源码 , 敬请期待 。


推荐阅读