华为田奇:华为云ModelArts会加速AI在行业落地( 二 )


基于EI-backbone技术 , 华为云ModelArts和杭州云深处科技有限公司合作 , 实现了四足机器狗的工业场景巡检 。
华为云ModelArts 3.0的下一个特性是联邦学习 。 众所周知 , 数据是AI应用的基础 , 只有基于多样化的数据 , 才能实现AI智能感知 。 然而 , 在实际AI行业落地中 , 数据是分散在不同的数据控制者之间 , 这就导致了行业应用的数据孤岛问题 , 使得AI算法训练效果受到限制 。
针对这个问题 , 华为云Modelarts提供联邦学习特性 , 实现数据不出户的联合建模 。 用户各自利用本地数据训练 , 不交换数据本身 , 只用加密方式交换更新的模型参数 , 实现协同训练 。
华为云EI与中国科学院上海药物所的蒋华良院士合作 , 将华为自研的FedAMP算法和AutoGenome算法应用到药物研发的AI任务中 , 精准预测药物水溶解性、心脏毒性和激酶活性 , 准确度远超传统的联邦学习和深度学习算法 。
此外 , 华为云提供云边协同的服务 , 支持不同地点、不同客户的数据进行联邦训练 , 通过加密方式上传服务端 , 对全局模型进行更新 , 再将其下发至边缘设备 , 便捷支持同业态的横向联邦和跨业态的纵向联邦学习 。 联邦训练参与者可以通过云端 , 也可以通过华为云边缘设备(如智能小站)的计算能力参与联邦训练 , 实现行业内联合建模 。
模型在部署上线前 , 需要进行充分评估 , 结果优秀的模型直接投入生产环境 , 差强人意的则需要进一步优化迭代 。 ModelArts提供了全面的可视化评估、智能化诊断功能 , 使得开发者可以直观的了解模型的各方面性能 , 进而针对性的进行调优或部署生产 。
田奇以一个上皮病变细胞分类的模型评估进行详细讲解 。
在精度方面 , 华为云ModelArts提供了包含准确率、精确率、召回率、F1值、混淆矩阵、ROC曲线等常规指标 , 还包括了数据敏感度分析模块 , 评估模型在不同数据特征子区间上的表现;
在性能方面 , ModelArts提供算子级别的时间、空间消耗统计分析和多种整体的性能指标 , 并且针对模型的表现给出相应建议 , 如模型量化、蒸馏等;
在可解释性方面 , ModelArts提供热力图 , 用以展示模型做出推理判断所依据的区域;
在可信方面 , ModelArts内置多种模型可信相关评测方法 , 提供多角度模型安全能力评估指标 , 并能依据当前模型表现给出相应的防御建议 。
随着深度学习分布式训练的不断发展,各类模型的训练对于计算设备的需求越来越大 。 但由于各种原因,训练作业的资源还没有被充分利用 。 造成资源浪费的原因非常多,主要包括以下几点:
训练算法代码本身质量不高、资源利用率低;模型大小和超参数的设置也会显著地改变计算资源的利用率;资源池整体利用率存在波动峰谷 。 类似于“峰谷电”,训练作业的提交也有高峰期和低谷期 , 造成很大的资源浪费 。
弹性训练是ModelArts的核心能力之一 , 可以根据模型训练速度的需求自适应实现资源的最佳分配 。
ModelArts提供两种模式 , 一是Turbo模式 , 可以充分利用空闲资源加速已有训练作业 , 训练速度可提升10倍以上 , 并且不影响模型的收敛精度;二是经济模式 , 可以通过最大化资源利用率给开发者提供极致的性价比 , 在大多数典型场景下可以提升性价比30%以上 。
【华为田奇:华为云ModelArts会加速AI在行业落地】为了更好地支持超大算力需求的AI研发 , 华为ModelArts平台在集群规模 , 任务数量 , 以及分布式训练都做了针对性的优化 。
ModelArts研发平台能够管理上万的节点 , 更好的支持大型训练任务需求 。 通过优化服务框架 , ModelArts平台支持10万级别的作业同时运行、支持万级芯片的大规模分布式任务 。
优秀的分布式加速比是大规模集群分布式训练的关键能力 , 也是促使用户选择使用大规模集群来加速AI业务的关键因素 。


推荐阅读