如何构建高可用的模型在线推理系统?( 四 )


文章插图
 
式中 , 分别为CPU使用率、GPU使用率、内存使用率、响应时延4个衡量维度的权重因子 , 取值范围为[0,1],总和为1 , 用户可自行调整 , 也可以调整时间窗口的大小 。ceil表示向下取整 。另一方面 , 用户也可以基于(J)系统/服务状态监控模块提供的其他指标完全自定义期望的容器实例数量计算公式 。
 
总 结
1、本文提出了一种分布式机器学习模型在线推理系统的完整技术方案 , 通过Docker容器技术封装、打包模型推理任务 , 将不同服务的运行环境完全隔离 , 并借助Kubernetes进行服务编排 , 提供服务的分布式容灾和资源的弹性伸缩功能 , 同时结合模型仓库、容器镜像仓库、系统/服务状态监控、服务注册/订阅、可视化面板等功能模块使算法模型与服务架构解耦 , 使模型的部署上线、更新和管理流程变得简单 , 上线效率高、风险低 , 同时提高预测服务的稳定性、灵活性和服务能力 。
2、本文提出了一种模型自动化的模型筛选方法和策略 , 提出了5种模型筛选策略模板 , 使线上模型服务的更新升级变得灵活简单 , 且减少了人工操作 。
3、本文提出了一种模型在线推理服务资源的弹性扩缩容方法 , 基于模型服务的资源使用率实时监控指标和期望资源计算公式进行动态调整 , 既保证了模型推理服务的资源需求 , 又减少了资源的闲置浪费 。【END】
招聘研发/算法工程师
KuAI平台是京东数科中台建设的重要平台之一 , 提供从模型开发、训练到部署、监控的一站式服务 , 帮助用户快速构建、部署模型 , 并实现机器学习工作流全生命周期管理 。
KuAI团队广纳贤才 , 欢迎对AI平台建设感兴趣 , 具有AI平台系统架构、K8S容器平台开发或算法方面经验的同学加入 。




推荐阅读