阿里经济体核心调度系统Fuxi(12)


阿里经济体核心调度系统Fuxi
本文插图
为此 , 我们提出了FuxiSensor的资源画像方案 , 架构如上图所示 , 同时利用SLS进行数据的收集和分析 。 在集群、Job作业、机器、worker等不同层次和粒度实现了资源信息的画像 , 实现了秒级的数据采集精度 。 在混部及MaxCompute的实践中 , 成为资源问题监控、报警、稳定性数据分析、作业异常诊断、资源监控状况的统一入口 , 成为混部成功的关键指标 。
5.4 线上效果
日常资源利用率由10%提升到40%以上
阿里经济体核心调度系统Fuxi
本文插图
在线抖动小于5%
阿里经济体核心调度系统Fuxi
本文插图
5.5 单机调度小结
为了解决三大挑战 , 通过完善的各维度优先级隔离策略 , 将在线提升到高优先级资源维度 , 我们保障了在线的服务质量稳定;通过离线内部优先级区分及各种管理策略 , 实现了离线质量的稳定性保障;通过细粒度资源画像信息 , 实现了资源使用的评估与分析 , 最终实现了混部在阿里的大规模推广与应用 , 从而大量提升了集群资源利用率 , 为离线计算节省了大量成本 。
6. 展望
【阿里经济体核心调度系统Fuxi】从2009到2019年历经十年的锤炼 , 伏羲系统仍然在不断的演化 , 满足不断涌现的业务新需求 , 引领分布式调度技术的发展 。 接下来 , 我们会从以下几个方面继续创新:

  • 资源调度FuxiMaster将基于机器学习 , 实现智能化调度策略和动态精细的资源管理模式 , 进一步提高集群资源利用率 , 提供更强大灵活的分布式集群资源管理服务 。
  • 新一代DAG2.0继续利用动态性精耕细作 , 优化各种不同类型的作业;与SQL深入合作 , 解决线上痛点 , 推动SQL引擎深度优化 , 提升性能的同时也让SQL作业运行更加智能化;探索机器学习场景的DAG调度 , 改善训练作业的效率 , 提升GPU使用率 。
  • 数据Shuffle2.0则一方面优化shuffle流程 , 追求性能、成本、稳定性的极致 , 另一方面与DAG 2.0深入结合 , 提升更多场景;同时探索新的软硬件架构带来的新的想象空间 。
  • 智能化的精细单机资源管控 , 基于资源画像信息通过对历史数据分析产生未来趋势预测 , 通过多种资源管控手段进行精准的资源控制 , 实现资源利用率和不同层次服务质量的完美均衡 。


推荐阅读