阿里经济体核心调度系统Fuxi(12)
本文插图
为此 , 我们提出了FuxiSensor的资源画像方案 , 架构如上图所示 , 同时利用SLS进行数据的收集和分析 。 在集群、Job作业、机器、worker等不同层次和粒度实现了资源信息的画像 , 实现了秒级的数据采集精度 。 在混部及MaxCompute的实践中 , 成为资源问题监控、报警、稳定性数据分析、作业异常诊断、资源监控状况的统一入口 , 成为混部成功的关键指标 。
5.4 线上效果
日常资源利用率由10%提升到40%以上
本文插图
在线抖动小于5%
本文插图
5.5 单机调度小结
为了解决三大挑战 , 通过完善的各维度优先级隔离策略 , 将在线提升到高优先级资源维度 , 我们保障了在线的服务质量稳定;通过离线内部优先级区分及各种管理策略 , 实现了离线质量的稳定性保障;通过细粒度资源画像信息 , 实现了资源使用的评估与分析 , 最终实现了混部在阿里的大规模推广与应用 , 从而大量提升了集群资源利用率 , 为离线计算节省了大量成本 。
6. 展望
【阿里经济体核心调度系统Fuxi】从2009到2019年历经十年的锤炼 , 伏羲系统仍然在不断的演化 , 满足不断涌现的业务新需求 , 引领分布式调度技术的发展 。 接下来 , 我们会从以下几个方面继续创新:
- 资源调度FuxiMaster将基于机器学习 , 实现智能化调度策略和动态精细的资源管理模式 , 进一步提高集群资源利用率 , 提供更强大灵活的分布式集群资源管理服务 。
- 新一代DAG2.0继续利用动态性精耕细作 , 优化各种不同类型的作业;与SQL深入合作 , 解决线上痛点 , 推动SQL引擎深度优化 , 提升性能的同时也让SQL作业运行更加智能化;探索机器学习场景的DAG调度 , 改善训练作业的效率 , 提升GPU使用率 。
- 数据Shuffle2.0则一方面优化shuffle流程 , 追求性能、成本、稳定性的极致 , 另一方面与DAG 2.0深入结合 , 提升更多场景;同时探索新的软硬件架构带来的新的想象空间 。
- 智能化的精细单机资源管控 , 基于资源画像信息通过对历史数据分析产生未来趋势预测 , 通过多种资源管控手段进行精准的资源控制 , 实现资源利用率和不同层次服务质量的完美均衡 。
推荐阅读
- 行业|高增长+高回撤!请收好这份“补票”名单,11只核心资产股入围,百亿科技股已跌出“深坑”
- 快科技|阿里辟谣:不会高薪聘请黑阿里网站的人 直接交给警方
- 美搭说说大文|巴萨核心将转会尤文,身价8000万,梅西公开欢迎新队友到来
- 核心|高增长+高回撤!请收好这份“补票”名单,11只核心资产股入围,百亿科技股已跌出“深坑”
- 腾讯|原创 腾讯如果想冻结阿里的资金,阿里除了束手就擒还有办法反制么?
- 马云下死命令留他?当事人辟谣:不要再消费我和阿里来赚流量了
- 黑猫的游戏人生|王者“射手榜”史诗级更新,5位T0射手同时登场,宣告S20核心稳了
- 金色光|产销低迷还扩产4.25倍,奥来德:未披露核心技术人员重大变化,
- 这有港澳台|贸易政策更加开放,国际视野丨G20经济体多条措施与疫情相关
- :当年阿里的前台,马云给她0.2%股份,20年过去她怎样了?
