「创作者来直播」大促下的智能运维挑战:阿里如何抗住“双11猫晚”?

「创作者来直播」大促下的智能运维挑战:阿里如何抗住“双11猫晚”?
本文插图
「创作者来直播」大促下的智能运维挑战:阿里如何抗住“双11猫晚”?
本文插图

作者 | 阿里文娱技术专家子霖
【「创作者来直播」大促下的智能运维挑战:阿里如何抗住“双11猫晚”?】出品 | AI科技大本营(ID:rgznai100)
2019 双 11 猫晚在全球近 190 个国家和地区播出 , 海外重保是首要任务 , 如何提升海外用户观看猫晚的体验?本文将详解双 11 猫晚国际化的技术挑战和技术策略 。
「创作者来直播」大促下的智能运维挑战:阿里如何抗住“双11猫晚”?
本文插图

「创作者来直播」大促下的智能运维挑战:阿里如何抗住“双11猫晚”?
本文插图

播前成功率改进
1. 海外主站链路优化
计算猫晚海外 CDN 带宽用量 , 明确海外直播 CDN 资源分布及其调度回源链路 , 结合现有 直播赛事 , 分析海外各地域国家直播卡顿率 , 重点分析卡顿率高的地域 。 对比访问主站各地域国家 TCP 建连时间 , 调整主站 TCP 建连时间 。
2. 直播服务单元化
1)为什么要做单元化
用户体验及资源瓶颈:随着业务体量和服务用户群体的增长 , 用户需要更优的访问速度 , 单机房无法支持长期的服务的持续扩容; 服务异地容灾:异地容灾已经成为核心服务的标配 , 有些服务虽然进行了多地多机房部署 ,但数据还是只在中心机房 。 要实现真正意义上的异地多活 , 就需要对服务进行单元化改造;
全球化战略:全球化战略带来的不只是用户增长 , 同时数据也会快速增长 , 全球数据都集 中部署在少数几个机房显然不太现实 , 基于地理区域划分、数据维度驱动的单元化架构是未来 全球化战略的一个技术方案储备 。
2)单元化收益
一是容灾:多地域容灾 。 任何一个城市异常 , 核心交易下单行为能够在秒级内全部恢复 ,非核心行为在 2 小时内恢复;中心有全量的数据 , 单元的数据写入后会同步到中心;若单元故 障 , 单元提供的交易流量会切换到中心;如果是中心故障 , 中心会切换到中心备份环境;
二是扩展性:单元化后 , 系统扩展不受机房的部署和资源限制 , 可在不同地域选址横向扩展来满足系统日益增长的需求;在多地部署应用后 , 按照就近接入原则:用户请求落到离它最近的站点 , 提升用户体验; 三是稳定性:单元快速部署和验证 , 可在一个空的单元引流来验证功能 , 降低系统风险; 可以对一个空站点做全链路压测 , 能快速得到站点容量;
四是成本:减少系统对机房部署的强依赖 , 提供更大的灵活性;能够将单元的规模 , 所需 的资源信息确定下来 , 用环境的标准化快速部署来节省成本 。
「创作者来直播」大促下的智能运维挑战:阿里如何抗住“双11猫晚”?
本文插图

3. 部署压测兜底演练
在直播单元压测完成 , 扩容完成后 , 进入直播链路专项压测阶段 。 在这个阶段 , 对存在性 能风险的场景和链路进行放大流量的集群层面的压力探测 , 对集群层面的指标 CPU(avg/max)、Load(avg/max)、RT(avg/max)等进行监控 , 并对直播入口首页播放页兜底压测 , 力求发现系统潜 在风险 。 2019 年优酷 Java 应用测试团队梳理出多个存在性能风险的链路和场景 , 进行了专项压 测保证 。 单链路专项压测的压测方式不尽相同 , 这一部分是最灵活和最有效的性能与稳定性筛 查 。
4. 成功率验证
多场次直播拉取数据对比验证各场次播前成功率是否符合预期 , 分析不符合预期的国家进 行相应的回源调度调整 。 双 11 当天整体表现稳定 , 接入层和各上云应用 OPS、成功率、RT 均 符合预期 。


推荐阅读