「创作者来直播」大促下的智能运维挑战:阿里如何抗住“双11猫晚”?( 二 )
本文插图
卡顿率改进
1. 开启智能档
今年的双 11 天猫晚会 , 优酷 APP 上清晰度列表中有了智能清晰度 。 智能清晰度是什么 ,简单来讲 , 就是自动调整实际播放的清晰度 , 而调整的依据就是用户当前的 IP , 网络状态等信 息 , 结合用户所处网络环境为用户选择合适的清晰度 , 减少卡顿 , 并提升播放体验 。 智能档 ,也就是码率自适应 , 优酷在点播场景下已经用了起来且相对较成熟 , 而今年的双 11 , 我们将其 应用在直播的场景下 , 进一步提升用户的播放体验 。 猫晚海外各端默认全开智能档 。 目前优酷 的码率自适应实现 , 基于主流的 HLS 协议 , 进行分片级别的切档 。
2. 直播链路优化
优化了协议栈 , 客户端播放使用 HLS 协议 , 开启 TS 预热 。 CDN 边缘节点调度优化 , 边缘节点回源按地域国家统一调度到指定的二级回源节点 。
3. L2 节点优化
L2 节点回源站 , 优先走高速通道 。 高速通道故障后 , 切到备用链路 。 其中东南亚国家 L2回源链路由公网回源切到了香港 L2 高速通道回源 。 保障了直播回源链路的稳定 。
本文插图
4. 卡顿率验证
通过开启智能档 , 调整边缘节点的调度以及 L2 回直播源站的链路 。 通过多场次直播验证 ,整个播放卡顿率比预期得到极大的改善 。
本文插图
资源成本效能
通过建站平台完成海外直播单元一键建站 , 单机压测平台输出单机能力 , 从而评估出应用 扩容所需资源 。 将所有扩容应用输入平台 , 一键完成应用扩容 。 切流平台保障单元间容灾时平 滑切换 。 这么复杂的直播链路 , 通过智能业务链路 , 对上千个接口进行自动监测、梳理以及容 量的自动评估 。 其节点部署及交付是小时级别 , 从成本、用户体验上领跑行业 , 让海外播放页 面及互动游戏体验和国内一致 。
有了上述对关键点的梳理 , 那么一套服务于大促资源全生命周期保障的平台系统 就应运而 生 。 确定目标如下:
1)资源需求:需求收集-单机能力评估-历史活动数据对比-工单生成-批量扩容执行-压测调 整-结束资源回收 , 全链路 100%平台化流程化;
2)单机压测:单机压测能力覆盖所有大促应用 , 实时提供最精准的能力数据;3)业务巡检:资源健康度巡检 , 低水位低利用率低 OPS 应用数据输出 , 自动资源回收 , 提升资源利用率 。
1. 一键扩缩容
非核心应用资源动态支援能力 , 10 分钟 1000 台回收交付能力; 整体能力分为两个大类:资源需求线和资源保障线 。
2. 总体流程
明确需求收集范围->改进需求收集方法->实现单机能力自动获取->实现历史容量数据自动 获取->应用上下游依赖链路自动获取-> [业务目标->技术目标转换]->完成资源需求评估 。 实现需 求上报渠道能力 , 单机实时压测能力 , 目标转化能力 , 上下游链路及流量平衡自动评估能力 。
3. 资源保障总体流程
建设整体资源容量盘点能力->建设应用级别线上水位巡检能力->优化资源快速交付/调整能 力->建设非核心应用应急容量挪用能力 ->快速回收资源 ->完成闭环的生命周期 , 实现高效交 付 , 强化资源盘点及 buffer 保障的能力 。
本文插图
重保预案及措施
1. 主站重报预案及措施接入层水位高:水位达到预定阀值执行自动扩容 。 不需要人工干涉; 用户超预期:降低码率 , 执行限流; 单机房出口故障:平台自动执行切流 , 切到正常的机房; 单元公网出口故障:切流平台执行切流 , 切到正常单元 。
推荐阅读
- 36氪|【张朝阳:带货模式是长期营销趋势】
- 京东6·18大促首日战报:京东天猫争主场,直播带货增长快
- 直播这股直播带货批判潮愈演愈烈,真的好吗?
- |我们试了试秒抢罗永浩直播的外挂神器
- 直播重磅!千聊讲师APP正式发布,私域直播峰会亮点抢先看!
- 物流指闻|湖南卫视联手拼多多扶贫直播:超15位明星搭档市县长带货贫困地区农产品
- 亿邦动力网|京东618:联想与京东总裁直播 总销售额超1亿元
- 蓝鲸TMT网|联想刘军联合京东总裁直播带货,销售额破亿
- 界面新闻|虚拟主播抢食直播市场,是造噱头还是好模式?
- 鞭牛士|天猫618淘宝直播1天成交支付金额51亿
