『InfoQ』腾讯会议和钉钉:我们太难了( 二 )


春晚红包 , 双十一活动 , 或者是英雄联盟这种大型比赛的流量 , 跟这次疫情下的流量相比来说 , 都算是短期突增的窄带宽流量或者是缓慢攀升的比赛型大带宽流量 。 腾讯告诉我们 , 在线课堂开始于八点、八点半 , 企业的在线会议开始于九点、九点半 。 企业员工需要准时上班 , 学生更是需要准时上学 , 大家的网络接入都特别“准点” , 这两个场景下 , 就会产生非常典型、非常明显的短瞬间峰值 。 而且除了短瞬间尖峰 , 疫情导致大家把线下的工作和生活的交流全部搬到线上 , 带来的网络的流量增长非常高、带宽非常大 。
最初企业还没有开始复工的时候 , 腾讯以为可能也只是一个十倍左右的增长 , 顶多到百倍 。 谁知道一两天后发现每天都是十倍十倍的增长 , 到后来体量大了可依旧是“翻倍” , 也就是说越到后面流量越高得吓人 。
腾讯云运维中心和客户服务部门负责人徐勇州说:“在线会议的扩容 , 真的就是不可预期的 , 我们只有更大胆的去堆资源 。 我们没法精准地知道明天的增长到底是五倍还是十倍 , 反正能做的就是持续的往上面去堆资源 。 我们一开始就把春节期间为春晚红包准备的资源池子全部加进了在线会议的扩容上 。 ”
2调动全公司的资源 , 把解决问题的时间缩短十倍钉钉:资源不是魔法变出来的 。
2 月 3 号开始的一周 , 是钉钉团队度过的最难的一周 , 因为开始对流量的预估是难以有依据的 。 但是这周的数据可以作为后面的工作参考 , 钉钉团队在这一周进行了大量的系统优化 , 这让钉钉挺过了 10 号开学后带来的更大的挑战 。 2 月 12 日 , 钉钉宣布连续扩容 10 万台服务器 , 这已经是在协调使用阿里全公司的资源了 。 在疫情期间道路封闭、园区隔断、人员异地的条件下 , 阿里云完成了十万台服务器的调拨、打包、运输、调度、上架、发布 。
腾讯:带宽扩容需要三个月 , 但实际我们只花了三天 。
腾讯历史上没有任何一个产品有这么快的、在一两周的时间内达到目前这个体量的增长速度 。 这背后最主要的就是资源侧的保障 。 而且资源交付的压力和节奏也是特别罕见的 , 是在腾讯云在过往的服务中 , 包括腾讯云对外部客户的交付中从来没有遇到过的情况 。 根据腾讯云内部的总结来看 , 腾讯云只用了一半的时间去交付以前两倍的资源 。
除了服务器资源 , 腾讯中央数据中心的带宽需求在很短时间内就到了 T 级水位 。 腾讯云用三天的时间完成数 T 带宽扩容的工作 , 通常情况下 , 一般企业进行 T 级带宽扩容 , 可能需要三到四个月的时间 , 因为其中还涉及到运营商的审批 。 徐勇州解释说 , 腾讯之所以只用三天一方面是使用了内部的储备资源 , 另一方面是和运营商有长期合作基础 。
『InfoQ』腾讯会议和钉钉:我们太难了
本文插图
资源问题解决之后 , 瓶颈已经变成了扩容的速度了 。 业务已经在以令人无法想象的速度增长 , 那么扩容就是在跟时间赛跑 。 一般来说互联网比较常见的扩容的力度是以月度 , 最多以周为单位进行的 。 涉及人力和资源调配周期 , 以周为单位已经是很快的速度了 。 而现在这个扩容是以“天”为维度进行的 , 前一天就需要扩好第二天的容量 。
十万台服务器 , 数 T 带宽 , 这些资源的成本折算下来就是上亿的资金投入 。 巨头凭借过去在技术和资源上的积累 , 加上充裕的人才储备 , 以及成熟的组织结构支撑 , 从而能快速的解决问题 。 较之初创型企业 , 巨头再次展示出了自己能力上的优势 。
3技术复杂度社交产品的扩容相对来说是最复杂的 。
整个互联网的应用 , 主要分为三类 。 一类是内容资讯类 , 层级构成相对简单 , 主要是一个网站 , 以及背后的静态、动态数据库 。 第二类是一些电商娱乐类 , 强调的是数据的一致性 , 但并发量相对来说不会太大 。 第三类 , 是社交类的产品 , 相对比较复杂 。


推荐阅读