『InfoQ』腾讯会议和钉钉:我们太难了

作者丨Tina 今天各高校在线开学 , 流量再次增加 , 腾讯和钉钉还能撑得住吗?
这个明显不同的春节 , 让中国互联网人迎来了一场技术大考验 。 一些在线产品在这期间保持了持续不断的十倍、几十倍的业务容量增长 。 很显然 , 如此超高的并发流量并不在很多公司的预期内 , 到底能涨到多少 , 阿里和腾讯都表示没有底儿 。 大家只能不断地堆资源:钉钉 8 天扩容 10 万台服务器 , 腾讯在线会议紧急扩容 100 万核 。
整个系统需要的资源是超乎想象的 。
据说第一周当钉钉的工程师首次把资源需求提给阿里云的时候 , 阿里云的同事以为钉钉是在吹牛 。
【『InfoQ』腾讯会议和钉钉:我们太难了】同样的事情也发生在腾讯 。 经过持续一周每天 10 倍的扩容之后 , 腾讯会议的工程师面对“还需要继续准备十倍的容量”的命令时 , 他们觉得不可能还会需要那么大 , 但现实表明这个命令极具先见之明 , 后面的体量就是持续保持在这个量级上 。
最开始的两周时间 , 每天的扩容都是在跟业务的增长赛跑 , 腾讯会议的工程师说:“每天十倍的增长 , 我们的团队扛完最初的一周 , 感觉就像过了整整一年 。 ”
这样的流量对钉钉和腾讯会议来说都是史无前例的 。
阿里巴巴经济体已经经历了 11 次“双 11” 。 阿里每年都会根据历史数据预估业务量级进行容量规划和全面的压测 , 给各个业务留有足够的机器冗余 , 来保证“双 11”活动的稳定运行 。 但钉钉从来没有经历过自己的“双 11” , 因为放到一个月之前 , 没有人能预见到这些事情的发生 。
腾讯云视频业务总经理李郁韬也提到:“春晚红包、电商双十一这些活动的突发流量跟这次相比都是短期突增的窄带宽流量” , “而且腾讯历史上没有任何一个产品有过这么快的增长速度 , 我们以前也做 QQ , 早期也支持过微信的发展 , 但都没有在一两周这么短的时间里达到今天这个用户规模和带宽规模 。 ”
他感慨说:“这个疫情的爆发 , 让我们把这件事情‘赶鸭子上了架’ , 短时间内就把它顶了上去!”
罕见又超预期的爆发流量背后 , 是短时间的自动扩容 , 以及十万台服务器和数 T 带宽资源的快速调配 。 如果是一个没有技术深度和资源积累的小企业 , 基本上不可能在短时间内解决这些问题 , 从而提供这么流畅的服务 。 在这场特殊的战役里 , 巨头和创业公司的差距进一步被拉开了 。
1用最短的时间解决史无前例的问题 春节之后 , 有超过 1000 万的组织和 2 亿的上班族在线开工 , 有 5000 万的学生通过钉钉在线课堂学习 。 2 月 3 号在线开工 , 到 2 月 10 号全国中小学在线开学 , 再到 2 月 17 号全面复工复学 , 每一次的流量都是前一周的多倍 。
钉钉这种超预期的流量 , 不是 3 倍 , 不是 10 倍 , 而是 20 倍、上百倍的增长 , 部分应用系统甚至达到百倍以上 。 由于在家办公 , 是持续的召开电话会议、收发消息、视频直播 , 因此每天八点半开始的峰值流量并没有在几分钟内结束 , 而是持续了三四个小时 。
为了保障登录、消息收发等核心系统的通畅 , 钉钉对部分上下游系统实施流控的手段 , 比如对已读未读的状态更新做了延迟 。 钉钉对外表示他们的系统架构经受住了考验 , 但依然需要大量的资源 。 从 1 月 29 日起 , 钉钉团队就已经开始全力扩容 , 截止 2 月 2 日 , 从最初的 2W vCPU 扩容到 3W vCPU , 仅做到了数倍扩容 , 阿里技术对外表示:“还远未达到业务需求 。 ”
2020 年快手接下了春晚红包活动 , 腾讯云则是背后最大的一个支撑方 。 腾讯云技术团队本来以为经历完春晚红包的大流量考验后 , 大家可以在初一后开始休息并安心地过个年 , 结果没想到的是 , 从初二初三开始 , 因为疫情的关系 , 腾讯会议这边的流量猛地开始涨了起来 。 于是初一过后 , 大家又无休息地再次紧急投入了在线会议的流量战中 。


推荐阅读