『InfoQ』腾讯会议和钉钉:我们太难了( 三 )


社交类产品的复杂主要体现在:一是规模大 。 两个人之间的通信是一对一的 , 但多人就是 N×N 的请求量 , 是几何倍数的增长 。 二是系统内部的层级多 , 每个对话还都涉及到接入点、消息中转、状态存储、关系链数据等等 , 实时性要求也高 。 而且现在 IM 还需要满足音视频沟通的需求 , 文字沟通的需求 , 甚至还包含有电商入口 , 以及小程序和支付场景 。 在一个世界 N 个场景的社交体系里面 , IM 链接了人和人 , 以及人和各种各样应用 , 这些注定了系统本身的复杂度 。
因为在腾讯内部业务场景众多 , 有横向对比 , 李郁韬总结说:“如果用数字来对比这种复杂度的话 , 假设内容资讯类的复杂度是一 , 电商娱乐类是十 , 那么社交类可能就是一百 。 ”
自动化扩容依靠于系统里的监控产品对负载和关键技术指标进行监控 , 取决于监控是否能及时检测到瓶颈点 。 当监控到这个复杂系统里的某指标异常时 , 再选择合适的逻辑自动增加容量 。 系统越复杂 , 需要监控的就越多 , 扩容的策略也更复杂 。
这次流量爆发下 , 钉钉和腾讯都做到了快速自动化扩容 , 且都创下了“快速扩容新记录” 。 这相当于有了十万台机器 , 如何才能做到用最快的速度用到系统里去?腾讯认为这主要依赖于三个方面:
第一个是标准化实施的程度要做得好 。 不管是用容器管理 , 还是用进程、RPM 包 , 业务模块自身都需要有好的标准化机制 。 举例来说 , 如果分别要在 Windows 服务器和在 Linux 服务器上进行扩容 , 而两个程序的版本又不一样 , 同时还需要有各种各样的 Check 检查 , 这个工作就会变得非常复杂 。 要把复杂的事情变得简单 , 标准化架构建设就特别重要 。
第二个是自动化的能力 。 在标准化的基础下 , 怎么能够安全高效地把资源部署到所有的节点上面去 。 服务的便捷程度 , 这其实是需要长期去积累的一个能力 。
第三个是验证机制 。 资源快速部署之后 , 是否能保证服务质量 , 需要体系里有自我检查的能力 , 依赖于有完善的压测、验证、监控等等产品 。
4云服务的发展“服务器这种资源 , 在这段时间里 , 有就是有 , 没有就是没有 , 花钱也买不到 , 急也没用 。 ”
假期的一次次延长 , 导致中国企业市场哀鸿一片 。 可在惨淡的市场之下 , 线上办公却成为风口 , 在线教育 ,社交娱乐类如游戏、K 歌、直播 , 以及政务医疗也都迎来了发展机遇 。 线上流量猛增 , 很多企业不得不在全国各地紧急租用机房、购置或租用服务器进行扩容 。 服务器、带宽这些刚需资源 , 如同是这场战役中黄金硬通货 , 价格上涨 , 但一机难求 。 对小企业来说 , 在工业线、整个物流全部停工的状况下 , 就算是有钱也难买到 , 更别说今天买了明天就能用到系统扩容上去 。
“回过头来看 , 如果今天没有云的这个能力的话 , 可能今年这关我们就很难过去了 。 ”
腾讯等头部企业都依赖于他们的云计算自身的储备 。
中国云计算一直处于早期发展状态 , 直到最近两年大环境开始持续加大对基础设施的投入 。 十多年前 , 像 BAT , 还有更早的网易、新浪、搜狐时代 , 大家都是采用自建 IDC 机房的方式 。 近两年互联网的独角兽企业 , 开始在云上构建自身应用了 , 这是一个很重要的标志性现象 , 也起到了很好的牵引作用 。 另外就是政府和大型国企 , 开始了数字化转型 , 他们都感受到了创新应用的推动力 , 对上云有了很大的态度上的转变 。 这些又不断促进中国云计算厂商不计成本的投入 。 腾讯这次投入的 100 万核的星星海服务器就是近两年自研的成果 。
『InfoQ』腾讯会议和钉钉:我们太难了
本文插图
随着员工去办公地点正常复工 , 这次战役已告一段落 。
徐勇州说:“得益于腾讯在云计算里的投入 , 今天在面对这个不能预料的突发需求时 , 我们才能够跟得上 。 但如果再大十倍 , 可能就真顶不住了 , 这种情况会要求我们进一步加大投入、提升云服务的能力 , 所以这次战役也确实加速了整个云计算的技术发展 。 ”


推荐阅读