『云计算』应对云计算中断的6个步骤


企业通常希望公共云为许多应用程序类型提供灵活性、快速可扩展性和可靠性 , 但公共云并不完美 。 每个主要云计算提供商都经历过内部系统或存储以及外部资源(如网络连接)的中断 。 业务中断对任何企业来说都是毁灭性的打击 , 而云计算中断也可能会影响数百个用户的业务 。
『云计算』应对云计算中断的6个步骤
本文插图
企业通常希望公共云为许多应用程序类型提供灵活性、快速可扩展性和可靠性 , 但公共云并不完美 。 每个主要云计算提供商都经历过内部系统或存储以及外部资源(如网络连接)的中断 。 业务中断对任何企业来说都是毁灭性的打击 , 而云计算中断也可能会影响数百个用户的业务 。
所有这些都凸显了公共云计算的普遍现实:用户需要采用灾难恢复计划 , 就像使用内部部署数据中心一样 。 制定计划以及在出现云计算中断时采取的措施可以减轻或加剧对企业的影响 。 人们需要考虑以下六个重要步骤 , 以平稳度过公共云中断 。
01 制定灾难复原策略
应对云计算中断的第一步是创建和实施灾难恢复(DR)计划 , 并在灾难发生之前很长时间就将其部署到位 。 尽管云计算提供商提供了大量的服务和资源 , 但是用户需要为每个工作负载创建、部署、配置和监视这些服务和资源 。
实际的灾难恢复策略可能会根据工作负载的需求及其对企业的重要性而发生根本性的变化 。 日常应用程序可能非常适合常规数据备份和虚拟机快照到辅助位置 , 例如其他提供程序区域、另一个云计算提供程序甚至本地存储资源 。
高级灾难恢复计划可以使用已部署但在另一个区域处于空闲状态的备用实例 , 并准备在主要实例中断时接管 。 甚至更全面的灾难恢复策略也可以包括分布式集群 , 该集群可以在多个云区域或可用性区域中运行重复的工作负载实例 。 例如 , 这种策略可以包括使用负载平衡器在多个实例之间分配流量 , 并在该区域发生云中断时重定向流量 。
这些复制工作的极端变化是多云灾难恢复策略 , 其中工作负载跨两个或多个云平台(例如AWS和Microsoft Azure或Azure和谷歌云)进行冗余操作 , 以防止云计算中断的可能性 。
02 沟通并实现云计算透明
当事情发生变化时 , 需要了解云中发生了什么 。 传统上 , 云计算提供商对服务中断一直不透明 , 但随着企业将更有价值的工作负载委托给公共云 , 这种情况正在改变 。 企业需要更多的云计算透明性 , 提供商也在改善与用户的通信 , 提供有关中断性质及其当前状态的更及时的见解 。
例如 , AWS公共云提供的服务运行状况仪表板显示了所有服务的当前状态 , 而微软Azure公共云提供了类似的“Azure状态”页面 。 灾难恢复决策可以取决于企业对灾难及其严重性的理解 , 提供商对灾难持续时间的估计——所有这些都可以随着云计算透明度的提高而改善 。
但是不要停留在那里 。 业务和用户群取决于受影响的工作负载 , 因此 , 将中断的详细信息传达给内部用户或客户也同样重要 。 通知他们停机、停机对工作负载的影响以及为解决停机而采取的步骤 。
03 确定灾难恢复计划的业务价值
确定需要执行什么来实施灾难恢复计划 。 有些计划是自动的 。 例如 , 重要的工作负载通常通过某种类型的集群来保护 , 即使节点(或实例)发生故障 , 集群也应继续运行 。 但是 , 针对次要工作负载的灾难恢复策略可能需要人为干预或分散步骤 , 例如恢复和重新启动快照或切换到备份实例 。
如果需要人为干预 , 需要考虑恢复过程中涉及的工作和费用 , 并确定启动恢复的业务价值 。 询问恢复工作负载是否会比只是等待云计算提供商解决中断所需的时间更长且成本更高 。 来自云计算提供商的通信将会显著影响这一决定 。
04 实施灾难恢复计划


推荐阅读