灾难福彩三d字谜(DR)是老式IT主题之一,似乎已不受欢迎。感觉似乎是我们很安全,因为托管工作负载的公共云不会中断。这是一种幻想。

即使我们不再都在运行集中式大型机,灾难福彩三d字谜仍然至关重要。如果有的话,这已经成为一个新的特殊挑战。现在,您必须担心如果互联网本身故障,该怎么办。

在过去的一年中,我们看到了几次大规模的Internet故障。针对Dyn DNS服务的DDoS攻击使成千上万的组织长时间无法访问。今年早些时候,AWS的S3故障以及全球云主机发生的几起较小的故障和DDoS攻击证明,这是一个严重的问题。

并且不要忘记您的WAN。如果主要基于VPN,则应考虑如果一个或多个关键链接失败或遭到拒绝服务攻击,将会发生什么情况。 (请注意,我正在讨论拒绝服务攻击,就像自然灾害一样。这是因为它很可能是。)

任何好的灾难福彩三d字谜计划的关键是考虑可能出什么问题并提出应急措施。与在冷备用站点上拥有一堆备份磁带相比,用于云服务的DR可能会变得更加复杂,并且DR测试方案比以前更加复杂。

在本文中,我尝试帮助您提出有关如何为您的云和MSP服务创建灾难福彩三d字谜计划的正确问题。

灾难福彩三d字谜要问的问题

概括地说,以下是我在为基于云的服务制定灾难福彩三d字谜计划时要回答的问题:

  • 您将如何福彩三d字谜计算资源?
    • 是否还有其他关键的IT基础架构元素,例如语音或视频?
  • 您将如何福彩三d字谜生产数据?
    • 您是否与第三方共享生产数据?
  • 您将如何福彩三d字谜对计算资源和数据的访问?
    • 对于内部?对于客户?
  • 您将如何福彩三d字谜关键的通信资源?
    • 呼入和呼出语音,不要忘了呼叫中心。
  • 您将如何福彩三d字谜内部通信?
    • 站点到站点的语音,视频和数据流是什么?

不要计划吸烟坑

我见过的几乎所有灾难福彩三d字谜计划都使用一种灾难场景,我称之为“吸烟坑”。数据中心不见了,被烧毁了,被小行星,龙卷风,地震,海啸或您最喜欢的灾难电影所撞击。吸烟坑DR计划通常假定生产数据中心中没有可用的设备。所有应用程序,所有数据库,所有服务器都已关闭。

火山口DR计划存在几个问题。

首先,这种灾难极为罕见。我不记得上一次数据中心真正被烧毁了。如果该设施以远程主管的方式运行,它将具有许多级别的电源冗余,包括UPS和发电机。它将具有复杂的灭火机制。破坏整个数据中心的灾难通常是计划不周的结果。

‘Smoking crater’ disasters are rare.

其次,当您确实曾经有过一个火山口时,人们往往会非常宽容。回想一下9/11恐怖袭击之后的日子。没有人期望这些公司在几分钟或几小时内重建其IT基础架构。如果有真正的火山口,则不需要灾难福彩三d字谜计划。您还有更多重要的事情要担心。

第三,客户更加关注较小的灾难。想象一下一家银行,该银行的大型机由于软件更新错误而丢失了,或者其中央客户数据库被破坏了。想象一下,一家医疗保险公司突然无法处理一种类型的保单,或者一家航空公司无法进行预订。在这种情况下,公司看起来很糟糕,而客户却离开了。

可以考虑使用更细粒度的DR计划,在其中可以单独福彩三d字谜单个应用程序或相关的应用程序和服务组,而不是在地面上计划一个大漏洞。这很难做,但是您可能会发现巨大的业务收益。

福彩三d字谜计算资源和数据

AWS S3故障 2017年2月给大量客户造成了严重问题。其中许多客户甚至都没有直接使用AWS。他们使用的是使用AWS的MSP。

云提供商和托管设施可能会崩溃,即使是信誉良好的大型国际提供商也是如此。假设无论您在何处托管数据和应用程序,都可能会破坏它。

所有大型供应商(例如AWS,Azure和OVH)在其他位置都具有备份数据中心。考虑订阅服务,使他们可以将工作负载转移到其他数据中心。

如果您也没有最新的生产数据,那么对保护计算资源没有任何好处。因此,还要确保在这些设施之间尽可能实际地实时复制数据。

在AWS EC2中,您可以轻松构建它。在与主要工作负荷正在运行的可用性区域不同的可用性区域中,至少配置环境的最低版本。然后,在灾难福彩三d字谜可用性区域中使用某种类型的数据复制,以便使生产数据保持最新。

您还需要一种将生产转移到备份站点的方法。一种很好的方法是更改​​DNS记录以指向DR IP地址。

Azure和其他大型云服务中也有类似的功能。

福彩三d字谜对计算资源的访问

您的用户在灾难期间将如何访问您的计算资源?当我说“用户”时,是指内部和外部用户,员工和客户。

如果您的客户需要直接访问您的系统,请确保DR系统的外观与生产系统完全相同。最简单的方法是将公共DNS条目重新指向DR服务器。

假设您在云提供商处托管了一个网站。宣布灾难发生后,您希望将所有相关系统移至全球一半的云提供商的站点。

假设您已经成功复制了所有生产数据。有三种方法可以将DNS条目移动到DR站点的新IP地址。

  1. 如果您有DNS托管提供商,使用托管服务提供商登录您的帐户并指定新的IP地址。 DNS响应包括TTL(生存时间)参数,该参数指定设备将缓存DNS查询响应的时间。如果要使用此方法,请选择适当的短TTL值。否则,您的客户只会继续使用旧的IP地址,而不会得到任何响应。
  2. 利用云WAF或DDoS保护服务。 在这种情况下,您将登录到WAF或DDoS提供程序帐户并指定新的IP地址。这具有立即更改的好处,以及WAF或DDoS保护的明显的安全好处。
  3. 使用全局负载平衡器。 本质上,这是一个DNS主机,它轮询您的主服务器和备份服务器,如果主服务器不可达,则会自动切换到备份服务器。

顺便说一句,不要忘记您的计算资源很好的可能性,而真正的问题是您的DNS提供程序处于脱机状态。记住 2016年针对Dyn DNS的DDoS攻击。使用Dyn托管DNS记录的大多数组织都发现自己无法访问,即使他们自己的系统没有问题。

Dyn DNS中断地图/ 2016年10月21日

考虑拥有多个DNS提供商。当然,在这种情况下,在主系统离线的情况下执行灾难福彩三d字谜计划需要更改所有DNS提供程序上的条目。另外,请务必询问您的DNS提供商在何处托管,以确保不会出现会同时影响它们的故障。

福彩三d字谜关键数据流

许多企业拥有包含内部和外部源或目标的关键数据。例如,您可能需要当前的股票价格。您可能需要与第三方一起处理保险索赔。您可能需要通过银行或其他金融清算公司处理付款。

在所有这些情况下,您都需要确保备用服务器能够访问这些外部源和目标。同样,您应该提供从主服务器到外部各方的某种辅助路径。这样,您不必仅因为与第三方服务器的电路断开而调用DR计划。

请注意,在纯活动/备用配置中,您可能不需要从备用站点到第三方的冗余电路。备用站点上的那些备用电路仅在同时发生多个故障的情况下使用。通常,我们假设您可以忽略多个同时发生故障的可能性。但是,您应该根据自己的特定要求评估这些风险。

福彩三d字谜内部通讯

最后,查看整个内部通信产品套件。我的意思是诸如内部电子邮件或消息服务,电话和视频会议之类的东西。这些服务如何运作?他们是否依赖基于Internet的服务提供商?他们是否依赖站点之间的VPN连接?

如果您将基于云的服务用于内部通信,则可能是出于成本原因。建立用于备份目的的昂贵的内部基础架构并不划算。但是,您仍然可以针对这种意外情况制定计划。

例如,在灾难期间,您可能决定使用手机打出站电话。您可能会认为在灾难期间视频会议不是关键服务。

Internet断开时,您可能会切换到手机。

特别是电话的两个重要考虑因素是入站呼叫和办公室间通信。例如,如果您打算使用手机,则需要确保您所有位置的手机号码都是最新的。该列表需要维护。但是您几乎可以肯定不希望向一般公众透露手机号码,因此这不是呼入电话的理想解决方案。

解决入站呼叫问题的另一种常见解决方案是在每个位置放置少量传统模拟电话线,以接收来自客户和公众的呼叫。然后,与您的电话服务提供商联系,确定他们是否可以在紧急情况下将您的公用电话号码重定向到这些模拟线路。

如果您有呼叫中心,则可能需要更详尽,更强大的灾难福彩三d字谜计划。例如,您的呼叫中心灾难福彩三d字谜计划可能涉及将入站呼叫重定向到功能可能有限的外部呼叫中心服务。

测试与自动化

传统的IT灾难福彩三d字谜计划通常需要进行年度测试。这些不可避免地是巨大的哑剧表演,旨在取悦董事会和审计师,但通常与现实相距甚远,以至于在真正的灾难中几乎没有用处。因此,当我谈论测试您的灾难福彩三d字谜时,我并不是在谈论这样的练习。

相反,我主张进行较小的针对性测试。例如,您可能需要进行一项测试,以将生产云服务从一个AWS区域转移到另一个AWS区域,并验证应用程序是否仍然可以运行。同样,如果使用VPN或从VPN迁移到另一技术为WAN备份,则可以对此进行隔离测试。

理想情况下,每个要备份的系统都应进行测试,以确保备份可以在需要时接管。

灾难福彩三d字谜纯粹主义者将在这一点上犯规。他们会说您需要进行集成测试以模拟真正的故障。这有些道理。如果实际故障场景涉及数据中心(或云可用区)的完全丢失,则孤立的测试可能会无意中使用在该实际故障中不可用的功能。

因此,一旦完成了对所有单个组件系统的隔离测试,您还应该进行一些大规模的灾难场景。但是,这些方案和福彩三d字谜方法必须切合实际。您不能将大量不相关的系统整合在一起,并假装一场虚构的灾难使这些系统以及仅这些系统崩溃了。

为了使场景变得现实,请查看最近发生的事件,例如:

  • 针对主要服务提供商的DDoS攻击
  • 无法访问DNS服务器
  • 无法访问云存储
  • 云可用区或数据中心无法访问
  • 针对您组织的Internet存在的针对性攻击

当然,还有许多其他潜在事件,但请尝试使方案保持现实。当然,您使用的防火墙系统中的零日漏洞总是有可能突然在全球范围内被利用,但是我不记得过去发生过的任何事情,因此这很可能不太可能。

如果确实发生了,那么您将成为出色的公司。可能会有很多帮助。

在进行这些测试时,将立即显而易见哪些需要自动化。如果您需要在数据中心之间移动数百台VM服务器,或者一次建立一堆VPN,则需要自动化。这些事情不可能在合理的时间内手工完成。

就个人而言,我喜欢将一切自动化。但是,这并不意味着我要自动化而无需监督。

大多数传统的灾难福彩三d字谜计划都需要有意识的管理决策才能触发福彩三d字谜工作。您不希望短期的技术失误或不稳定导致生产操作在生产和灾难福彩三d字谜设施之间来回切换。这比将操作暂停几分钟直到一切稳定之前,可能更具破坏性。这是一个商业决定。

在联网方面,数十年来,我们一直在整合备用链接和冗余路径。因此,存在用于检测故障和通过备份路径重定向流量的高度健壮的路由协议和测试方法。使用它们。

如果您需要实施一些全局NAT规则以使DR服务器看起来像生产服务器,或者启用一堆备份VPN,则可以采用一种全局方式触发这些更改的方法。您不希望在灾难期间登录一百个防火墙。它必须快速而简单。

移动服务器也是如此。您的灾难福彩三d字谜计划不能依靠从头开始构建服务器。您也无法跨WAN链接移动TB级的数据。数据应该已经在那里。使用适当的技术来使其保持同步。

福彩三d字谜时间和福彩三d字谜点

上一节有关测试和自动化的部分使我们了解了在创建灾难福彩三d字谜计划时应该解决的关键业务问题:福彩三d字谜时间目标(RTO)和福彩三d字谜点目标(RPO)。

RTO是在适当的福彩三d字谜模式下使生产系统福彩三d字谜在线状态所花费的时间。正如系统的最终用户所看到的,这就是您将遭受挫折的时间。

RTO是您多长时间’就像客户看到的那样’s users.

RPO可以衡量您重新上网时数据的最新程度。如果您的灾难福彩三d字谜计划涉及从昨晚的自动备份中福彩三d字谜,则您的RPO为24小时。如果这还不够好,则需要某种方式更频繁地将当前活动数据复制到灾难福彩三d字谜系统。

高度关键任务系统会执行诸如实时复制每个事务之类的操作,但是这些机制取决于数据是什么以及应用程序如何处理它。

RTO和RPO的价值最终是业务决策。但是,福彩三d字谜越好,成本越高,成本是此决策的关键部分。您的工作是提出两个或三个详细计划以及相应的价格,以便可以根据实际情况进行谈判。

最后的想法

灾难福彩三d字谜计划始终是一个时间点练习。这意味着它必须保持最新。

诸如新的远程办公室或新的虚拟服务器之类的增量更改应自动适应。但是,您应该定期检查组织的运营基础架构,以确保灾难福彩三d字谜计划将福彩三d字谜您最关键的业务功能。这也将需要良好的系统清单,无论如何,出于操作原因,您应该拥有该清单。

通常无需福彩三d字谜所有内容。总是存在相对不重要的功能,这些功能可以在不显着影响业务的情况下消失。假设灾难持续超过一天左右,您将有机会重新从头开始构建那些次要的功能。

我强烈建议采用细粒度的灾难福彩三d字谜方法,其中相关的系统组具有通用的福彩三d字谜机制。我还建议定期测试这些福彩三d字谜机制。