了解 BCP 功能验证
了解 BCP 功能验证
功能验证是企业恢复能力管理(ERCM)生命周期中不可或缺的一部分。它通过理论和实践测试来评估业务连续性计划(BCP)的有效性。每个服务团队定期进行BCP测试,以衡量计划的有效性并评估团队执行计划的准备情况。根据ERCM计划指南,BCP和功能验证需要在上次评审后的12个月内进行年度评审,并包括对支持文档(如业务影响分析BIA和数据恢复DA)的评审。
验证级别
为了验证针对各种潜在事件的恢复能力和恢复策略,ERCM计划定义了影响人员、位置和技术的多个类别的测试方案。单个服务团队可以在ERCM测试方案指南中自由定义自己的特定测试。
测试方案的示例包括:
- 主建筑物或园区集群损失
- 技术中断
- 区域网络中断
- 关键的第三方中断
- 工作人员中断
- 广泛的区域事件
- 单个数据中心丢失
- 网络攻击
- 大流行病
在每个测试方案的背景下,微软定义了八个级别的验证,从0(意味着尚未测试该功能)到7(意味着该功能在测试期间已完全激活)。级别1到4的测试在生产环境之外验证业务连续性计划的功能。级别5到7要求在生产环境中对恢复策略进行越来越严格的验证,第7级要求验证整个应用程序生态系统(包括所有依赖项)的恢复计划。每个服务所需的验证级别取决于服务的关键程度,更关键的服务会受到更严格的验证。我们通过服务信任门户上提供的季度报告向客户提供选定微软在线服务的功能验证结果。
响应影响服务的事件
当微软必须执行业务连续性计划来响应影响服务的事件时,功能验证和持续BCM改进的价值将变得明显。当飓风Harvey袭击得克萨斯州并即将对圣安东尼奥的数据中心造成不利影响时,Exchange Online团队激活了业务连续性计划,以主动地从数据中心中疏散流量,从而防止对客户造成任何影响。威胁过去后,数据中心遵循明确定义的恢复过程回归了正常运营,而没有发生任何事故。这些过程已就绪,因为Exchange Online已根据以前自然灾害中的经验教训更新并测试了其连续性计划,以确保该计划在真正的紧急情况下有效。
从内部事件中学到的经验也将支持业务连续性改进。当微软公司网络由于错误的组策略部署而发生DNS中断时,客户会受到保护,免受任何影响,因为公司网络与我们位于单独容错区域中的商业服务隔离。但是,微软内部通信受到了影响,因此协调解决该事件更加困难。此事件导致了紧急状态协议的建立,以便在影响内部通信的事件期间保持微软团队之间的协作。
了解详细信息
- 业务连续性和灾难恢复计划验证报告