问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

机房应急演练实战指南:供电、漏水、火灾三大场景

创作时间:
2025-01-22 01:28:14
作者:
@小白创作中心

机房应急演练实战指南:供电、漏水、火灾三大场景

机房应急演练方案是一套详细的应急预案,涵盖了机房可能遇到的各种紧急情况,如市电供电异常、漏水、火灾等。方案详细描述了应急响应机制、演练准备工作以及具体的应急处理流程,为机房运维人员提供了全面的指导。本文将为您详细介绍该方案的具体内容。

应急响应机制

基本处理流程

  1. 值班人员应做好应急事件的监控工作,对于突发事件应认真分析、准确判定故障发生的数据域,负责跟踪该事件直至其结束。对于不在运维中心的故障,应在第一时间内通知负责人去现场处理,密切关注事件流程及进展情况,并做好登记工作上报领导。
  2. 正常情况下,要求值班人员在10分钟内进行事件确认。如果属于一般事件则按照事件流程进行分派处理,否则应迅速启动《应急预案》,并严格按照《应急预案》所规定的步骤快速实施应急处置,及时汇报上级领导,掌握实时处理情况。
  3. 在处理过程中,如需其他部门去现场增援处理,应及时向上级领导部门汇报,协调沟通,尽快联系技术工程师或厂家技术支持赶赴现场援助处理。

演练准备工作

视频监控系统

检查视频监控是否正常工作,图像是是否清晰。检查接受到的视频图像为实时图像。

湿温监控系统

检查湿度控制器、温度控制器是否正常工作,检测当湿度过高或温度过高时其是否实现实时报警。

UPS检测系统

检查监控中心所收到的UPS运行状态,与实时UPS运行状况是否一致,具体参数是否正常(如输入电压、电流、蓄电池供电情况等)。

演练过程

机房市电供电异常

准备工作

机房供电系统图、配电系统维修工具、应急灯、UPS操作手册、应急联系电话表。全面检查机房供电系统状况,重点确保UPS 主机系统和电池组等处于良好运行状态。与配电室联系好,保证在演练期间配电室无维修或其他操作,电力供应稳定。通知UPS供应商或维护商做好相应备件及技术支持准备,以防止UPS后备电池因维护保养不善造成其使用寿命缩短或UPS主机在进行逆变切换时发生故障。演练前对网络系统及应用系统进行一次系统备份和数据备份。

应急演练应掌握的数据

由于目前UPS系统在机房的负荷较大,目前UPS有效后备时间约2—2.5小时。经与相关小组了解业务系统数据应急和设备正常关闭时间约1.5小时。机房计算机设备允许最高环境温度为33°C。

应急操作过程

首先,接到应急演练小组演练开始的命令,将UPS供电总电源切断。在供电电源停止后,每四分钟对UPS供电情况进行一次巡检,检查内容主要是UPS的负载情况、输出的电压电流、电池后备时间、电池运行情况,并做好记录(记录表样式附后)。随时联系配电室人员,了解供电恢复时间,并向领导小组汇报。当停电半小时后未得到准确送电时间,通知维护小组及其他相关部门,做好停机准备,停部分设备以减少用电负荷。当停电一个小时后仍未得到准确送电时间火灾配电室通知短时间内故障无法排除,向领导小组汇报,由领导小组通知维护小组及其他相关部门关闭机房全部设备。如果停电范围较大,涉及机房空调市电停止,还需有专人对机房温升情况进行监控并记录(记录样式附后)。当机房温度达到33°C时,向领导小组汇报,由领导小组通知维护小组及其他相关部门关闭机房相关设备,随着温度的升高直至关闭全部设备。上述UPS电源中断和机房空调电源终端两种情况同时发生时,只要其中一个条件不能满足机房运行要求,就要向领导小组汇报,由领导小组通知维护小组及其他相关部门关闭机房全部设备。送电后的恢复工作:市电恢复正常供电后,机房管理员检查UPS系统运行情况和电池组充电状况、空调系统运转情况,并向领导小组进行报告。

演练中发生异常故障的处理
  1. 应急演练过程中,发现任何异常情况要及时向应急演练领导小组报告,由应急演练领导决定是否终止应急演练。
  2. 在应急演练过程中预先准备好灭火器材,防止出现大电流放电出现着火。
  3. 在UPS电池出现过热时应及时终止演练并恢复市电供电,以防意外发生。
  4. 出现电池及电缆接头过热情况要及时处理,恢复市电,更换接头等。

机房漏水

演练内容

计算机机房场地漏水,对计算机系统运行造成严重影响。

准备工作

吸水设备、水桶、拖布及地板吸盘等水灾抢救用品。机房供电系统系线路图纸、了解机房漏水的风险点。

机房可能发生大范围漏水的部分

机房空调加湿用的供水水管、除湿的下水和吸顶空调的冷凝水。

演练操作步骤

演练开始。执行小组接到计算机机房管理人员报告场地漏水或计算机机房场地监控系统(漏水报警器报警)发现场地漏水,执行小组立即检查进水部位,查明进水原因,掌握危害程度,并与大楼后勤服务部门联系,请求寻找进水原因。执行小组向协调小组、领导小组报告计算机场地漏水原因、危害程度,同时为了减少损失,通知维护小组做好进行数据备份、业务系统和电子设备关闭的操作准备工作。大楼后勤服务部门负责疏通排水通道、清楚计算机机房周边积水、切断计算机机房漏水水源。协调小组在确保无触电危险的前提下,组织人员用吸水工具抽吸场地内积水,控制进水影响范围。领导小组根据进水危害程度,命令维护小组部分关闭或全部关闭业务系统和电子设备后,由机房管理员切断部分或全部场地电源,防止危害进一步扩大。进水危险解除后,机房管理员检查计算机场地受灾情况和电力线路、网络线路健康情况,进行计算机机房去湿等环境恢复,并向领导小组报告。领导小组根据计算机机房环境恢复情况,命令维护小组部分恢复或全部恢复业务系统和电子设备进行

机房火灾

演练内容

计算机机房发生火灾,对人的生命和计算机系统运行造成危害。

准备工作
  1. 手持计算机机房灭火器、手持应急照明灯具等火灾抢救用品。
  2. 确保气体灭火系统运行稳定,并将启动方式设置为手动。
演练步骤

火情发现。执行小组接到机房管理人员的火情报告,或计算机机房场地监控系统发现火情,或大楼消防监控中心发现火情。执行小组在排除误报和在确保生命安全的前提下,准确掌握火情部位、灾情程度,并向协调小组报告。协调小组向领导小组报告计算机机房发生的火情和危害程度。经领导小组同意,执行小组按动火灾报警按钮,发出声、光报警信号,组织人员撤离计算机机房。分一下两种情况进行处置:

  1. 在火情未蔓延时,领导小组命令执行小组切断火灾部位电源、利用手持机房灭火器具进行灭火。
  2. 在火情蔓延时,领导小组命令执行小组切断计算机机房全部电源,在确保人员全部撤离机房后,关闭机房所有通道门、启动气体灭火系统进行灭火。火情解除后,执行小组检查计算机机房空气质量,掌握受灾情况和电力线路、网络线路等健康情况,并向协调小组、领导小组报告。领导小组根据计算机机房环境情况, 命令执行小组恢复部分或全部电源供应、维护小组部分恢复或全部恢复业务系统和电子设备运行。
演练中发生故障及相关问题处理
  1. 误按了放气按钮怎么办?在误按了放气按钮时,可在30s内按住旁边的止喷按钮,并等待专业人员拿钥匙进行复位。(详见气体灭火器使用说明)
  2. 机房发生火情,拉了气体释放开关不释放气体怎么办?这种情况的原因是气体灭火的控制屏或释放阀发生故障,可立即到气瓶间拉下上手动释放开关。

UPS异常运行记录表

每十分钟记录一次
确认签字:

机房温湿度记录表

每十分钟记录一次
确认签字:

市电中断后主机组、网络组、应用组系统运行确认表

每十分钟进行一次确认

应急处置方案

总 则

  1. 保证人员和财产的安全为前提的原则:在由于火灾或电力问题造成的主机故障,在解决故障前,应以保证人员的生命安全和财产的安全为前提,然后进行故障的解决。
  2. 最快时间恢复业务的原则:本着先想尽一切方法,尽快恢复业务的原则来处理故障,如在有备用设备的情况下,主设备产生了故障,应先尽快将应用切换到备用机上,使业务能够运行,再对故障设备进行诊断和维修。
  3. 故障应急人员高度负责的原则:当故障应急人员在节假日接到故障通知时,本着高度负责的态度,应迅速接手处理障碍,如远程无法处理解决,应迅速赶到故障设备所在地,进行现场处理,处理故障的同时应及时向领导汇报。应急人员不可互相推卸责任,如因特殊情况,确实无法处理障碍,部门领导必须安排好其他人员处理。
  4. 尽可能全面的保留故障现场的原则:当故障发生后,应急人员应尽可能全面的备份出能够反映故障现象的各种日志、记录、受损文件等,便于业务恢复后,对故障的分析、解决,杜绝故障的再次发生。应急方案的目标:保证预付卡运营系统连续安全稳定地运行。

应急领导小组

应急领导小组成员:
组 长:
副组长:
成 员:
电话:

电源系统故障 故障应急处理

定期检查信息中心机房电源设备的运行状况,当发生下列突发事件时,按以下方案进行处置:当中心机房发生市电供电突然停电或远程报警电源异常时。首先确认是否为正常停电及预计停电时间。检查不间断电源的电池可供电时间,需在不间断电源供电时效内关闭所有服务器及网络设备。联系工程部查看停电原因,尽快恢复供电,并将情况报告相关领导.

工程部联系电话:

空调系统故障应急处理

定期对空调的运行情况进行检查,如有报警信息,应及时查找故障原因,对于不能自行排除的问题,应及时与设备提供商进行联系。当中心机房主空调因故障无法制冷,致使机房内环境温度超过摄氏 40 度时,打开机房房门,并关闭所有服务器及网络设备。对于无法自行处置的空调系统异常情况,及时与设备提供商联系,并报告公司领导。

空调问题联系人:

中心机房自动消防系统应急处理

当中心机房发生火警时,按以下方案进行处置:1.上班工作时间发生火警,听到自动消防系统发出的声光报警后,中心机房附近办公室人员应及时紧急撤离,避免气体自动消防系统启动后,消防气体对附近人员造成人身伤害。确认火警后,立刻拨打 119 报警,并说明尽量使用气体灭火器进行灭火,减少电子设备的损坏。2.发生火警后,信息中心相关人员应马上赶赴现场,并向有关领导报告事故情况。同时立即联系联通等相关公司,及时评估事故损失情况,研讨尽快恢复信息系统正常运行的最佳方案。

安保消防中控电话:

设备、网络系统故障应急处理

设备、网络应用系统故障应由发现人通知技术部,技术部门立即检查故障,进行初步故障定位,解决;

  1. 网络设备、服务器、储存设备均有备份,当设备存在硬件问题时,可随时把业务切换到备份主机上,保证业务正常运行;
  2. 应用系统每更新一次则做一次远程备份,在远程主机上分别备份旧的应用系统和更新后的应用系统,以当天的更新日期命名;
  3. 对磁盘柜上的数据库文件有定时任务,每天凌晨 4:00 会把数据库里的数据文件倒出到远程备份主机上,以确保磁盘柜出现硬件故障的时候,数据文件不丢失;对于网络、应用系统出现硬件方面的故障,比较严重的问题,对业务的正常运行造成较大的影响,立即向有关领导报告。
  4. 网络中有监控服务器,运用 Cacti v10 最新的版本,监控网络所有设备(路由器,防火墙,交换机以及服务器设备);对设备本身的硬件检测、外部入侵检测、外部攻击等多种对系统不利因素以发送 mail 的形式报警;相关人员收到报警信息,分析收到的 log 日志以做出相应的处理。
  5. 每周周五对网络设备进行日志及配置文件采集,对数据库数据文件定期下载,和远程备份;在本地电脑上保存最近的配置文件,以便在发生毁灭性的灾难时,用来重组。对简单故障,运维人员应迅速排除故障,解决问题并记录。如果需要更换设备,应上报有关领导,经批准后马上更换故障设备,尽快恢复网络、应用系统运行。运维部门判断无法及时修理时,应立即通知相关的系统运行服务提供商,在最短的时间内安排修理或更换系统。如发现属外部线路的问题,应与线路服务提供商联系,敦促对方尽快恢复故障线路。启用备份线路、设备、系统,迅速恢复相关的应用。

技术支持联系电话:

黑客入侵的应急处理

发现网络上有黑客攻击行为,任何人员都有义务向技术部门报告。技术部立即启动应急响应,切断受攻击计算机与网络的连接,停止一切操作、保护现场,并上报有关领导。对于黑客攻击,由计算中心组织应急响应专家小组查找入侵踪迹,分析入侵方式和原因。由安全管理员根据对入侵事件的分析,组织相关人员对内部网计算机整改,防止黑客用同样的手段再次入侵其他系统。安全管理员检查确定无安全隐患后,才可将受攻击计算机重新连接网络,或启用备份计算机来恢复应用。安全管理员应做好记录,保护现场,进行日志收集等工作。如果能追查到攻击者的相关信息,可以对其发出警告,必要时可以采取进一步的行动,乃至采取法律手段。根据破坏程度,经有关领导同意后,上报公安部门。若系统已被黑客破坏,无法恢复,应将受黑客攻击的计算机上的重要数据备份到其他存储介质,确保计算机内重要的数据不丢失。如果数据无法恢复,经有关领导同意后,可与国家指定的部门联系,由他们来协助恢复,为保证数据信息安全,需在安全管理部门作记录。

生产系统、数据库故障处理

生产系统出现故障,技术部做出应急处理

  1. 因软件设计缺陷、设计漏洞等引起的故障,通知公司研发部门在 2 小时内查明原因,解决问题。
  2. 数据库出现故障,运维人员应在 2 小时内查清故障原因,其他相关部门应积极配合,解决问题。
  3. 如出现数据丢失情况,确认不能自行恢复后,启用备份恢复数据,24 小时内恢复运营。

本方案自发布之日起施行
本方案自发布之日起施行

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号