计算机化系统灾难恢复计划制定

CPHI制药在线
2022-11-24 16:52:45

灾难恢复(Disaster Recovery 简称DR)系统主要是针对在计算机软件系统在正常使用过程中,如果服务器等关键部件运行出现了问题以后,我们如何做好应急恢复工作,就像突然遭遇到了一个灾难,如何让计算机系统恢复过来。目前对于灾难的定义有很多种,可以是自然灾害如水淹、火灾、黑客入侵等,称之为灾难说明事故很严重,并不是系统出现了一个小BUG,你可以自己去恢复,而是需是用一种事先制定好的灾难恢复计划来恢复。目前对于灾难恢复现在有很多种方式,自己的单位要事先制定一套灾难恢复计划,比如说这一个服务器不可用了,你可以用其它的,还有现在可以应用云的技术,把服务器布署在云上,可以减少物理灾害,用的是云的算力而不需要自己的服务器。当然云服务器服务商也要有如何避免灾难的措施。

灾难恢复一般是由IT部门负责,包括了系统的恢复,任何一个系统都应该有一个灾难恢复计划,不只局限于计算机化系统,也包括我们的生产系统和系统运行所需要的所有基础设施。灾难恢复计划是要确保在灾难下组织的生产系统能在预定义的时间内恢复基本运作。


【资料图】

做灾难恢复首先要明白什么叫系统恢复和容错能力,系统恢复和容错能力的主要目标就是消除单点故障,就是一个组件故障了,整个系统崩溃。容错能力就是那怕是单点故障了,一个组件坏了以后,整个系统仍然可以正常运行。计算机化系统里称之为冗余。包含的主要部件有硬盘驱动器、服务器、网络设备、电源、PLC等。

硬般服务器常冗余见的就是做镜象备份,如插两块硬盘,实时备份,如果其中一个坏掉了,另外一个可以保证正常应用。电源冗余就是双电源供电,一个坏了另一个还可以接着用、一用一备。我们要避免单点故障就把整个系统拖跨。所以要提高主要部件冗余程度。

灾难恢复的主要策略:首先就是确定业务单元的优先顺序,为了能尽快的有效恢复系统运行,设计我们的应争恢复计划应该从优先级别最高为主,比如纯化水系统故障了,首先是恢复能手动控制能继续保证生产,这是第一位的,再恢复PLC实现自动控制相关的,这些不恢复暂时不影响操作,所以要确定系统中各业务单元的优先顺序。如果手工流程可以使业务继续运行下去的话,还需要考虑一旦电子化系统恢复以后,之前手工的流程如何同步回我们的电子记录,或者说我们这一段的记录怎么交接。

其次要有灾难发生时的处置程序,对员工进行灾难恢复的培训,让员工知道遇到灾难发生时应该按照什么流程处理,让管理者在出现灾难时能够按照正确的规程来执行恢复,相当于一个应急预案。

系统按照工作组划分来进行恢复,在设计灾难恢复计划时都是以组来进行实施的,比如一个车间出现问题的时候,我们肯定是生产组的管生产设备,IT组的管服务器、PLC等,QC的管QC等按组来分的,在制定计划时要以组为目标,每个组恢复到正常的工作状态。

是否有可替化的设备或方案,如果PLC坏了是否有手动的方法和流程,这就是可替代的方案,笔者曾经遇到过,我车间台压片机,员工的操作中没有盖下触摸屏的防护罩,怡好一个工具落上去,屏幕环了无法显示了,但设备还在运行,其它部件完全不受影响,当时这台设备也是新购买不久的,没有屏幕备件,就面临着运行参数不可控,产品质量无法保证。当时正好我单位有别的车间新购了一台同型号的压片机,我们直接拆下控制屏换上了,这就是替代的方案,但不认为是一个好的应急案。

恢复计划制定的主要关注点,不限于计算机化系统。包括紧急事件响应,人员的通知,评估、数据备份、外部通信、公共设施、物流、恢复与还原等。出现了紧急事件以后,要按按照事先规定的,那些优先级高的要先处理,优先级低的可以往后放,灾难恢复一定要有一个联系人的清单和联系方式,在出现故障时现场人员可以直接联上,甚至还要有备作联系人。当人员到场后需要对这个灾难进行评估,这个灾难是属于那一个级别的,应该执行那一个灾难恢复的流程,最好能够列出一些依据。数据一定要远程备份,定期备份,每天进行增量备份,定期进行一个完整的备份。灾难恢复时有一些备件要提前备上,关键部件一般价值都比较高,正常情况下会有供货周期,如遇到突发情况如疫情发生,物流不走了,想发都发不出,这就在计划中制定那些关键部件要备分。在恢复系统时是执行恢复还是还原,就要 看如果原系统在恢复的基础上还能用,那就恢复回来,如果无法恢复,那就在原来备份的基础上还原回来,这个也是要进行评估的。恢复后根据系统的关键性进行确认与验证工作。

灾难恢复后期还是要进行培训,对新员工进行培训,对担任灾难恢复的主要人员进行培训,对恢复的团队进行培训,定期对培训效果进行评价,有备无患。如果从来没进行过灾难恢复,当真出了事故时,虽然你有这些规程,但没有人执行过,实操过程肯定会出现许多漏洞。

灾难恢复后的测试与确认,首先进行模拟演习,灾难恢复团队的人就像头脑风暴一样,聚在一起每个人扮演自己的角色,模拟恢复过程,通过模拟恢复过程检查灾难恢复计划制定的是否完善,是不是需要补充。还可设定一个情境,要求相关人员作出对就的抢救措施,评估效果。有时一些厂家的软件我们无法自行安装,例HPLC的控制软件,它可能需要授权码,所以建议大家在SAT(工厂验收)交付时,让供应商一定要配合验证工作,把对应的测试做了。

灾难恢复计划是一个很灵活的计划,计算机化系统也在不断变化,不断的有新设备的增加、操作系统更新、旧设备的淘汰、人员的变更等。组织需求的变化后,我们的流程也应不断的更新。当出现了些大的变更时,有必面进行灾难恢复计划的更新。出现什么问题有计划,才能做好恢复工作。如果真出现问题了,先拍脑门就很容易出现一些无法挽回的事。

责任编辑:207
热点新闻

深圳热线 版权所有 Copyright © 2022 SZONLINE(SZONLINE.CN) All Rights Reserved.邮箱:56 26 623@qq.com

粤ICP备18025786号-54 营业执照公示信息