电网企业信息运维故障诊断模型的研究与应用

电网企业信息运维故障诊断模型的研究与应用

国网江西省电力有限责任公司庐山市供电分公司

摘要:电网企业信息运维故障诊断模型,能够在电网企业信息运维指标中产生很好的容错性和实用性,可快速诊断故障并准确找到故障源,可在一定程度上确保电网企业的正常运行。

关键词:电网企业;信息运维故障;诊断过程;诊断模型

1、电力运维指标体系

电力信息化的特点包括:系统的应用业务面广泛,具有重要作用;相关技术平台的配置具有复杂性,维护的内容很广泛。因此必须要确保信息系统的抵抗能力,将故障掌握在能够控制的范围中,有利于信息运维的稳定运行。所以要制定合理稳定的信息运维指标体系,有利于保障信息的安全可靠运行。信息运维指标包括跨阈触发式和事件触发式。跨阂触发式指以网络流量现状及其管控策略为基础,识别分类数据流,并且实施流量控制,流量优化和流量统计。事件触发式主要是针对信息系统的故障时间来进行处理,实时评价故障发生的后果及其可能性,主动进行运维管理。

2、电力企业信息化运维现状及问题

(1)信息运维工作缺乏统一管理和制度

电网企业信息化都经历从无到有、从小到大的过程,在信息化进程不断推进的今天,部分电力企业的信息系统的运维体制存在制度不够完善,有些电力企业信息运维采用运作简单的事后“救火”模式,从而就在一定程度上降低了运维工作的效率,增加了运维成本;运维工作中缺乏一套科学合理、规范的运维体系及其相关管理理念,没有制定合理有效的运维管理制度和工作流程,导致很多信息运维人员整天在故障中奔波,造成了运维资源不能实现共享,运维质量难以保障。

(2)缺乏专业电力企业信息运维人员

大部分电力企业没有成立专门的运维团队,导致电力企业缺少专业的运维人员,一人多岗的兼职运维现象普遍存在。当出现问题时,运维人员疲于解决问题,没有深入分析问题根源,只能被动解决问题,难以预防问题再次发生,无法保证信息系统的安全高效运行。

3、电网企业信息运维的监管模式

(1)“事前监控”指的是监控业务系统、设备运行状况和容灾系统情况,业务系统的运行采用无响应率、断电率、连续峰值和时延均值的监控方式,对业务系统运行进行全面分析;服务设备的运行状况指的监控各类的IT资源,从而获得服务器的内存负载率、数据库的连接、网络的连接性和违规操作等,并且对这些信息的故障和异常情况做出对应的指标;容灾系统指的是通过容灾信息实现资源和数据共享,获取容灾备份日志的分析,对容灾断及生产端的错误情况进行详细分析,如果出现问题会实现自动恢复。

(2)“事中分析”指的是触发突发事件的相应报警方法,包括构建模型”、报警等级信息处理和相应的事件处理,这些是运维监管模式的核心。根据事前监控的结果构建模型,在模型的大范围上确定故障类别和故障种类,同时要排出其中的不确定性因素,去掉传统模式中的固定化模式,将运维模式设定为自主化学习。经由专家分析等方法来划分报警等级,最后发布确定性的报警信息。

(3)“事后审计”在运维监管模式中有很重要的作用,网络设备、应用服务器和操作系统能产生很多日志数据,日志数据记录了网络运行时间和系统运行时间,属于安全设计中的很重要的数据。但是其中存在“信息孤岛”状况,因此整合审计日志信息需要业务角度。系统主要以业务为主线来制分析报表及性能的统计,要采用逐步回归选元法及多元线性回归分析法来计算业务,同时采用事件流分析法,建立IT资源和业务等方面的依赖关系。

4、构建电网企业信息运维故障诊断模型

(1)诊断算法流程及模型构建

电网企业长时间的信息运维过程会存在很多的故障信息,但由于传统的故障信息是文本形式,所以要先对原始的故障信息进行数据处理,建立原始数据集,以信息运维指标为条件属性来进行挖掘数据,建立完善的故障诊断模型。如图1所示。

本文以业务系统中的“l对2”结构为例子说明操作流程,如图所示,SO1指的虚拟地址的故障源,S02、S03属于真实地址的古战孤雁,而且对设备都配置了运维指标的检测,贯通市场是TDl/TD2/TD3。同时,由于该模型属于自主化的学习模式,因此在诊断前要建立模型,建立模型时要合理控制参数,如果数值过小会导致算法开支变大,产生弱关联规则,进而就会漏掉有价值的规则。

(2)某工程实例

该故障诊断模型已经在实际运行的电网企业ISRMP应用,监管平台分为四层:数据展现层、数据处理层、数据才基层和监管资源层。ISRMP已得到初步应用,且有显著效果。

图1故障诊断模型的构建

5、电力企业信息运维管理的探索

(1)建立完善的运维制度

电力企业制定一些合理、规范的运维管理制度能有效衔接企业级管理系统建设与运维工作,其是运维体系稳定运行的根本保证。从软硬件平台架构、运行资源分配等方面,建立一套科学的管理制度,流程化的运维工作,制定必要的管理规定和规章制度,明确工作人员、交待工作任务和工作内容,这样才可有效地实现运维管理人员按章有序地进行维护,减少运维中的不确定因素,履行工作许可、工作监护和工作终结的书面依据,提高工作质量和水平。此外,通过严密的激励、考核机制,可形成对信息系统操作人员、运维管理人员日常工作的科学评价,提高工作人员其积极性,提升工作效率。

(2)提高监控自动化程度,提高工作效率

为确保信息系统长期有效地正常运转,可以利用自动化监控系统7﹡24小时监控设备运行工况,确保信息系统长期有效地正常运转。例如,建设IT设备监控系统,对网络设备以及存储设备集中监控,按制度对信息系统进行定期巡检、各类资料收集归档等工作,提高桌面办公电脑维护效率,使信息系统发挥最大作用,为巩固企业信息化建设成果作贡献。

6、结束语

综上,随着信息化建设的深入,企业信息的运维故障管理越来越严格以,所以建立故障诊断模型是非常有必要的,其可及时发现相关隐患和故障,从而确保系统的稳定运行。

参考文献

[1]刘道兵,顾雪平,李海鹏.基于IEC61850的电网故障诊断完全解析化建模[J].电力系统自动化.2016(10).

[2]兰华,李晋,高奥,杨建彪.粗糙集结合Petri网进行分区域并行推理的配电网故障诊断方法研究[J].电测与仪表.2017(01).

[3]朱传柏,郭创新,曹一家.基于调度综合数据平台的大规模电网分层故障诊断[J].电力系统自动化,2016(1).

标签:;  ;  ;  

电网企业信息运维故障诊断模型的研究与应用
下载Doc文档

猜你喜欢