基于新技术架构一站式整合多传输网管应用的实践

基于新技术架构一站式整合多传输网管应用的实践

(云南电网有限责任公司玉溪供电局系统运行部)

摘要:电力系统通信传输网络在发展过程中,由于分批分期建设,导致设备厂家杂、厂家网管多的情况出现,各网管软件对服务器性能要求较高、且应用类型多样化,多个软件无法并存于同一台服务器,部分软件也无法进行二次开发提供对外服务能力,不利于多人同时使用、或通过移动终端访问及管理或进行业务办理;本文结合RDP等技术提出一站式WEB实现对多个传输网管软件直接访问与综合管理的可行性方案,希望对无法替换与互通的传输网管等桌面应用进行集中管理的需求提供借鉴与帮助。

关键词:通信网;传输网管;RDP;桌面应用;移动终端

1.引言

电力企业随着通信传输网络规模的不断扩大,建设过程中分期分批建设导致设备类型杂、厂家网管软件多的问题存在,各厂家传输网管承载着自家设备的监控、告警、业务办理等管理功能,无法在一台服务器中并存安装,部分也无法进行二次开发提供对外服务能力,不仅消耗了较多服务器资源,也增加了不少管理成本,随着业务的发展与规范性要求,设备类型逐步收敛并进行一站式管理是电力系统通信网络发展的必经之路,本次云南玉溪供电局通过对一站式web集中直管多个传输网管软件解决方案的实现,解决现存生产管理问题,构建集中管理传输网管的平台,为之后实现全链路端到端监控与自动化运维、自动化办理奠定基础。

2.云南玉溪供电局传输网管管理现状

经过多年的发展,云南玉溪供电局通信网络采用AB网组网方式做好主备管理,但网管技术手段相对单一,目前所使用的光传输设备厂家还有较多品牌,其中各厂家设备的监控和网络管理软件互不兼容,部分软件无法对外进行数据与服务互通,无法进行统一管理及业务开通单一调度,带来了以下一系列问题:

(1)缺乏集中管理平台,无法统一展示管理全网网络,管理人员需要在多个屏幕中同时关注多个厂家传输网管监控平台。

(2)部分软件由于厂家不支持二次开发,所以无法提供数据与服务互动,业务办理只能在现场进行桌面端操作。

(3)缺乏端到端整体资源管理,无法实现物理资源和逻辑资源的关联,导致故障发生时对业务影响范围无法准确分析,业务恢复需要更长时间。

(4)厂家传输网管监控软件类型分别体现为桌面应用、web应用,桌面应用无法在移动终端被打开进行操作及业务办理,非值班期间无法对值班现场救援进行快速支撑。

3.一站式集中直管的技术实现

建设综合网管系统,需要投入较多资源,且需要较长的时间周期协调多方厂家进行数据与服务互通,主要功能包括网管接入、资源配置数据动态获取、资源信息管理、不同厂家设备综合监控、业务调度中心流程管理等;目前一些电力企业总部、省级单位及电信运营商有进行实践,并在逐步升级改造中,云南玉溪供电局借鉴了部分建设思路提出适合自身的解决方案,系统框架示意图如下,核心功能应用主要体现为端到端网元资源配置集中管理、自动化动态调节监控阈值提高工作效率、监控对象依赖关系学习引擎收敛告警信息、WEB-RDP远程桌面切换及自动后台登录。

(1)数据采集层:负责与厂家网管软件、设备等进行通信,实现数据汇聚,部分厂家网管软件具备corba接口等可对外提供服务,集中化管理平台进行数据采集后,对其他无法信息化交互的软件,通过手工登记、界面爬虫等方式获取数据;同时采用消息队列技术,避免在设备异常时告警数量突升至几十万条及以上的告警风暴时,超出平台接口的最大处理能力导致不能实时入库处理及部分告警数据丢失。

(2)数据处理层:通过数据采集层,将资源配置、日志等进行数据汇聚,并将监控与运维的配置、管理数据进行统一存储;以横纵表方式管理数据支持配置项可灵活扩展,对监控节点组成丰富及完整的数据链,使得对所有业务“看”的更加全面和清晰,对于告警预警、故障发现、影响范围判断、告警收敛等分析能力的提升起到根基性作用。

(3)业务逻辑层与系统展示层:系统展示层基于扁平化、互联网化的操作风格,采用了最新的HTML5互联网Web技术和成熟组件的B/S架构,方便PC端与移动终端访问;业务逻辑层负责系统核心应用的实现,关键功能包括监控指标阈值管理、数据联动分析与告警动作协同等,并进行端到端网元资源配置管理等。

3.1端到端网元资源配置集中管理

在通信网中,一个业务一般需要跨越多个子网才能完成,在路径中任何一个位置出现故障时都会影响业务的正常运行,当业务运行不正常时,需要确定问题出现在网络的哪一个位置上,如果资源配置不够细致,则会造成系统各监控对象信息又呈现为碎片化,无法确定完整关系链,导致问题无法精准判断影响范围及定位位置。

配置管理模块是整个一体化管理平台的核心,是未来系统升级改造实现全链路端到端监控运维管理的基础,为其它所有模块提供服务,包括提供配置项和关系发现、业务系统建模、配置信息可视化等各种功能;通过创建一系列具体的业务服务模型,并结合自动化发现录入等手段完成配置项管理,作为集中的业务服务模型和CI配置信息的集中的、唯一信息源,达到一次性建模,持续永久维护。

本次依据属性模板、资源模板的定义及配置关系的维护,实现资源配置的灵活管理:

A属性模板定义:定义类属性组,定义类属性的参数,甚至新建参数,可以根据业务要求随时调整缺省的属性模板库,并根据基类属性或子类属性进行派生,也可独立构建类树。

B资源模板定义:根据默认资源配置,可叠加属性模板信息并新建属性参数,支持资源模型有一系列属性层次类,每个属性类能从基类继承属性,并且能把属性加到自己的属性里来创建特定类型的子类;同时具备可扩展性,支持各类资源独立增加或删除属性。

C资源配置关系:表示本资源与其他资源配置项之间的关系,类型包括组成、具有(包含)、关联(连接)、使用、虚拟化、上联(提供)、运行在、下联(管理)。

3.2自动化动态调节监控阈值提高工作效率

在所有的监控指标被管理时,大多数综合管理平台对指标监控阈值默认不设置或指定一次性阈值,当监控对象较少,且业务趋势稳定的情况下,管理人员可以快速根据自己的经验进行设置指标告警阀值的工作,但在监控对象体量足够庞大时,独立维护各指标的阈值将变成一项繁重的工作,同时伴随着业务活动的多样化,各业务周期内对信息系统响应要求级别不同,需要根据要求对指标进行更高频率的调整,都在增加管理人员的工作量,并一定程度上影响了对于监控系统全链路监控管理工作的积极性,所以针对大量业务的IT监管系统再通过手工配置指标固定告警阀值的方式已不再符合技术潮流。

云南玉溪供电局采用的动态阈值方法主要包含如下:

A数据采集存储:获取监控元素阀值配置信息、活动周期预估数据、业务趋势预估数据、指标性能负荷信息、告警处理信息,并进行存储。

B权重系数计算:取性能趋势权重阀值与业务等级权重阀值的最大值作为系数;其中性能趋势权重阀值指运算类型、业务应用等指标的历史趋势数据,数据取样波动环比得出系数;业务等级权重阀值指按照业务活动周期等级数据,计算历史类似活动周期中业务关联的各指标的指标阀值及对应的业务增长趋势数据,数据取样波动环比得出系数;波动环比可结合行业特性进行定义。

C各类型指标根据本类型权重系数进行阀值的动态调整,最后根据各指标的上下限约束完成指标数据的裁减,避免阈值配置数据溢出造成无效。

简而言之,动态阈值包括根据过去的行为设置阈值然后随时间推移观察应用行为的功能。从而系统就能持续了解在用户的特定环境中,真正的正常和异常是什么,并随时自动调整该阈值。动态阈值将大大减少错误警报并提供一系列后台动作用于异常自动监测。

3.3监控对象依赖关系学习引擎收敛告警信息

由于故障的传播特性,当一点发生故障时,会在多点引发告警产生,形成告警风暴,如传输网上的光纤出现问题,不仅会在传输网管上产生告警信息,也会在交换和接入网上产生关联告警,管理人员要在大量的告警中及时准确地确定故障点和故障原因。如果IT监管系统能够将管理人员的经验进行系统化,自动分析IT元素间的物理、逻辑关系并按照事件内容进行关联分析,过滤次要的衍生告警,定位告警根源、关联呈现告警范围,则可帮助运维人员根据运维优先级进行告警的快速定位与解决。

云南玉溪供电局采用的告警根源分析方法主要包含如下:

A物理、逻辑访问关系链路梳理、降维:系统将归集到的信息,通过分析IT元素内部、外部之间的业务范围关系、逻辑访问关系、配置管理信息,并实现关系链路的降维处理,将原本单一IT元素与周边元素间的网状关系,梳理为从发起端元素到末端元素的单一链路关系。

B链路匹配:系统将归集到的各IT元素的告警信息,根据“物理、逻辑访问关系链路梳理、降维”处理后的关系链路进行匹配,形成每个单一链路间各IT子元素的链路总览。

C时间匹配与事件链路叠加:系统根据告警信息的时间有效性、持续性、时延,存储事件信息到每个单一链路中,进行各链路的事件总览。

D权重面积计算:系统根据各链路告警的IT子元素的指标信息、其他IT子元素的告警信息,按照告警前、后数据进行各IT子元素的数据波动率计算,如其它IT子元素的数据波动率超过告警IT子元素的数据波动率,则该子元素纳入告警的整体权重面积中。

E噪点过滤:根据整体权重面积纳入的子元素点,取出这些指标中以往数据的数据波动性、周边关联指标数据的波动性,过滤次分影响内容,最终得出告警根源。

3.4WEB-RDP远程桌面切换与登录实现界面一体化整合

DRP协议是国际电信联盟(ITU)指定的T.120协议族的扩展协议,它提供了一套完整的通信机制,先将客户端的输入信息(来自鼠标、键盘的活动)封装成网络数据包,然后发送给服务器,服务器将处理结果封装后返回给客户端。RDP客户端可以是windows或Linux等类型的操作系统,同时随着厂家的开放,客户端也在web中逐步被应用推广。

对于无法进行二次开发提供数据或服务的系统,且无法快速集成原传输网管业务开通办理、多桌面软件无法集成在同一个服务器进行集中管理等场景,基于B/S架构采用WEB-RDP远程桌面访问可快速实现一站式web集成管理。其中在资源配置管理中记录各监控节点对应的厂家传输网管信息,但管理人员需要在厂家传输网管软件上面操作这些监控节点,直接在平台中点击后,平台后台自动输出对应网管系统的账号密码脚本,上传到网管系统所在的服务器中,由“鼠标键盘动作点击软件”根据脚本自动打开并登录厂家传输网管软件,在由平台前台切换到该厂家传输网管软件对应操作系统的远程桌面中,节省了管理人员进行屏幕切换与功能操作时间,也支持通过移动终端进行页面访问,提高了整体操作体验。

4.结语

一站式WEB集中传输网管管理平台,通过数据集采与桌面操作交互,实现多个传输网管软件中从端到端资源关系统一配置管理、监控数据统一记录、告警集中管理关联分析及统一通知渠道推送,到桌面窗口集中统管与自动切换、登录,期间结合了消息队列避免海量数据丢失、指标告警阈值自动调整、告警信息收敛定位根源内容等技术手段与规则引擎降低运维管理工作量,整合桌面应用并统一以WEB端方式呈现解决了非值班状态无法快速配合支撑的生产难点,平台高效提升了玉溪供电局传输网管理的工作效率,完成全局掌控总览、降低软件操作与交互复杂性,未来进一步完善自动发现自动入库规则、增加端到端业务层级监控及自动化运维管理,构建更加智能化的集中管理平台,节省人力成本、提高传输网管理工作效率与质量,以上的解决方案,希望对无法替换与互通的传输网管等桌面应用进行集中管理的需求提供借鉴与帮助。

参考文献:

[1]张旭,胡楠,刘飞鹏,等.电力通信综合网管系统研究.通讯世界.2016年11月下

[2]李志敏,赵晴,等.综合网管告警数据缺失原因与解决策略分析.移动通信.2015年第3-4期

[3]胡丹,王伟,汪鑫,张先亮,等.简述电力通信调度网统一网管平台的实现.无线互联科技.2016年10月第19期

[4]http://support.microsoft.com/kb/186607.2018年4月20日

标签:;  ;  ;  

基于新技术架构一站式整合多传输网管应用的实践
下载Doc文档

猜你喜欢