齐勇
浙江省邮电工程建设有限公司310000
摘要:随着国家电网公司信息化建设的深入,公司积累的数据体量大、结构类型多、应用价值高等特征日益明显,迫切需要大数据技术提供数据存储、处理、价值挖掘等服务。本文从基层供电公司的角度出发,概要介绍了电网行业的大数据特征以及大数据技术在配网生产领域的应用。
关键词:供电公司;信息系统;大数据;数据存储;数据挖掘
随着全球信息化的不断发展,数据成为越来越重要的国家战略资源。基于大数据技术的平台建设和应用研究已渗透到各行各业中。随着近几年电网行业信息化建设的不断深入,特别是智能电网的全面建设,以物联网、云计算为代表的IT新技术在电网行业得到越来越广泛的应用。国家电网公司高度重视大数据的应用及相关技术研究。但是对于目前积累的数据缺乏有效管理,数据量越来越大、电网业务越来越复杂,对于数据的处理技术也愈显无力,这些制约了国网信息化向智能化的发展。
一、电力行业数据来源
电力行业数据的数据来源主要是信息系统的应用,例如电网营销领域的营销业务应用系统和用电信息采集系统、生产领域的PMS、调度的SCADA等。数据的产生一方面来源于系统用户的输入,另一方面来源于智能采集终端的采集,且以第二种方式为主。现有的电网业务数据以结构化数据为主,音频、视频等非结构化数据为辅。
二、电力行业数据特征
电力大数据是大数据理论、技术和思想在电力行业的实践,其提供了从数据采集、存储、处理、分析挖掘到可视化展示的一整套解决方案。
(1)体量大。从TB级别跃升到PB级别。目前电网信息化建设实现了数据的实时采集和传输,间隔达到秒级,数据量以指数级增长。但是对于这些海量数据的存储和应用目前还存在着技术瓶颈,数据价值尚未挖掘。
(2)类型多。电力行业的数据类型包括结构化、半结构化和非结构化数据。随着信息系统的建设,非结构化数据越来越多,例如图片、音频、视频等。此外,为保障可靠供电,电网公司需要能源数据、气象数据等外部数据。这些就造成电网数据类型越来越多。
(3)价值密度低。数据的价值在于从海量数据中发掘信息。以输变电设备检测系统中的数据为例,所采集数据中,大部分是正常数据,只有相对极少量的异常数据,而该异常数据是设备状态的关键数据。
(4)处理速度快。在数据辅助决策方面,对数据进行实时、在线处理的要求越来越高,数据的处理速度必须能够满足决策制定的要求,在秒级内对海量数据进行关联分析,以支撑决策制定。
(5)交互特征。电网企业正经历从“以电力生产为中心”向“以客户为中心”的角色转变,客户对供电服务的满意度成为越来越重要的电网企业考核标准,需求侧管理成为未来信息化建设的重要方向,以此,电网企业可以通过数据分析与挖掘更好地了解客户的个性化需求,从而提供增值的电力服务。另一方面,电网数据的交互特征还体现在用电客户在用电高峰期向电网供电。
三、电力行业大数据关键技术
1、电力大数据体系架构
电力大数据体系架构如图1所示,首先将来自不同业务系统的数据进行接入、贯通,在此基础上进行业务分析、企业级应用研发,最终通过统一数据门户将结果展示相关部门用户。在整个过程中,数据管控成为企业级应用的重要部分,包括数据安全管理、系统运维管理、元数据管理、数据质量管理和应用管理。
2、大数据关键技术
2.1数据存储
传统的分布式文件系统可以适应不断增长的海量数据,但由于数据的计算与存储是分离的,随着数据量的快速增长,网络带宽会成为瓶颈。因此,新型的分布式文件系统通过数据计算、存储绑定的策略,有效解决了海量数据的增长问题。新型的分布式文件系统,其物理存储资源并不直接连在本地节点上,而是通过计算机网络与节点连接。新型分布式文件系统是基于客户机/服务器的模式。
2.2数据挖掘技术
数据挖掘是一个知识发现过程,包括如下处理过程:数据清洗、数据转换、数据加载、关联分析、数据挖掘和结果表达等。数据挖掘的任务是通过统计、聚类分析、回归分析、自定义模型设计等发掘数据所包含的潜在信息。典型的数据挖掘流程如图2所示。
2.3大数据处理计算技术大数据处理的问题越来越复杂,近几年,在学术界和业界的不断尝试下,根据不同的应用场景和处理需求,总结出几种典型的大数据计算模式,包括Hadoop团队研发的Hbase和Hive、Facebook的Cassandra、Google的Dremel和Cloudera的实时查询引擎Impala等。
目前,在业界应用最广泛的是大数据批处理技术MapReduce,它分MAP和Reduce两个处理过程,采用“分而治之”的思想进行并行处理,提高了数据处理效率,在一定程度上满足了大数据对于数据处理速度的需求。另外,MapReduce还提供了统一的并行计算框架,降低了系统开发人员进行并行程序设计的难度。
2.4数据可视化技术
数据可视化技术是将数据以非数据表格或者文本的形式展示,而是以方便数据使用人员能够直观地发现数据所要表达的信息为宗旨进行展示,例如,它通过气泡图、热场图、矩阵图、树图等形式展示数据,使得数据使用人员能够从宏观上掌握数据所包含的信息。数据可视化可以为数据挖掘人员提供分析思路、指导挖掘方向。
四、供电公司大数据应用
电力大数据应用的主要目的是使数据资源成为电网公司的核心资产之一,电力数据创造价值的途径包括:(1)促进电力数据在电网不同业务领域的横向和纵向流动、贯通;(2)加强电力数据关联利用,提高电网运营效率;(3)挖掘电力数据潜在价值,发挥电力数据对电网以及社会的应用潜力。
1、配网营销领域
1.1计量装置在线监测与智能诊断
通过对影响集采装置的采集成功率的因素进行分析,找出采集失败原因,并迅速解决,保证数据采集的成功率。通过在线监测与智能诊断,能够降低故障发现和维修的成本。
1.2采集数据审计与数据修复
数据的多源性和多样性,必然导致数据质量存在差异,严重影响到数据的可用性。由于数据量的大规模性,即使错误数据的相对比例不大,而绝对的错误数据量也是非常可观的。通过对全量数据进行分析、挖掘、摸索规律,可以对数据的真实性进行验证;通过对原始数据进行分析、迭代论证,将缺失数据进行修复。
1.3需求侧管理
需求侧数据管理包括满足客户个性化需求、提高客户服务质量。一方面,通过对用户的用电行为、消费水平、兴趣爱好、身份信息进行综合分析和深度挖掘,发现其潜在需求,从而有针对性的提供服务。另一方面,在提高客户服务水平方面,对电网现阶段服务保障水平进行客观评估,提供用户侧交互数据,通过分析客服数据和电网其它业务系统中的数据之间的关联关系,及时发现电网薄弱环节并进行相应的改善,缩短故障响应及恢复时限,提高供电可靠性。
深化能效管理也是需求侧管理的重要组成部分,通过用能监测、分析等,为用户提供科学的用电优化建议,从而提高客户服务质量。
2、配网生产领域
通过大数据存储、全量分析挖掘与可视化技术可以实现对配网运行数据的实时监控、分析,从而保证电网安全稳定运行、对外可靠供电、各类电力生产有序进行。当配网线路出现故障断电时,通过对线路潮流信息的分析、挖掘、可视化展示,实现快速故障定位以及故障原因分析,提高电网运维效率,保障供电的可靠性,降低线路故障造成的经济损失及人工巡查成本。
3、其它
数据的价值随着共享程度提高而增大,电力数据采集覆盖率高、完整度高、细粒度高、时效性高,并且直接来自设备,正确性高,是可贵的数据资源。将电力数据与地方经济指标进行关联分析,应用于对经济发展水平、产业分布状况和发展趋势的分析、验证与预测,可以为政府提供地区经济预测与告警,为宏观政策制定提供理论支撑。电力数据与气象、交通、电动汽车等数据结合,是智慧城市建设的必要基础,也能为居民和其它各类用户提供快速准确的信息。
作者简介:
齐勇,(1976.1--),男,江西省乐平县人,郑州工业高等专科学校。