基于隐马尔科夫和主成分分析的电网数据词典构建

论文摘要

电网企业拥有海量采用中文记录的非结构化文本信息,其中包含有大量重要的可靠性统计信息。但依靠人工对其进行挖掘不仅效率低而且准确性因人而异。如何高效、准确、智能地挖掘电网企业设备缺陷文本中重要的可靠性统计信息是目前亟待解决的问题。文章基于改式隐式马尔科夫算法对通过全过程技术监督工作采集的非结构化文本数据进行分句分词,制定研究非结构化数据的结构化表达规则。利用主成分分析、词向量以及深度神经网络等的自然语言处理算法对现有的问题描述文本中的同名词、同义词以及近义词等的语义相似度进行计算,并采用K阶近邻算法对降维后的词向量进行分类聚类。上述工作解决了缺陷文本句子成分难以划分、数字量无法精确提取等问题,形成一份国网系统运检专业领域的数据词典库,为电网领域的非结构化数据挖掘提供了新技术,为今后技术监督工作的展开具有重要意义和贡献。

论文目录

1 基本理论

1.1 隐马尔科夫模型

1.2 文本分类算法

2 模型

2.1 HMM分词模型

2.1.1 HMM模型分词过程

2.1.2 HMM分词模型的改进

2.2 PCA-KNN方法分类框架

2.2.1 中文词向量

2.2.2 PCA降维

2.2.3 文本分类算法

2.2.4 文本评估方法

3 结论

文章来源

类型: 期刊论文

作者: 秦欢,门业堃,于钊,叶宽,侯宇程,孙致远

关键词: 文本分类,分词,隐马尔可夫,技术监督

来源: 电力大数据 2019年01期

年度: 2019

分类: 工程科技Ⅱ辑,信息科技,经济与管理科学

专业: 电力工业,计算机软件及计算机应用,工业经济

单位: 国网北京市电力公司电力科学研究院

分类号: TP391.1;F426.61

DOI: 10.19317/j.cnki.1008-083x.2019.01.003

页码: 16-21

总页数: 6

文件大小: 296K

下载量: 214

基于隐马尔科夫和主成分分析的电网数据词典构建

论文摘要

论文目录

文章来源

相关论文文献

猜你喜欢