基于文本处理的指标数据提取

论文摘要

"1331"工程依托大数据与智能技术山西生协同创新中心平台建设山西省职业教育大数据分析与决策平台。决策平台要使用哪些数据进行分析并决策出最终的结果。指标数据是通过分析国家标准指标库和各个升级标准指标库来确定要分析的数据指标项。决策平台要使用的一部分数据就来自各个中职学校的年报。人工梳理年报文档中的数据会耗费大量的人力和时间。本文提出基于文本处理的指标数据自动提取。本文使用jieba算法对文本数据进行指标数据处理。首先通过人工分析国标与各个省级标准指标库确定指标数据向,从而确定词典库,再使用TextRank算法文本分词并提取。由于年报文档中的数据时按模块进行书写的并且希望提取的数据也按原稳定的模块顺序进行呈现,TextRank是按整句进行预处理,所以不会破坏文章的顺序结构。

论文目录

1 基于jieba算法的关键字提取

1.1 jieba词库

1.2 新词识别

1.3 关键词提取

2 基于距离的TextRank算法的优点

3 实验与结果分析

4 结语

文章来源

类型: 期刊论文

作者: 吴俊杰,秦晨

关键词: 文本处理,关键词提取,算法

来源: 科技创新导报 2019年30期

年度: 2019

分类: 经济与管理科学,信息科技

专业: 计算机软件及计算机应用

单位: 太原师范学院

分类号: TP391.1

DOI: 10.16660/j.cnki.1674-098X.2019.30.107

页码: 107+109

总页数: 2

文件大小: 1628K

下载量: 61

基于文本处理的指标数据提取

论文摘要

论文目录

文章来源

相关论文文献

猜你喜欢