论文摘要
"1331"工程依托大数据与智能技术山西生协同创新中心平台建设山西省职业教育大数据分析与决策平台。决策平台要使用哪些数据进行分析并决策出最终的结果。指标数据是通过分析国家标准指标库和各个升级标准指标库来确定要分析的数据指标项。决策平台要使用的一部分数据就来自各个中职学校的年报。人工梳理年报文档中的数据会耗费大量的人力和时间。本文提出基于文本处理的指标数据自动提取。本文使用jieba算法对文本数据进行指标数据处理。首先通过人工分析国标与各个省级标准指标库确定指标数据向,从而确定词典库,再使用TextRank算法文本分词并提取。由于年报文档中的数据时按模块进行书写的并且希望提取的数据也按原稳定的模块顺序进行呈现,TextRank是按整句进行预处理,所以不会破坏文章的顺序结构。
论文目录
文章来源
类型: 期刊论文
作者: 吴俊杰,秦晨
关键词: 文本处理,关键词提取,算法
来源: 科技创新导报 2019年30期
年度: 2019
分类: 经济与管理科学,信息科技
专业: 计算机软件及计算机应用
单位: 太原师范学院
分类号: TP391.1
DOI: 10.16660/j.cnki.1674-098X.2019.30.107
页码: 107+109
总页数: 2
文件大小: 1628K
下载量: 61