【目的】将词节点移除融入TextRank算法,提升中文文本关键词抽取效果。【方法】提出中文关键词抽取改进算法RemoveRank。通过引入词节点移除的方式,交替进行排序步骤与移除步骤,综合考虑词图的复杂网络结构特性,将移除队列作为词节点排序结果,实现关键词的抽取。【结果】利用南方周末网络带关键词标注数据集进行实验评估,实验结果表明,引入词节点移除的方式优于传统算法,在关键词抽取数量分别取3, 5, 7时,其F值相比TextRank方法分别提高4%, 6%, 5%。【局限】构建词图时只考虑词节点是否连通,尚未考虑词节点连边的权重。【结论】在合适的滑动窗口取值下,RemoveRank算法可以有效地完成关键词抽取工作。
类型: 期刊论文
作者: 王安,顾益军,李坤明,李文政
关键词: 抽取,图模型,词语节点,子图划分
来源: 数据分析与知识发现 2019年11期
年度: 2019
分类: 信息科技,基础科学
专业: 数学,计算机软件及计算机应用
单位: 中国人民公安大学信息技术与网络安全学院
基金: 国家重点研发计划项目(项目编号:2017YFC0820100)的研究成果之一
分类号: TP391.1;O157.5
页码: 35-42
总页数: 8
文件大小: 1209K
下载量: 207
本文来源: https://www.lunwen90.cn/article/5760437192e5150b3b097d2e.html