基于复杂网络词节点移除的关键词抽取方法

基于复杂网络词节点移除的关键词抽取方法

论文摘要

【目的】将词节点移除融入TextRank算法,提升中文文本关键词抽取效果。【方法】提出中文关键词抽取改进算法RemoveRank。通过引入词节点移除的方式,交替进行排序步骤与移除步骤,综合考虑词图的复杂网络结构特性,将移除队列作为词节点排序结果,实现关键词的抽取。【结果】利用南方周末网络带关键词标注数据集进行实验评估,实验结果表明,引入词节点移除的方式优于传统算法,在关键词抽取数量分别取3, 5, 7时,其F值相比TextRank方法分别提高4%, 6%, 5%。【局限】构建词图时只考虑词节点是否连通,尚未考虑词节点连边的权重。【结论】在合适的滑动窗口取值下,RemoveRank算法可以有效地完成关键词抽取工作。

论文目录

  • 1 引言
  • 2 相关研究
  • 3 研究方法
  •   3.1 词图的构建
  •   3.2 词图网络的子网划分与节点排序
  • 4 实验
  •   4.1 实验环境
  •   4.2 实验数据处理
  •   4.3 实验设计与结果分析
  • 5 结语
  • 作者贡献声明:
  • 利益冲突声明:
  • 支撑数据:
  • 文章来源

    类型: 期刊论文

    作者: 王安,顾益军,李坤明,李文政

    关键词: 抽取,图模型,词语节点,子图划分

    来源: 数据分析与知识发现 2019年11期

    年度: 2019

    分类: 信息科技,基础科学

    专业: 数学,计算机软件及计算机应用

    单位: 中国人民公安大学信息技术与网络安全学院

    基金: 国家重点研发计划项目(项目编号:2017YFC0820100)的研究成果之一

    分类号: TP391.1;O157.5

    页码: 35-42

    总页数: 8

    文件大小: 1209K

    下载量: 207

    相关论文文献

    标签:;  ;  ;  ;  

    基于复杂网络词节点移除的关键词抽取方法
    下载Doc文档

    猜你喜欢