基于Gensim的摘要自动生成算法研究与实现

基于Gensim的摘要自动生成算法研究与实现

论文摘要

为了让计算机能够对中文文章提取摘要,提出一种中文摘要自动生成算法。该算法基于Gensim自然语言处理框架实现,并在原有的基础上做出了改进,算法主要分为两个阶段。关键句生成阶段,对中文语料进行预处理,并放入Gensim框架中的Word2vec模型进行训练,修改TextRank算法使其能够接受词向量的输入生成无向图从而找到关键句;摘要生成框架构建阶段,根据文章结构与Gensim框架中的LDA主题模型所提取的关键词,赋予句子不同的权值,将分数高的几个句子组合生成文章摘要。Rouge摘要评测结果表明,该算法生成的摘要能够包含文章关键信息,相比于其他自动文摘算法,句意通顺程度得到了提升。

论文目录

  • 0 引 言
  • 1 Gensim框架的应用
  •   1.1 文本向量化
  •   1.2 挖掘关键句
  •   1.3 验证句子关键程度
  • 2 关键句提取算法
  •   2.1 词向量模型训练
  •   2.2 基于词向量的TextRank
  • 3 构建摘要生成框架
  •   3.1 文章结构权值分配
  •   3.2 关键词个数权值分配
  • 4 实 验
  •   4.1 不同权值对结果的影响
  •   4.2 Rouge摘要评测结果
  •   4.3 对比人工摘要结果示例
  • 5 结 语
  • 文章来源

    类型: 期刊论文

    作者: 肖元君,吴国文

    关键词: 框架,模型,算法,摘要生成框架,主题模型,摘要评测

    来源: 计算机应用与软件 2019年12期

    年度: 2019

    分类: 信息科技

    专业: 计算机软件及计算机应用

    单位: 东华大学计算机科学与技术学院

    基金: 国家自然科学基金项目(61472075)

    分类号: TP391.1

    页码: 131-136

    总页数: 6

    文件大小: 468K

    下载量: 290

    相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    基于Gensim的摘要自动生成算法研究与实现
    下载Doc文档

    猜你喜欢