基于融合共现距离的句法网络下文本语义相似度计算

基于融合共现距离的句法网络下文本语义相似度计算

论文摘要

【目的】综合语义、句法和词频等多种文本信息特征,突破现有文本相似度计算的局限。【方法】构建融合共现距离和依存句法的文本复杂网络,运用信息熵确定网络动力学特征指标的权重。利用词嵌入、句法结构和倒排档信息避免词语结构和语义的缺失。【结果】对比实验结果表明,不同类别下本文算法分类效果的F1值较句法网络+TF-IDF方法最高提高12.1%,比共现网络+语义方法最高提高5.8%。本文算法的各类别分类效果的平均F1值较二者分别提高5.8%和1.6%。【局限】特征提取中对各指标的选取有待改进,以更全面地区分节点间的重要性。【结论】与传统方法相比,本文算法减少了文本信息流失并实现文本降维,有效地提高了文本相似度计算的准确率。

论文目录

  • 1 引言
  • 2 融合共现距离的句法网络模型构建及特征提取
  •   2.1 依存句法
  •   2.2 句法网络构建
  •   2.3 文本特征提取
  • 3 结合句法关系和词汇语义的文本相似度计算
  •   3.1 TF-IDF
  •   3.2 余弦相似度
  •   3.3 文本语义相似度计算
  •   3.4 算法流程
  • 4 实验设计与分析
  •   4.1 实验数据及方法
  •   4.2 实验结果分析
  • 5 结语
  • 文章来源

    类型: 期刊论文

    作者: 严娇,马静,房康

    关键词: 依存句法,文本复杂网络,语义相似度,共现距离,特征提取

    来源: 数据分析与知识发现 2019年12期

    年度: 2019

    分类: 信息科技

    专业: 计算机软件及计算机应用

    单位: 南京航空航天大学经济与管理学院,南京大学计算机科学与技术系

    基金: 国家自然科学基金项目“基于演化本体的网络舆情自适应话题跟踪方法研究”(项目编号:71373123),中央高校基本科研业务费专项前瞻性发展策略研究资助项目“基于大数据技术的跨境电商政府管理范式研究”(项目编号:NW2018004)的研究成果之一

    分类号: TP391.1

    页码: 93-100

    总页数: 8

    文件大小: 1805K

    下载量: 337

    相关论文文献

    标签:;  ;  ;  ;  ;  

    基于融合共现距离的句法网络下文本语义相似度计算
    下载Doc文档

    猜你喜欢