基于融合共现距离的句法网络下文本语义相似度计算

论文摘要

【目的】综合语义、句法和词频等多种文本信息特征,突破现有文本相似度计算的局限。【方法】构建融合共现距离和依存句法的文本复杂网络,运用信息熵确定网络动力学特征指标的权重。利用词嵌入、句法结构和倒排档信息避免词语结构和语义的缺失。【结果】对比实验结果表明,不同类别下本文算法分类效果的F1值较句法网络+TF-IDF方法最高提高12.1%,比共现网络+语义方法最高提高5.8%。本文算法的各类别分类效果的平均F1值较二者分别提高5.8%和1.6%。【局限】特征提取中对各指标的选取有待改进,以更全面地区分节点间的重要性。【结论】与传统方法相比,本文算法减少了文本信息流失并实现文本降维,有效地提高了文本相似度计算的准确率。

论文目录

1 引言

2 融合共现距离的句法网络模型构建及特征提取

2.1 依存句法

2.2 句法网络构建

2.3 文本特征提取

3 结合句法关系和词汇语义的文本相似度计算

3.1 TF-IDF

3.2 余弦相似度

3.3 文本语义相似度计算

3.4 算法流程

4 实验设计与分析

4.1 实验数据及方法

4.2 实验结果分析

5 结语

文章来源

类型: 期刊论文

作者: 严娇,马静,房康

关键词: 依存句法,文本复杂网络,语义相似度,共现距离,特征提取

来源: 数据分析与知识发现 2019年12期

年度: 2019

分类: 信息科技

专业: 计算机软件及计算机应用

单位: 南京航空航天大学经济与管理学院,南京大学计算机科学与技术系

基金: 国家自然科学基金项目“基于演化本体的网络舆情自适应话题跟踪方法研究”(项目编号:71373123),中央高校基本科研业务费专项前瞻性发展策略研究资助项目“基于大数据技术的跨境电商政府管理范式研究”(项目编号:NW2018004)的研究成果之一

分类号: TP391.1

页码: 93-100

总页数: 8

文件大小: 1805K

下载量: 337

基于融合共现距离的句法网络下文本语义相似度计算

论文摘要

论文目录

文章来源

相关论文文献

猜你喜欢