论文摘要
【目的】综合语义、句法和词频等多种文本信息特征,突破现有文本相似度计算的局限。【方法】构建融合共现距离和依存句法的文本复杂网络,运用信息熵确定网络动力学特征指标的权重。利用词嵌入、句法结构和倒排档信息避免词语结构和语义的缺失。【结果】对比实验结果表明,不同类别下本文算法分类效果的F1值较句法网络+TF-IDF方法最高提高12.1%,比共现网络+语义方法最高提高5.8%。本文算法的各类别分类效果的平均F1值较二者分别提高5.8%和1.6%。【局限】特征提取中对各指标的选取有待改进,以更全面地区分节点间的重要性。【结论】与传统方法相比,本文算法减少了文本信息流失并实现文本降维,有效地提高了文本相似度计算的准确率。
论文目录
文章来源
类型: 期刊论文
作者: 严娇,马静,房康
关键词: 依存句法,文本复杂网络,语义相似度,共现距离,特征提取
来源: 数据分析与知识发现 2019年12期
年度: 2019
分类: 信息科技
专业: 计算机软件及计算机应用
单位: 南京航空航天大学经济与管理学院,南京大学计算机科学与技术系
基金: 国家自然科学基金项目“基于演化本体的网络舆情自适应话题跟踪方法研究”(项目编号:71373123),中央高校基本科研业务费专项前瞻性发展策略研究资助项目“基于大数据技术的跨境电商政府管理范式研究”(项目编号:NW2018004)的研究成果之一
分类号: TP391.1
页码: 93-100
总页数: 8
文件大小: 1805K
下载量: 337