网络谣言敏感词库的构建研究——以新浪微博谣言为例

论文摘要

[目的/意义]网络谣言严重影响网络正常信息的传播,对网络谣言进行识别有着重要的现实意义。笔者构建一个基于微博的网络谣言敏感词库,以提高网络谣言的识别精度。[方法/过程]针对微博类社交平台短文本的特点,首先舍弃传统的分词算法,设计LBCP抽词算法,并结合位置信息和改进的TF-IDF权重来提取敏感词库的种子词集,然后通过聚类算法将种子词的近义词补充到词库中,再将常用的替代词也加入到词库中,从而得到最终的敏感词库。[结果/结论 ]利用敏感词特征对谣言进行判断,在提取微博的内容特征、用户特征、传播特征以及情感分析特征的基础上,新增敏感词特征以后谣言识别率有明显提升,得到较好的识别效果。

论文目录

1 引言

2 相关工作

3 谣言敏感词库设计

3.1 谣言敏感词库构建的困难

3.2 总体设计

3.3 LBCP抽词算法

3.3.1 内聚度

3.3.2 外聚度

3.3.3 改进的TF-IDF权重

3.3.4 位置权重

3.3.5 抽词算法流程

3.4 扩展词集

3.4.1 近似词集

3.4.2 关联词集

3.4.3 替代词集

4 实验

4.1 数据集

4.2 提取种子词集

4.3 种子词集的扩展

4.4 微博谣言识别

5 结语

文章来源

类型: 期刊论文

作者: 夏松,林荣蓉,刘勘

关键词: 敏感词库,词向量,特征空间,网络谣言

来源: 知识管理论坛 2019年05期

年度: 2019

分类: 信息科技

专业: 计算机软件及计算机应用,新闻与传媒

单位: 中南财经政法大学信息与安全工程学院

基金: 国家社会科学基金资助项目“基于文本挖掘的网络谣言预判研究”(项目编号：14BXW033)研究成果之一

分类号: TP391.1;G206

DOI: 10.13266/j.issn.2095-5472.2019.028

页码: 267-275

总页数: 9

文件大小: 1592K

下载量: 499

网络谣言敏感词库的构建研究——以新浪微博谣言为例

论文摘要

论文目录

文章来源

相关论文文献