Print

网络谣言敏感词库的构建研究——以新浪微博谣言为例

论文摘要

[目的/意义]网络谣言严重影响网络正常信息的传播,对网络谣言进行识别有着重要的现实意义。笔者构建一个基于微博的网络谣言敏感词库,以提高网络谣言的识别精度。[方法/过程]针对微博类社交平台短文本的特点,首先舍弃传统的分词算法,设计LBCP抽词算法,并结合位置信息和改进的TF-IDF权重来提取敏感词库的种子词集,然后通过聚类算法将种子词的近义词补充到词库中,再将常用的替代词也加入到词库中,从而得到最终的敏感词库。[结果/结论 ]利用敏感词特征对谣言进行判断,在提取微博的内容特征、用户特征、传播特征以及情感分析特征的基础上,新增敏感词特征以后谣言识别率有明显提升,得到较好的识别效果。

论文目录

  • 1 引言
  • 2 相关工作
  • 3 谣言敏感词库设计
  •   3.1 谣言敏感词库构建的困难
  •   3.2 总体设计
  •   3.3 LBCP抽词算法
  •     3.3.1 内聚度
  •     3.3.2 外聚度
  •     3.3.3 改进的TF-IDF权重
  •     3.3.4 位置权重
  •     3.3.5 抽词算法流程
  •   3.4 扩展词集
  •     3.4.1 近似词集
  •     3.4.2 关联词集
  •     3.4.3 替代词集
  • 4 实验
  •   4.1 数据集
  •   4.2 提取种子词集
  •   4.3 种子词集的扩展
  •   4.4 微博谣言识别
  • 5 结语
  • 文章来源

    类型: 期刊论文

    作者: 夏松,林荣蓉,刘勘

    关键词: 敏感词库,词向量,特征空间,网络谣言

    来源: 知识管理论坛 2019年05期

    年度: 2019

    分类: 信息科技

    专业: 计算机软件及计算机应用,新闻与传媒

    单位: 中南财经政法大学信息与安全工程学院

    基金: 国家社会科学基金资助项目“基于文本挖掘的网络谣言预判研究”(项目编号:14BXW033)研究成果之一

    分类号: TP391.1;G206

    DOI: 10.13266/j.issn.2095-5472.2019.028

    页码: 267-275

    总页数: 9

    文件大小: 1592K

    下载量: 499

    相关论文文献

    本文来源: https://www.lunwen90.cn/article/233f0fc74d808f22fc18a462.html