Print

一种基于Word2vec的敏感内容识别技术

论文摘要

随着数据量的爆炸式增长,企业面临数据安全防护的难题,尤其是文本数据的安全防护。传统的精确匹配识别文本中敏感词的方法,因存在相似词而导致遗漏,造成数据泄露。于是,提出了一种基于Word2vec结合人工设定的不同等级敏感词识别技术,从语义层面识别文本中的敏感词,并根据提出的敏感度模型计算文本敏感度,判断文本敏感等级。实验结果表明,与传统方法相比,提出的技术方法能够更准确、全面地识别文本敏感内容,并确定文本敏感等级。

论文目录

  • 0 引言
  • 1 词向量Word2vec
  •   1.1 词向量Word2vec技术介绍
  •   1.2 Word2vec训练词向量
  • 2 基于Word2vec的敏感内容识别
  •   2.1 算法设计
  •   2.2 算法实现
  •     2.2.1 前期准备——训练Word2vec模型
  •     2.2.2 数据预处理
  •     2.2.3 关键词提取
  •     2.2.4 计算文本敏感度
  • 3 实验及结果
  •   3.1 实验数据
  •   3.2 实例分析
  • 4 结语
  • 文章来源

    类型: 期刊论文

    作者: 金贵涛,石元兵,魏忠,王雍,刘峻豪

    关键词: 敏感词,算法,文本敏感等级

    来源: 通信技术 2019年11期

    年度: 2019

    分类: 信息科技

    专业: 计算机软件及计算机应用

    单位: 卫士通信息产业股份有限公司

    基金: “核高基”国家科技重大专项(No.2017ZX01030-201)~~

    分类号: TP309;TP391.1

    页码: 2750-2756

    总页数: 7

    文件大小: 1880K

    下载量: 136

    相关论文文献

    本文来源: https://www.lunwen90.cn/article/4206b325dc98d2561560e999.html