一种基于Word2vec的敏感内容识别技术

论文摘要

随着数据量的爆炸式增长,企业面临数据安全防护的难题,尤其是文本数据的安全防护。传统的精确匹配识别文本中敏感词的方法,因存在相似词而导致遗漏,造成数据泄露。于是,提出了一种基于Word2vec结合人工设定的不同等级敏感词识别技术,从语义层面识别文本中的敏感词,并根据提出的敏感度模型计算文本敏感度,判断文本敏感等级。实验结果表明,与传统方法相比,提出的技术方法能够更准确、全面地识别文本敏感内容,并确定文本敏感等级。

论文目录

0 引言

1 词向量Word2vec

1.1 词向量Word2vec技术介绍

1.2 Word2vec训练词向量

2 基于Word2vec的敏感内容识别

2.1 算法设计

2.2 算法实现

2.2.1 前期准备——训练Word2vec模型

2.2.2 数据预处理

2.2.3 关键词提取

2.2.4 计算文本敏感度

3 实验及结果

3.1 实验数据

3.2 实例分析

4 结语

文章来源

类型: 期刊论文

作者: 金贵涛,石元兵,魏忠,王雍,刘峻豪

关键词: 敏感词,算法,文本敏感等级

来源: 通信技术 2019年11期

年度: 2019

分类: 信息科技

专业: 计算机软件及计算机应用

单位: 卫士通信息产业股份有限公司

基金: “核高基”国家科技重大专项(No.2017ZX01030-201)~~

分类号: TP309;TP391.1

页码: 2750-2756

总页数: 7

文件大小: 1880K

下载量: 136

一种基于Word2vec的敏感内容识别技术

论文摘要

论文目录

文章来源

相关论文文献