文本过滤论文_管江红

导读:本文包含了文本过滤论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:文本,维吾尔,神经网络,语义,模型,不良,主题。

文本过滤论文文献综述

管江红[1](2019)在《基于χ~2统计量的不良文本过滤特征选择方法》一文中研究指出针对现有以χ~2统计量为基础的特征选择方法在不良文本过滤过程中效果欠佳的问题,利用双层分类对特征选择方法进行改良,提出一种不良文本过滤特征选择方法。首先通过改良逆文档频率来区分特征项在所属类别类内与其他类别之间的分布差别;其次,引入逆类别频率弥补抑制强度;最后,加入逆上层类别频率,清晰划分具有较高相似度的某两类二层类别。所改良的特征选择方法能够弥补现有χ~2统计量在类内/类间特征项分布情况判别能力的缺陷,将其应用于不良文本过滤过程,能够充分贴合不良文本过滤过程的特征选择需求。通过对比评估指标的结果,表明所提方法在不良文本过滤领域具有更好的效果。(本文来源于《现代电子技术》期刊2019年21期)

曹春萍,武婷[2](2019)在《多主题下基于LSTM语义关联的长文本过滤研究》一文中研究指出现如今互联网上出现了很多评论性文章,这些文章字符数多,且包含较多与主题无关的信息,会影响后续的文本分析任务的性能。因此,针对传统的解决方案不能够对多主题长文本进行建模,以及现有的神经网络无法从相对较长的时间步长中捕获语义关联等问题,文中提出了一种结合单层神经网络和分层长短记忆网络的深度网络模型,并在长文本过滤任务中进行应用。该模型通过词语层LSTM网络获得句子内部词语之间的关系并得到具有语义的句向量,然后将句向量输入主题依赖度计算模型和句子层LSTM网络模型,进而得到句子与各主题类别的依赖度以及待过滤句子与其他句子之间的关联。最后,在从马蜂窝获取的游记数据集上进行的实验表明,该模型相比SVM、朴素贝叶斯、LSTM、Bi-LSTM等效果更好。(本文来源于《计算机技术与发展》期刊2019年11期)

刘子健[3](2019)在《基于深度学习的不文明文本过滤方法研究》一文中研究指出随着互联网的普及,网络社交平台已经深深的融入了人们的生活。人们可以自由的在微博、贴吧、新闻等网络平台上发表自己的观点。由于网络平台的开放性,网络平台中出现了很多不文明的语言,对网络环境造成了极大的负面影响。为了构建和谐的网络语言环境,本文对不文明文本的过滤进行了相关研究。针对网络文本数量巨大和形式多变的特点,本文将深度学习技术应用于不文明文本的分类识别。对比传统的过滤方法在分类识别的精度上取得了一定的提高。本文的主要工作包括以下叁个部分:第一,构建不文明文本数据集。目前对网络不文明文本的研究工作相对较少,没有标准的不文明文本数据集可供研究。针对数据匮乏的问题,本文爬取新浪微博、百度贴吧、腾讯新闻等相关网络平台的文本数据,制定数据筛选方法,通过人工标注的方式构建了一个不文明文本数据集。第二,构建不文明文本分类模型,区分不文明文本和正常文本。根据网络不文明文本的特点,引入卷积神经网络对不文明文本进行分类。针对不文明词汇在文本分词过程中精度不足的问题,本文构建了一种融合字粒度和词粒度特征提取的并行卷积神经网络模型(CW-CNN模型)。CW-CNN模型很好的解决了不文明词汇分词不准确导致的性能下降问题。CW-CNN模型对比词粒度特征输入的卷积神经网络模型,在精确率上提高了9.3%、召回率提高了9.9%、F1值提高了9.2%。第叁,构建不文明文本不文明程度分析模型,区分不文明程度高的文本和不文明程度低的文本。卷积神经网络模型在不文明文本分类任务上确实具有较好的效果,但是其在特征提取的时候受到卷积核大小的影响,只能提取文本的局部特征,无法捕获长距离词语之间的特征相关性,在不文明文本的不文明程度分析任务上卷积神经网络存在一定的不足。针对其不足,本文结合卷积神经网络、循环神经网络和注意力机制构建了一种用于不文明文本不文明程度分析的深度学习模型(BiLSTM-CNN模型)。通过实验对比,在不文明文本不文明程度分析上,BiLSTM-CNN模型比CW-CNN模型在精确率、召回率和F1值上均提高了约3.4%。(本文来源于《华中师范大学》期刊2019-05-01)

王杨,王非凡,张舒宜,黄少芬,许闪闪[4](2019)在《基于TF-IDF和改进BP神经网络的社交平台垃圾文本过滤》一文中研究指出近年来,随着生活节奏的提高和互联网的迅速发展,人们更倾向于在众多社交平台上用短文本进行交流,进而可能有人通过发布垃圾文本妨碍人们的正常社交,扰乱网络的绿色环境.为了解决这个问题,我们提出了基于TF-IDF和改进BP神经网络的社交平台垃圾文本检测的方法.通过该方法,实现对社交平台上的垃圾文本过滤.首先,通过结巴分词和去停分词构造关键词数据集;其次,对文本表示的关键词向量运用计算各关键词的权重从而对文本向量进行降维,得到特征向量;最后,在此基础上,运用BP神经网络分类器对短文本进行分类,检测出垃圾文本并进行过滤.实验结果表明用该方法在1000维文本特征向量的情况下分类平均准确率达到了97.720%.(本文来源于《计算机系统应用》期刊2019年03期)

江英[5](2018)在《图片与文本过滤技术在信息监控中的应用研究》一文中研究指出随着通信网络的迅速发展以及智能终端用户的快速增长,短信、彩信、微博、QQ、微信等即时信息发布工具被广泛普及应用,它们都具有使用便捷、传播速度快的优点。其中,除短信之外的其它工具都可以同时携带图片信息和文本信息,因而得到更多的应用。然而,由于信息来源的多样化与随意性,其所携带的内容往往包含有不良的图片与文本信息。为此,必须采用基于内容的信息过滤手段,对图片与文本内容进行识别、提取、分析,实现不良信息的监测过滤。传统的信息监控分析模式,一般是基于软件自动监测加人工审核来实现,其在响应速度、处理效率、人工成本等方面存在先天缺陷。现代自动监控分析技术主要基于各种机器学习算法,可以较好地解决传统模式的问题,但是面对如今更为复杂的海量信息以及特定的应用场景,它们在成本和性能方面也往往难以令人满意。此外,计算环境和自然语言处理技术的不断完善,为信息自动检测与过滤技术的深入研究与应用奠定了良好的基础。为此,本文首先对目前常用的图片信息和文本信息监测分析算法进行了深入研究分析;在此基础上,对两种CNN模型VGG19和ResNet 50在不良图像内容识别中的性能进行分析比对和测试验证,并选择性能较好的ResNet50模型应用到实际应用平台中;提出了一种基于BP神经网络+Word2vec的文本分类模型来实现文本信息的自动监测分析,并使用实际数据对它们进行了有效性验证。最后,以电信手机报信息发布系统为案例,针对不良信息的分析与监控,实现了上述研究成果的实际应用,验证了其可用性。目前,相关应用系统已投入实际运行,取得了良好的监测分析效果。(本文来源于《南昌大学》期刊2018-12-23)

如先姑力·阿布都热西提,亚森·艾则孜,郭文强[6](2019)在《维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法》一文中研究指出提出了一种结合n-gram统计模型和类不平衡支持向量机(SVM)分类器的维语文本过滤方法。首先,将网页文本进行预处理操作,通过n-gram统计模型来初步提取词干;然后,对词干进行语义分析,将具有相似含义的词干聚合为一类,以此降低词干维度;最后,在传统SVM中引入一个控制超平面之间距离的参数,构建一种类不平衡SVM,使其能够很好地分类具有非线性不可分和不平衡性的维吾尔语文本。实验结果表明,该方法能够准确分类出不良文本,且具有较短的分类时间。(本文来源于《计算机应用研究》期刊2019年11期)

杨彬彬[7](2018)在《基于多谓词语义框架的网络文本过滤技术研究》一文中研究指出互联网上存在庞大的文本信息数据,如何在良莠不齐的信息中查找有用信息或过滤无关信息成为一个关键课题,而文本过滤的关键,就是文本的相似度计算。传统的文本相似度计算大多是基于词频统计或关键字的计算方法,不能体现语义,导致文本相似度计算的准确率一直较低,近年来基于语义的信息过滤方式越来越受到关注。而已有的基于语义框架的文本相似度研究算法在进行句子或文本相似度计算时,忽略了长短语的文本相似度计算部分的重要性,无法对复杂语句进行处理,不能够很好的体现文本的语义,故过滤算法准确性较低。为了解决上述问题,本文提出了一种基于多谓词语义框架的网络文本过滤算法。算法主要内容包括:文本依存句法分析、语义框架填充、长短语文本处理、框架相似度计算。为了能更好的体现文本语义,语义框架填充时,除了考虑到语义框架的骨干元素(主谓宾)外,框架的组成还插入了状语,时间,地点,方式等元素。在处理长短语文本的相似度计算时,先利用依存句法分析将长短语构建成短语树,然后再利用层次分析法确定各层权值,结合不同层次的结点相似度后得出长短语文本相似度。对句子类、短篇类和长篇类文本进行相似度准确率对比实验后可以看到本算法的相似度计算达到了较高准确性。基于本文的算法,设计并实现了基于多谓词语义框架的网络文本过滤系统。(本文来源于《北方工业大学》期刊2018-05-10)

赵文[8](2018)在《基于朴素贝叶斯算法的不良文本过滤技术研究及应用》一文中研究指出随着互联网技术的迅猛发展,网络信息逐渐成为个人及企业的主要信息来源,这些丰富多样的信息资源在给人们带来便利的同时,也充斥着大量不良信息,如反动、色情、毒品、赌博、非法营销的产品广告等,既不利于建设绿色健康的网络环境,也会对获取信息的过程造成障碍。鉴于网络信息中文本信息所占比例较大,对不良文本过滤技术的研究有助于净化整体网络信息,从而快速有效地取得有用文本信息,具有很高的实际应用价值。本文以基于向量空间模型(VSM)的朴素贝叶斯算法为核心,提出了一种面向大量流动网络信息的不良文本过滤技术,并对其中所包含的方法、模型进行研究及改良,最终实现针对指定系统的不良文本过滤。本文主要研究工作和成果如下:(1)使用VSM作为文本表示方法,通过对特征选择方法的改良,确定类中心向量集合。优化朴素贝叶斯算法的方法模型,从而训练得到适用于文本过滤的分类算法,为后续技术的提出奠定基础。(2)提出一种基于朴素贝叶斯算法的不良文本过滤技术,该技术引入假设检验思想,首先使用Ansj中文文本分词方法,然后将基于VSM的朴素贝叶斯分类算法与不良文本过滤相结合,最终应用类别阈值集合完成验证,实现对不良文本的筛选过滤。(3)使用Java语言编写网络爬虫,应用Jsoup开源HTML解析器,分析各指定网站的网页结构,实现语料信息的抓取。在此基础上,结合应用系统信息分析筛选语料,形成最终语料集合。(4)应用Eclipse开发了基于朴素贝叶斯算法的不良文本过滤技术测试平台,采用一组基础测试对本文所提过滤技术的可行性进行了验证,并通过叁组对比测试,进一步证明了该技术的过滤效果及其他改良效果。(本文来源于《长安大学》期刊2018-04-05)

如先姑力·阿布都热西提,亚森·艾则孜,艾山·吾买尔,阿力木江·艾沙[9](2019)在《维吾尔文论坛中基于术语选择和Rocchio分类器的文本过滤方法》一文中研究指出针对维吾尔文网页论坛中的文本过滤问题,提出一种基于术语选择和Rocchio分类器的文本过滤方法。首先,将论坛文本进行预处理以删除无用词,并基于N-gram统计模型进行词干(术语)提取;然后,提出一种均衡考虑相关性和冗余性的均衡型互信息术语选择方法(BMITS),对初始术语集合进行降维,获得精简术语集;最后,将文本特征术语作为输入,通过Rocchio分类器进行分类,以此过滤掉论坛中的不良文本。在相关数据集上的实验结果表明,提出的方法能够准确地识别出不良类型文本,具有有效性。(本文来源于《计算机应用研究》期刊2019年03期)

薛玥[10](2018)在《基于相关主题建模的短文本过滤引擎研究与应用》一文中研究指出时下,随着互联网络的全面普及与应用,人们的生活早已进入信息革命时代。该时代最显着的特征就是大量的、各种形式、不同内容的信息扑面而来。电子商务领域是数据以文本形式存在最多的领域。对该领域进行数据挖掘研究,存在以下几个挑战:(1)该领域的文字篇幅较短,内容上往往描述一个确定的事件或一个已知的物体。传统的主题挖掘模型,如相关主题模型,对篇幅较短的文本数据具有不适应性,因而需要提出适合这类短文本数据的文本挖掘模型和算法,对文本内容和主题进行有效的提取和概括;(2)该领域中的大部分内容为“用户生成内容”,其中包含个人观点和情感倾向,它对内容的优质程度具有一定影响,因此需要对用户进行分析和建模,挖掘隐含的情感倾向;(3)当数据规模巨大时,往往存在众多的垃圾用户和垃圾内容,一方面需要算法能够自动过滤无用信息,保留优质信息,进行信息的简化,另一方面需要当数据量巨大时,算法依旧具有高效性和可伸缩性。本文针对以上问题做了以下3点工作:1.以相关主题模型为基础,对主题提取和预测功能进行了优化,使其在对短文本特征提取和主题预测方面具有较好的适应性。提出了特征提取优化算法和主题预测优化算法,设计算法的输入输出,并对这两种算法在数据主题相关程度识别和未知短文本主题预测方面进行实验验证。2.为了挖掘短文本数据中的意见倾向,提出了考虑“短文本发送者-短文本描述对象-短文本描述内容”叁重关系的综合模型。该模型结合了文本内容、描述对象特征和用户偏见等关键特征,对用户行为进行有效建模,构建向量空间矩阵。基于该模型提出了两种文本内容处理算法,使模型不但对短文本数据的基本属性有较好的识别和处理,还能够识别用户的意见倾向。利用电子商务数据对该部分提出的两种算法进行了实验验证。3.在所提出模型的基础上,增加了短文本数据的综合效用计算功能,提出了短文本数据综合效用评价算法,该算法能够在数据规模较大时保证数据处理效率,完成数据内容优质程度判断,进而对短文本数据进行过滤筛选,将优质优质信息进行反馈和推荐。(本文来源于《北京邮电大学》期刊2018-01-03)

文本过滤论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

现如今互联网上出现了很多评论性文章,这些文章字符数多,且包含较多与主题无关的信息,会影响后续的文本分析任务的性能。因此,针对传统的解决方案不能够对多主题长文本进行建模,以及现有的神经网络无法从相对较长的时间步长中捕获语义关联等问题,文中提出了一种结合单层神经网络和分层长短记忆网络的深度网络模型,并在长文本过滤任务中进行应用。该模型通过词语层LSTM网络获得句子内部词语之间的关系并得到具有语义的句向量,然后将句向量输入主题依赖度计算模型和句子层LSTM网络模型,进而得到句子与各主题类别的依赖度以及待过滤句子与其他句子之间的关联。最后,在从马蜂窝获取的游记数据集上进行的实验表明,该模型相比SVM、朴素贝叶斯、LSTM、Bi-LSTM等效果更好。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本过滤论文参考文献

[1].管江红.基于χ~2统计量的不良文本过滤特征选择方法[J].现代电子技术.2019

[2].曹春萍,武婷.多主题下基于LSTM语义关联的长文本过滤研究[J].计算机技术与发展.2019

[3].刘子健.基于深度学习的不文明文本过滤方法研究[D].华中师范大学.2019

[4].王杨,王非凡,张舒宜,黄少芬,许闪闪.基于TF-IDF和改进BP神经网络的社交平台垃圾文本过滤[J].计算机系统应用.2019

[5].江英.图片与文本过滤技术在信息监控中的应用研究[D].南昌大学.2018

[6].如先姑力·阿布都热西提,亚森·艾则孜,郭文强.维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法[J].计算机应用研究.2019

[7].杨彬彬.基于多谓词语义框架的网络文本过滤技术研究[D].北方工业大学.2018

[8].赵文.基于朴素贝叶斯算法的不良文本过滤技术研究及应用[D].长安大学.2018

[9].如先姑力·阿布都热西提,亚森·艾则孜,艾山·吾买尔,阿力木江·艾沙.维吾尔文论坛中基于术语选择和Rocchio分类器的文本过滤方法[J].计算机应用研究.2019

[10].薛玥.基于相关主题建模的短文本过滤引擎研究与应用[D].北京邮电大学.2018

论文知识图

一l主题C的特征词在整个语料库T中的分布...基于特征关键词文本过滤模型智能文本过滤方案流程图2 2 种文本过滤方法的性能比较基于示例的中文文本过滤模型结合两种模式的基于混合策略的文本

标签:;  ;  ;  ;  ;  ;  ;  

文本过滤论文_管江红
下载Doc文档

猜你喜欢