一、中文分词在邮件过滤系统中的应用(论文文献综述)
向平常[1](2020)在《基于集成学习的个性化垃圾邮件过滤技术研究与应用》文中认为随着互联网时代的来临,电子邮件凭借其方便快捷的特点,已经成为人们日常工作学习传递信息不可或缺的一种方式,与此同时垃圾邮件的出现也引起了很多问题。垃圾邮件在传播过程中占用网络资源,分散用户工作学习的注意力,威胁用户隐私安全,给互联网环境带来了消极的影响,因此研究垃圾邮件过滤技术有很大的现实意义,本文针对垃圾邮件过滤技术研究现状中的不足,提出了相关的解决办法,主要工作包括:(1)针对现有的垃圾邮件过滤技术提取邮件特征不完整的问题,本文根据邮件结构化的特点,提出一种基于集成学习的Ada-CK邮件分类方法,该方法主要通过将邮件内容分为邮件头和邮件正文两部分,基于邮件头的邮件行为特征构建CART决策树分类器,基于邮件正文的内容语义特征构建K最近邻分类器,并在K最近邻分类方法中提出一种改进的基于相似度阈值的文本相似度比较方法,将文本相似度比较时的文本关键词划分为近似词语和一般词语,两者分别计算并线性组合得到最终的文本相似度。基于Adaboost的集成学习思想,将邮件头的CART决策树和邮件正文的K最近邻方法作为基分类器,经过多个基分类器对不同样本权重和不同样本特征的训练,集成基分类器的分类结果和话语权,得到最终的邮件分类结果。通过将Ada-CK方法分别与基于单个基分类器的Ada-CART和Ada-KNN方法,以及其它的邮件分类方法Co-PRFC,L1-SVM,TSVM-NB对比,实验表明Ada-CK在邮件分类精度指标上明显优于其它方法,符合邮件应用要求的准确率高的特点。(2)针对不同邮箱用户对垃圾邮件的认知不同的问题,提出一种基于用户个性化的主动学习方法ALUP,通过从邮件的正文文本中引入用户兴趣集的概念,介绍用户兴趣集模型及具体的基于兴趣集的分类方法。同时,在邮件的增量学习过程中,引入主动学习的方法,基于样本的分布密度来选择不确定度高的增量样本进行更新训练,避免将所有增量样本加入到训练集中造成的时间复杂度高的问题。通过将ALUP与其它邮件分类方法ALNSTC,SVM-AL,MFL进行性能上的对比,实验表明ALUP方法在保证较高的邮件分类精度的同时,明显降低了时间消耗,符合邮件在线应用要求的准确率高,速度快,且遵循用户个性化的特点。
闫秘[2](2020)在《基于fastText的垃圾邮件过滤算法研究》文中进行了进一步梳理电子邮件在互联网时代扮演着不可替代的角色,垃圾邮件分类既可以阻断无用信息传播,提高用户体验,也可以拦截有害信息降低潜在危险。以往众多学者提出基于传统机器学习的垃圾邮件分类方法,存在人工筛选特征工程难度较大、训练时间较长等缺陷。近年来,深度学习在自然语言处理领域取得了令人瞩目的成就,fastText作为一种浅层神经网络在垃圾邮件分类上表现优良。本文在充分调研的基础上,发现fastText存在下面两点不足:(1)在n-gram特征处理阶段会产生噪声词,这些词出现的频率极高且缺少实际语义特征信息,降低邮件分类准确性。(2)邮件文本较短小,在向量空间建模时会产生稀疏向量与稀疏矩阵,不能充分映射特征空间,影响分类效果。针对上述问题,本文在fastText算法基础上对其改进。(1)提出TF-fastText算法,在输入层使用改进的TF-IDF-N算法计算n-gram处理后的特征词权重,根据权重去除高频低区分度的无意义词,从而消减fastText模型的噪声数据,提高邮件分类的准确率。通过将TF-IDF-N与传统算法进行组合实验,证明了TF-IDF-N的改进是有效的。使用TF-fastText与传统机器学习算法、神经网络算法进行邮件分类实验,实验结果表明此算法不仅能提升邮件分类的准确率而且花费的时间成本较低。(2)提出LDA-fastText算法,通过提取语料库中的主题词,将主题词与原始词序列对比,把相同主题词下的单词补充到原始词序列,减少稀疏向量,并且有利于高区分度特征词在隐藏层的向量表示,提高分类准确性。将其与传统机器学习算法、神经网络算法以及TF-fastText算法进行邮件分类实验,实验结果表明此算法对邮件分类的准确率略有提升但时间成本略高。(3)提出TFL-fastText算法,结合两种算法的优点既去除了冗余词条又补充了稀疏矩阵,将其与传统机器学习算法:朴素贝叶斯、KNN、SVM和神经网络算法:fastText、RNN、CNN及改进的TF-fastText、LDA-fastText进行邮件分类实验,实验结果表明此算法分类准确率最高且时间成本最低,证明了TFL-fastText的有效性。
王斯琴[3](2020)在《改进朴素贝叶斯算法在垃圾邮件过滤中的应用》文中研究表明电子邮件伴随着互联网的发展越来越普及,但是电子邮件的可靠性与安全性引起人们的重视,因为各种垃圾邮件、钓鱼岛邮件、骚然邮件极大地影响了人们的生活。同时,根据我国不良网络不垃圾信息举报受理中心的统计,有一半以上的用户因为垃圾邮件而浪费掉了大量的时间、大量的资源信息,还有一半用户因为垃圾邮件遭受到了一定的经济损失。目前被人们认可的垃圾邮件过滤技术有:身份认证、行为模式识别、和白名单和关键字过滤技术等等之类的技术。与此同时,垃圾邮件的误判会给网民造成一定的经济损失与时间损失,加之很多人都不愿打开垃圾邮件这一过滤功能,而且垃圾邮件本身也携带各种病毒,或多或少给人们带来了一定的困惑。随着科学技术的发展,朴素贝叶斯分类算法已成为现在最流行的技术之一,正是因为传统朴素贝叶斯分类算法良好的邮件分类效果,受到了广大研究者的关注。但是朴素贝叶斯受到自身条件属性需得相互独立的限制,实际上很多样本却不符合属性条件间相互独立等要求导致分类准确率很低,为了提高垃圾邮件分类的准确性,本文提出了结合主动学习的K-近邻局部加权朴素贝叶斯算法,为的是能够在一定程度上提高邮件分类的精确度和效率。本文主要研究工作如下:(1)如果样本本身一旦错分,那么,在训练过程中不断地更新、迭代,会导致错误不断地累积,继而得到一个易误分的分类器。因此,本文采取结合主动学习的K-近邻局部加权朴素贝叶斯算法(K-Locally Weighted Naive Bayes,K-LWNB),即人工选取一些最具有价值的样本进行标注,以此来提高样本本身的准确性,从而降低分类器的误分率。其中K-近邻局部加权朴素贝叶斯算法对垃圾邮件分类,能够让垃圾邮件的分类效果相对于传统的朴素贝叶斯算法来说,能够更有效地提高邮件的分类准确率和精确度。(2)本文采用ham(正常邮件)和spam(垃圾邮件)作为数据样本集,同时将文本内容解析成词向量,去停用词并提取出关键特征词,继而检查细条并保证解析的正确性,同时计算出不同独立特征关键词的条件概率,然后判断是否属于垃圾邮件。
路永鑫[4](2020)在《基于卷积神经网络的邮件管理系统的设计与实现》文中研究指明随着信息技术的发展,电子邮件服务以其高性价比的通信优势,迅速在网络用户中普及,成为人们信息交流的重要工具。但是,电子邮件便利的同时也带来了垃圾邮件泛滥的问题,垃圾邮件不仅占用互联网资源,更是对用户和企业造成严重困扰,耗费时间和精力,导致经济损失。因此,垃圾邮件过滤技术变得越来越重要,使用一款具有垃圾邮件过滤功能的邮件管理系统成为人们的需求。论文根据当前主要垃圾邮件过滤技术的特点与适用场景,基于卷积神经网络算法构建了一种中文垃圾邮件过滤模型。在模型构建前,论文对邮件内容进行了文本预处理和word2vec词向量生成等工作,然后依据卷积神经网络的结构和算法原理,完成了基础模型构建。为了提高模型的速度和准确率,论文依据卷积神经网络算法的结构特点,提出了 Dropout和L2正则化的优化方案。依据正常邮件和垃圾邮件的文本特征,提出了变步长卷积和带权池化的改进方案。然后通过实验,观察优化和改进方案对模型产生的影响。实验结果表明,经过优化和改进的中文垃圾邮件过滤算法,较未优化改进的中文垃圾邮件过滤算法,准确率提高4.43%,精确率提高4.91%,召回率提高6.10%,F1值提高5.50%,且模型较算法改进之前各指标在更快地提升。说明通过Dropout和L2正则化方案来优化算法,以变步长卷积和带权池化方案来改进算法,在提高模型分类速度和准确率方面,取得了一定效果。在对卷积神经网络中文垃圾邮件过滤算法改进后,论文采用JavaMail框架和vue-cli脚手架对邮件管理系统进行了设计与实现,并将基于改进算法构建的中文垃圾邮件过滤模型应用在系统中,使邮件管理系统能够提供用户登录,收发邮件,保存草稿,查看收件箱、发件箱、草稿箱和垃圾箱、管理通讯录、过滤垃圾邮件等主要功能。
王鹿[5](2020)在《基于贝叶斯分类的垃圾邮件过滤技术研究》文中提出随着互联网技术的飞速发展,电子邮件以方便、快捷、环保等优点成为人们日常生活工作中不可或缺的一部分。但与此同时,垃圾邮件的出现对用户造成了严重的影响,给社会带来了极大的财产损失和安全威胁,因此研究垃圾邮件过滤技术具有重要意义。本文在基于目前现有的理论和研究基础之上,对垃圾邮件过滤方法进行了系统的介绍,针对当前朴素贝叶斯算法过滤垃圾邮件时尚且存在的不足进行了一定的改进。主要研究内容如下:(1)深入研究反垃圾邮件相关技术,包括邮件的预处理、文本表示模型、特征提取等等。着重研究了朴素贝叶斯分类算法的原理及其来源,并分析它在文本分类方面的优缺点。(2)分析随机森林算法的原理以及在特征选择方面的优势,提出使用随机森林结合朴素贝叶斯的分类算法。针对垃圾邮件过滤系统中普遍存在的维数灾难的问题,通过随机森林特征选择过滤掉邮件集中基尼不纯度为0的特征词,由朴素贝叶斯算法计算出特征选择后的测试邮件的后验概率,得出测试邮件所属类别。(3)提出基于树结构的朴素贝叶斯分类算法。针对朴素贝叶斯算法在分类前期的训练阶段大量消耗系统和网络资源,严重影响分类效率的问题,提出使用树结构代替算法中原本使用的数组来维护训练样本中特征词出现的次数;针对朴素贝叶斯算法在邮件样本属性个数较多时,分类效果较差的问题,对特征词条件概率进行开方处理。(4)通过设计的邮件过滤系统对过滤算法进行分类性能测试。实验结果表明,结合了随机森林的朴素贝叶斯算法较原有算法在分类性能上效果更好;基于树结构的朴素贝叶斯算法较原有算法在邮件样本训练过程中耗时明显减少,随着样本的不断增加,训练耗时也只是缓慢增长,通过选取合适的开方次数z值,来降低垃圾邮件的误判率,使得改进后的算法在垃圾邮件过滤方面具有更好的效果。
林文鹏[6](2020)在《基于中文文本挖掘的邮件过滤系统的设计与实现》文中认为随着互联网的迅速发展和应用普及,电子邮件的广泛应用给我们的生产和生活带来了相当的便利,但是便利的同时也带来了许多风险,邮件的安全性也受到人们的关注,尤其是在涉及保密等级比较高的单位,针对邮件安全问题本文以文本挖掘的方式,贝叶斯算法为理论基础,将理论应用工程实际,设计和实现了基于贝叶斯算法的邮件安全过滤系统。涉密邮件的过滤问题实际上就是电子邮件的分类问题,将文本挖掘技术应用于邮件过滤中,实际上就是用统计的方法来对电子邮件进行分类。利用文本挖掘的邮件过滤系统在英文邮件的应用中获得了比较好的过滤效果,本系统中加入了中文分词模块,设计和实现了基于中文邮件的过滤功能模块,并取得比较好过滤效果。本文首先介绍了本课题的研究背景、意义以及国内外研究现象,然后介绍了文本挖掘的相关知识,为设计邮件过滤系统提供基本的技术知识,其次以及邮件预处理的方法,为邮件过滤系统的设计提供论基础,最后介绍了邮件过滤系统的设计方案和过滤系统的实现,并对本文设计的涉密邮件过滤系统进行了实验测试。
杨平[7](2018)在《基于主题模型的垃圾邮件过滤系统的设计》文中研究表明电子邮件作为一种信息传递的方式,得益于其方便、快捷、低成本等特性,拥有庞大的用户群体,特别在企业、学校、政府部门中,电子邮件功能已经被集成到各自的OA系统中。但由于垃圾邮件的大量出现,产生了一系列的问题。对邮件服务提供商而言,垃圾邮件不仅会占用大量的网络带宽和服务器的存储空间,还增加了服务器处理时间;对于用户而言,阅读垃圾邮件不仅会浪费时间,其内容可能会给用户带来潜在的危害。因此,对垃圾邮件有效的检测和过滤技术的研究就显得尤为重要。首先,本文对文本表示模型进行了研究,分析了布尔模型、向量空间模型的原理及其优缺点。在传统文本表示模型的基础之上,引入一种基于语义分析的文本表示模型-Word2vec。考虑到LDA模型可生成文本的主题信息,结合Word2vec和LDA模型,提出一种新的邮件文本特征提取算法。该算法提取的特征中包含着词的语义、语法、位置等词的深层特征信息,且这些特征对文本的分类更有效。其次,对传统的KNN算法进行改进,在选取前k个样本时,仅在与测试样本主题相似的文本中选取。这样有效的解决了当样本规模较大时,KNN算法时间复杂度较高的问题。此外,对传统的SVM算法进行了优化,在模型中引入MGD算法、字符串核函数,不仅解决了传统模型中参数可能会陷入局部最优解的问题,同时也加快了模型的收敛速度。实验结果表明,改进后的KNN和SVM算法在准确率和召回率参数上得到了明显的提升。最后,基于JavaMail开发了一个邮件过滤系统,并将基于主题模型的邮件过滤算法移植到此系统中。邮件系统不仅提供邮件收发、邮件代收、邮件查询等基础功能,而且还提供了垃圾邮件检测、邮件智能分类等高级功能。与现有的邮件系统相比,它不仅提升了垃圾邮件检测的精度,而且还能根据邮件的内容对邮件自动分类,方便用户阅读。
陶峰[8](2018)在《基于内容的垃圾邮件过滤系统的设计与实现》文中指出随着互联网的快速发展,电子邮件因使用方便,通信快捷,已成为我们生活中的一部分。但是,现在很多的组织或者个人利用电子邮件的便捷,发布大量垃圾信息,这就是垃圾邮件。如今垃圾邮件问题越来越严重,它不仅传播了大量不良信息,还浪费了我们大量时间。垃圾邮件分类技术中用的比较多的分类算法有朴素贝叶斯(Naive Bayes)、神经网络、K-近邻法、支持向量机(SVM)等。由于邮件分类算法都是建立特征项提取基础上的,因此特征项提取直接影响着邮件的分类效果。随着学者的研究发现,对电子邮件内容特征进行提取的有效算法有:文档频率、信息增益、互信息、期望交叉熵、文本证据权、CHI统计以及TFIDF等。TFIDF因其便于理解、操作简单、时间复杂度低等优点被广泛的运用,该算法也存在不足之处:该方法只考虑了特征词文档的绝对数量和特征词在某类邮件中的词频,没有考虑到特征词在类中的分布情况和特征词在其他类邮件中的词频,高估了低频词的作用并低估了高频词的作用。本文将重点探讨并对比现有垃圾邮件过滤技术,分别从邮件预处理、中文分词、特征提取和分类器等角度展开。在比较多种特征提取算法后,论文选择对传统的TFIDF算法进行一定的修改和优化,通过降低特例邮件中频繁出现的特征词的影响,引入了频率差,分别对类中频繁出现和出现频率小的词条的权值进行增加和减少。最终实验结果表明,改进后的方法可以选择出更适合的特征集合,从而使邮件分类的效果更好,达到更有效的垃圾邮件过滤效果。
种飞[9](2018)在《Hadoop平台垃圾邮件过滤算法研究与实现》文中研究指明在信息化时代的今天,电子邮件成为了我们日常生活中最重要的交流手段之一,与其相伴而来的垃圾邮件也在日益增长,影响着人们的生活。传统的垃圾邮件过滤技术,如“黑白名单”、“关键字过滤”等方法在一定程度上实现垃圾邮件的过滤,然而,面对邮件用户群体的膨胀,邮件数量急剧增长,邮件种类也日益庞杂,传统的邮件过滤技术已经捉襟见肘、后继乏力。云数据挖掘是将数据挖掘技术与新兴的云计算技术相结合。借助云平台对大数据的并行计算能力实现对海量数据的处理,很好的解决了在海量数据处理时存在的计算与存储瓶颈。本文利用云数据挖掘技术对垃圾邮件进行过滤。本文选取贝叶斯邮件过滤算法作为研究对象,在深入研究了Hadoop平台在海量数据处理方面的核心技术之后,针对传统分布式贝叶斯算法实现中存在效率低、误判率高、前期训练消耗资源大等缺点,对贝叶斯邮件过滤算法进行了优化,决策规则是根据待过滤邮件被判定的结果集,由决策表产生规则,然后根据相应的规则与贝叶斯算法结合对邮件进行过滤,使邮件误判率大大降低。再根据一种基于Hadoop开源云架构的MapReduce模型,在处理大量邮件时对其进行并行化处理,这样在提高邮件过滤准确率的前提下提高垃圾邮件过滤的效率。实验结果表明,贝叶斯邮件过滤的MapReduce模型,在召回率、查准率和判对率等指标方面都有良好的表现,同时也提高了过滤的执行效率。
魏如玉[10](2016)在《中文垃圾邮件过滤方法的研究》文中进行了进一步梳理目前垃圾邮件给人们的生活造成了越来越恶劣的影响,对于我国这样人口基数大的邮件发送接收大国,在处理垃圾邮件问题上浪费了更多的人力物力。在众多的反垃圾邮件技术中,朴素贝叶斯垃圾邮件过滤方法以其运算速度快、易于实现等特点而被广泛应用。这种技术在过滤过程中,必不可少的环节是分词和特征项提取。目前大部分面向中文的垃圾邮件过滤方法中,分词过程往往实现复杂;当面对的是大规模的邮件训练样本时,以词语作为文本的特征项单位,这种算法的时间效率会成为邮件过滤技术中的一个瓶颈;另外在特征项提取时现有的特征评估函数并不完全符合垃圾邮件的特点,所提取出来的特征项对文本并没有足够的代表能力。针对这种现状,本文以提高中文垃圾邮件过滤性能为目标,做了较为深入的研究,主要工作如下:1在预处理的分词阶段,提出一种以基本短语为单位的分词方法。使用TRIE树结构为词典载体,将TRIE树与正向最大匹配原则配合使用,然后结合文本分类领域的短语分析方法,利用基本名词短语、基本动词短语等语义分析方面的限定将向量空间中从词语模式转换成基本短语模式。这种方法可以使分词在精度和效率都达到更好的效果。2在特征项提取阶段结合垃圾邮件的特点,提出改进的互信息特征评估函数,用于特征项提取。改善正负相关、忽略词频和趋向低频词、不同位置的特征项对类别界定贡献能力不同的问题,这种方法可以在大大缩减特征向量空间维数的同时也保证提取出的特征项对文本有更强的代表能力。3运用朴素贝叶斯垃圾邮件过滤算法进行仿真实验,实验结果验证了利用TRIE树和最大匹配原则结合进行分词能够提高分词效率,用基本短语代替词作为特征项单位能够缩减向量空间的维数,运用改进的特征评估函数能够提高过滤性能,改进的朴素贝叶斯方法在查重率、查准率等各方面上都有更好的表现。
二、中文分词在邮件过滤系统中的应用(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、中文分词在邮件过滤系统中的应用(论文提纲范文)
(1)基于集成学习的个性化垃圾邮件过滤技术研究与应用(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 基于发送方特征的过滤技术 |
1.2.2 基于邮件内容的过滤技术 |
1.3 本文主要工作 |
1.4 本文组织结构 |
2 垃圾邮件过滤技术概述 |
2.1 垃圾邮件过滤步骤概述 |
2.1.1 邮件结构及工作原理 |
2.1.2 预处理 |
2.1.3 邮件文本特征选择 |
2.1.4 邮件文本特征表示 |
2.2 垃圾邮件过滤方法概述 |
2.2.1 增量学习 |
2.2.2 主动学习 |
2.2.3 集成学习 |
2.2.4 半监督学习 |
2.3 本章小结 |
3 基于邮件结构化文本的集成学习 |
3.1 研究背景与动机 |
3.2 邮件结构化文本集成学习框架 |
3.3 基于邮件头的决策树分类方法 |
3.3.1 邮件头特征表示 |
3.3.2 基于邮件头特征的CART决策树分类算法 |
3.4 基于邮件正文的K最近邻分类方法 |
3.4.1 word2vec词向量生成 |
3.4.2 TF-IDF加权的文本向量表示 |
3.4.3 基于相似度阈值的K最近邻分类算法 |
3.5 Ada-CK集成学习方法 |
3.5.1 Adaboost算法介绍 |
3.5.2 Ada-CK算法介绍 |
3.6 实验设计与结果分析 |
3.6.1 实验环境与数据 |
3.6.2 实验评估指标 |
3.6.3 实验方法与过程 |
3.6.4 参数分析 |
3.6.5 内部算法比较 |
3.6.6 外部算法比较 |
3.7 本章小结 |
4 基于用户个性化特征的主动学习 |
4.1 研究背景与动机 |
4.2 用户个性化垃圾邮件过滤框架 |
4.3 基于用户兴趣集的分类方法 |
4.3.1 兴趣集相关定义 |
4.3.2 兴趣集模型 |
4.3.3 基于兴趣集的邮件分类方法 |
4.4 基于主动学习的样本选择 |
4.5 兴趣集和训练集更新 |
4.6 实验设计与结果分析 |
4.6.1 实验环境及数据 |
4.6.2 实验方法与过程 |
4.6.3 参数分析 |
4.6.4 算法性能比较 |
4.7 本章小结 |
5 总结与展望 |
5.1 工作总结 |
5.2 未来展望 |
参考文献 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(2)基于fastText的垃圾邮件过滤算法研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题研究背景和研究意义 |
1.1.1 课题研究背景 |
1.1.2 课题研究意义 |
1.2 国内外研究现状 |
1.2.1 基于黑白名单过滤技术 |
1.2.2 基于规则匹配过滤技术 |
1.2.3 基于数据挖掘过滤技术 |
1.3 本文的主要研究工作 |
1.4 本文的内容安排 |
第二章 相关理论和技术介绍 |
2.1 引言 |
2.2 邮件预处理 |
2.2.1 邮件解析 |
2.2.2 分词技术 |
2.2.3 去掉停用词 |
2.3 文本特征提取 |
2.3.1 词袋模型 |
2.3.2 TF-IDF算法 |
2.3.3 Word2Vec词向量模型 |
2.4 fastText快速文本分类模型 |
2.4.1 层次softmax |
2.4.2 n-gram特征 |
2.5 LDA文本主题提取模型 |
2.5.1 共轭先验分布 |
2.5.2 Dirichlet分布 |
2.5.3 LDA模型 |
2.6 本章小结 |
第三章 基于改进TF-IDF的 TF-fastText分类算法 |
3.1 引言 |
3.2 基于改进TF-IDF的 TF-fastText分类算法 |
3.2.1 Word Embedding |
3.2.2 邮件特征筛选 |
3.2.3 邮件特征表示 |
3.2.4 邮件分类 |
3.3 实验设计与结果 |
3.3.1 实验数据集 |
3.3.2 实验细节 |
3.3.3 实验结果 |
3.3.4 讨论与分析 |
3.4 本章小结 |
第四章 融合LDA的 LDA-fastText分类算法 |
4.1 引言 |
4.2 融合LDA的 LDA-fastText分类算法 |
4.2.1 邮件特征补充 |
4.3 实验设计与结果 |
4.3.1 实验数据集 |
4.3.2 实验细节 |
4.3.3 实验结果 |
4.3.4 讨论与分析 |
4.4 本章小结 |
第五章 基于TF-fastText与 LDA-fastText的 TFL-fastText分类算法 |
5.1 引言 |
5.2 基于TF-IDF与 LDA的 TFL-fastText分类算法 |
5.3 实验设计与结果 |
5.3.1 实验数据集 |
5.3.2 实验细节 |
5.3.3 实验结果 |
5.3.4 讨论与分析 |
5.4 本章小结 |
总结与展望 |
结论 |
展望 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
附件 |
(3)改进朴素贝叶斯算法在垃圾邮件过滤中的应用(论文提纲范文)
中文摘要 |
英文摘要 |
1 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 朴素贝叶斯的研究现状 |
1.2.2 垃圾邮件的研究现状 |
1.3 研究内容 |
1.4 论文组织结构 |
1.5 本章小结 |
2 邮件过滤相关技术 |
2.1 文本分类技术 |
2.1.1 原始文本获取 |
2.1.2 分词 |
2.1.3 文本清洗 |
2.1.4 特征提取 |
2.2 主动学习的概念 |
2.2.1 主动学习模型 |
2.2.2 主动学习算法 |
2.2.3 主动学习的应用领域 |
2.3 朴素贝叶斯 |
2.3.1 贝叶斯算法 |
2.3.2 朴素贝叶斯算法 |
2.3.3 朴素贝叶斯算法的优缺点 |
2.3.4 朴素贝叶斯算法的应用 |
2.4 KNN分类算法 |
2.4.1 KNN分类算法定义 |
2.4.2 KNN算法流程描述 |
2.4.3 关于K值的选取 |
2.4.4 关于距离的选取 |
2.4.5 数据特征的量化 |
2.4.6 加权KNN算法 |
2.4.7 KNN算法的优缺点 |
2.4.8 KNN算法的主要应用领域 |
2.5 本章小结 |
3 基于K-近邻加权朴素贝叶斯改进算法在垃圾邮件过滤中的应用. |
3.1 基于k-近邻局部加权朴素贝叶斯改进算法 |
3.1.1 基于K-近邻局部加权朴素贝叶斯改进算法思想 |
3.1.2 基于K-近邻局部加权朴素贝叶斯改进算法步骤 |
3.2 实验测试 |
3.2.1 数据集介绍 |
3.2.2 评价指标 |
3.2.3 实验结果与结果分析 |
4 垃圾邮件过滤系统的设计 |
4.1 系统总体设计 |
4.1.1 需求分析 |
4.1.2 系统概要设计 |
4.1.3 数据库设计 |
4.2 系统详细设计 |
4.2.1 原始邮件预处理模块 |
4.2.2 改进朴素贝叶斯分类器模块 |
4.3 本章小结 |
5 垃圾邮件过滤系统的实现 |
5.1 垃圾邮件系统环境搭建 |
5.2 垃圾邮件过滤系统的实现 |
5.3 本章小结 |
6 总结与展望 |
6.1 论文工作总结 |
6.2 工作展望 |
参考文献 |
附录 :作者攻读硕士学位期间发表论文及科研情况 |
致谢 |
(4)基于卷积神经网络的邮件管理系统的设计与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 垃圾邮件过滤技术分析 |
1.3 基于统计的垃圾邮件过滤研究现状 |
1.3.1 朴素贝叶斯 |
1.3.2 K-近邻算法 |
1.3.3 支持向量机 |
1.3.4 垃圾邮件过滤算法评估 |
1.4 论文主要内容和结构安排 |
第二章 卷积神经网络相关技术概述 |
2.1 卷积神经网络 |
2.1.1 卷积层 |
2.1.2 激活函数 |
2.1.3 池化层 |
2.1.4 全连接层和softmax分类器 |
2.2 文本预处理 |
2.2.1 字符过滤 |
2.2.2 中文分词 |
2.2.3 停用词处理 |
2.3 word2vec |
2.3.1 独热编码 |
2.3.2 分布式词向量 |
2.3.3 word2vec |
2.3.4 词向量生成 |
2.4 基础卷积神经网络中文垃圾邮件过滤模型构建 |
2.5 本章小结 |
第三章 一种改进的卷积神经网络中文垃圾邮件过滤算法 |
3.1 改进方案 |
3.1.1 Dopout方案 |
3.1.2 L2正则化方案 |
3.1.3 变步长卷积方案 |
3.1.4 带权池化方案 |
3.2 实验设计 |
3.2.1 实验环境 |
3.2.2 实验数据集 |
3.2.3 评价指标 |
3.2.4 实验流程 |
3.3 实验结果分析 |
3.3.1 Dropout的影响 |
3.3.2 L2正则化的影响 |
3.3.3 变步长卷积的影响 |
3.3.4 带权池化的影响 |
3.3.5 实验结论 |
3.4 本章小结 |
第四章 邮件管理系统的设计与实现 |
4.1 技术支持 |
4.1.1 电子邮件格式协议 |
4.1.2 电子邮件工作原理 |
4.1.3 JavaMail框架 |
4.2 邮件管理系统需求分析 |
4.2.1 系统功能性需求 |
4.2.2 系统非功能性需求 |
4.3 后端设计与实现 |
4.3.1 系统结构 |
4.3.2 用户登录 |
4.3.3 接收邮件 |
4.3.4 发送邮件 |
4.3.5 管理通讯录 |
4.4 前端设计与实现 |
4.4.1 Vue.js |
4.4.2 页面实现 |
4.5 系统功能测试 |
4.5.1 用户登录测试 |
4.5.2 接收邮件测试 |
4.5.3 发送邮件测试 |
4.5.4 管理通讯录测试 |
4.6 本章小结 |
第五章 总结与展望 |
参考文献 |
致谢 |
(5)基于贝叶斯分类的垃圾邮件过滤技术研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 课题背景及意义 |
1.2 邮件过滤技术国内外研究现状 |
1.2.1 基于黑名单的过滤技术 |
1.2.2 基于规则的过滤技术 |
1.2.3 基于内容统计的过滤技术 |
1.3 论文研究内容 |
1.4 论文组织结构 |
第二章 反垃圾邮件相关技术研究 |
2.1 邮件的基本结构 |
2.2 邮件主要模块的选取 |
2.3 邮件的预处理 |
2.3.1 英文邮件的预处理 |
2.3.2 中文邮件的预处理 |
2.4 文本表示模型 |
2.4.1 布尔模型 |
2.4.2 概率模型 |
2.4.3 向量空间模型 |
2.5 特征提取 |
2.6 贝叶斯分类技术 |
2.6.1 贝叶斯定理 |
2.6.2 贝叶斯分类器 |
2.6.3 朴素贝叶斯算法 |
2.6.4 常见的朴素贝叶斯扩展算法 |
2.7 本章小结 |
第三章 基于随机森林的朴素贝叶斯算法垃圾邮件过滤研究 |
3.1 随机森林算法 |
3.1.1 决策树 |
3.1.2 构建组合分类器方法 |
3.1.3 随机森林 |
3.2 朴素贝叶斯融合随机森林的过滤算法研究 |
3.3 基于随机森林的朴素贝叶斯算法垃圾邮件过滤模型 |
3.4 本章小结 |
第四章 基于树结构的朴素贝叶斯算法垃圾邮件过滤研究 |
4.1 树结构思想 |
4.2 敏感度分析 |
4.3 基于树结构的朴素贝叶斯算法 |
4.4 树结构朴素贝叶斯算法垃圾邮件过滤模型 |
4.5 本章小结 |
第五章 系统的设计与实现及实验结果分析 |
5.1 系统总体设计 |
5.2 过滤系统主要模块设计 |
5.3 过滤系统实现 |
5.4 实验结果及分析 |
5.4.1 评价标准 |
5.4.2 训练部分对比 |
5.4.3 测试部分对比 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读硕士学位期间发表的学术论文及取得的相关科研成果 |
致谢 |
(6)基于中文文本挖掘的邮件过滤系统的设计与实现(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 概述 |
1.2 研究背景 |
1.3 国内外研究现状 |
1.4 论文内容介绍 |
第2章 相关技术概述 |
2.1 文本挖掘技术背景 |
2.2 文本挖掘技术 |
2.3 系统开发相关技术介绍 |
2.3.1 B/S体系架构 |
2.3.2 ICTCLAS中文分词介绍 |
2.3.3 Nginx技术介绍 |
2.4 本章小结 |
第3章 需求分析 |
3.1 系统概述 |
3.2 系统网络结构和体系结构分析 |
3.2.1 系统体系结构 |
3.2.2 系统网络结构 |
3.3 系统功能需求分析 |
3.3.1 系统后台功能需求 |
3.3.2 系统客户端功能需求 |
3.4 系统非功能性需求分析 |
3.5 运行需求 |
3.6 本章小结 |
第4章 邮件过滤系统设计 |
4.1 系统设计原则 |
4.2 系统设计目标 |
4.3 系统服务端功能设计 |
4.3.1 规则过滤模块设计 |
4.3.2 邮件预处理模块设计 |
4.3.3 系统训练模块设计 |
4.3.4 系统分类模块设计 |
4.4 系统客户端的功能设计 |
4.4.1 账号模块 |
4.4.2 策略管理模块 |
4.4.3 事件模块 |
4.5 数据库模块设计 |
4.6 本章小结 |
第5章 邮件过滤系统实现 |
5.1 服务器端主要功能模块实现 |
5.1.1 邮件采集模块的实现 |
5.1.2 电子邮件预处理模块实现 |
5.1.3 邮件过滤模块实现 |
5.2 客户端的功能实现 |
5.2.1 系统设置中心 |
5.2.2 信息中心 |
5.2.3 事件中心 |
5.2.4 账号中心 |
5.2.5 邮件策略中心 |
5.2.6 报告中心 |
5.3 本章小结 |
第6章 系统测试 |
6.1 测试工具及环境 |
6.1.1 硬件环境 |
6.1.2 软件环境 |
6.1.3 测试工具 |
6.2 测试用例 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文和取得的科研成果 |
致谢 |
(7)基于主题模型的垃圾邮件过滤系统的设计(论文提纲范文)
中文摘要 |
Abstract |
第1章 绪论 |
1.1 研究的背景及意义 |
1.2 垃圾邮件检测及过滤技术 |
1.2.1 垃圾邮件的定义 |
1.2.2 邮件过滤技术的研究现状及发展趋势 |
1.3 本文的主要研究内容及各章节安排 |
第2章 邮件文本预处理及文本表示 |
2.1 邮件的基本结构 |
2.2 邮件主要模块的选取 |
2.3 邮件的预处理 |
2.3.1 英文邮件的预处理 |
2.3.2 中文邮件的预处理 |
2.3.3 分词原理及主流的分词技术 |
2.3.4 分词工具的选取 |
2.4 文本表示模型 |
2.4.1 布尔模型 |
2.4.2 向量空间模型 |
2.4.3 Word2vec词向量表示模型 |
2.5 本章小结 |
第3章 基于主题模型邮件文本建模 |
3.1 经典主题模型概述 |
3.2 PLSA主题模型 |
3.3 LDA主题模型 |
3.3.1 相关概率分布 |
3.3.2 相关参数的计算与选取 |
3.4 基于LDA和Word2vec的邮件文本建模 |
3.5 基于Gensim的邮件主题建模与仿真 |
3.6 本章小结 |
第4章 基于KNN和支持向量机的邮件分类算法 |
4.1 基于KNN的分类算法 |
4.1.1 K最近邻算法 |
4.1.2 K最近邻算法在邮件分类中的应用 |
4.2 基于支持向量机的邮件分类算法 |
4.2.1 支持向量机算法 |
4.2.2 支持向量机算法在邮件分类中的应用 |
4.3 实验结果及分析 |
4.3.1 模型评估参数的选取 |
4.3.2 基于KNN的邮件分类模型的评估 |
4.3.3 基于支持向量机的邮件分类模型的评估 |
4.4 本章小结 |
第5章 基于JavaMail和主题模型的邮件过滤系统设计及实现 |
5.1 系统开发环境及开发语言 |
5.2 邮件发送和接收相关协议 |
5.2.1 SMTP协议 |
5.2.2 POP3和IMAP协议 |
5.2.3 MIME协议 |
5.3 邮件过滤系统设计方案及实现 |
5.3.1 用户登录模块设计及实现 |
5.3.2 邮件发送模块设计及实现 |
5.3.3 邮件接收模块设计及实现 |
5.3.4 邮件过滤模块设计及实现 |
5.3.5 邮件搜索及邮件智能分类模块及实现 |
5.4 系统测试 |
5.4.1 用户登录模块测试 |
5.4.2 发送模块测试 |
5.4.3 接收模块测试 |
5.4.4 邮件搜索及智能分类模块测试 |
5.5 本章小结 |
结论 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文 |
攻读学位期间取得的科研成果 |
(8)基于内容的垃圾邮件过滤系统的设计与实现(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 选题背景和意义 |
1.2 国内外研究现状 |
1.3 本文主要研究内容 |
1.4 本文章节安排 |
2 电子邮件概述 |
2.1 基本概念 |
2.2 邮件格式 |
2.3 编码格式 |
2.4 传输协议 |
2.5 本章小结 |
3 邮件分类相关技术 |
3.1 邮件预处理 |
3.1.1 邮件解析 |
3.1.2 中文分词 |
3.1.3 去掉停用词 |
3.2 特征提取 |
3.2.1 基于文档频率的特征提取法 |
3.2.2 基于互信息的特征提取算法 |
3.2.3 基于信息增益的特征提取算法 |
3.2.4 基于CHI分布统计的特征提取算法 |
3.2.5 TFIDF特征提取算法 |
3.3 邮件分类 |
3.3.1 基于规则的垃圾邮件过滤算法 |
3.3.2 基于概率统计的垃圾邮件过滤算法 |
3.4 评价体系 |
3.5 本章小结 |
4 特征提取算法的改进 |
4.1 传统TFIDF算法的不足 |
4.2 TFIDF算法的改进 |
4.3 本章小结 |
5 系统设计与实现 |
5.1 系统总体设计 |
5.2 主要模块设计 |
5.2.1 邮件预处理模块 |
5.2.2 特征提取模块 |
5.2.3 分类模块 |
5.3 系统实现 |
5.4 本章小结 |
6 实验结果与分析 |
6.1 实验数据选取 |
6.2 实验结果与分析 |
7 总结与展望 |
致谢 |
参考文献 |
附录1攻读硕士学位期间参与的项目和发表的论文 |
(9)Hadoop平台垃圾邮件过滤算法研究与实现(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究的背景及意义 |
1.2 国内外研究现状 |
1.3 研究的主要内容 |
1.4 论文组织结构 |
1.5 本章小结 |
第2章 邮件过滤技术 |
2.1 数据挖掘关键技术研究 |
2.1.1 数据挖掘概述 |
2.1.2 数据挖掘发展历程 |
2.1.3 数据挖掘常用的方法 |
2.2 中文邮件文本信息预处理 |
2.2.1 中文分词的主要方法 |
2.2.2 特征词提取 |
2.3 Hadoop分布式平台分析 |
2.3.1 HDFS分布式文件系统分析 |
2.3.2 MapReduce框架分析 |
2.4 本章小结 |
第3章 Hadoop平台贝叶斯算法分类研究 |
3.1 贝叶斯技术原理 |
3.1.1 贝叶斯技术历史概述 |
3.1.2 贝叶斯相关定义和公式 |
3.2 朴素贝叶斯文本分类 |
3.2.1 两种分类器 |
3.2.2 两种事件模型 |
3.3 朴素贝叶斯算法在邮件过滤中的应用 |
3.3.1 模型构建 |
3.3.2 朴素贝叶斯算法的优缺点 |
3.3.3 模型优化 |
3.4 本章小结 |
第4章 Hadoop平台邮件过滤流程设计 |
4.1 MapReduce分布式编程模型 |
4.2 优化算法的MapReduce模型 |
4.2.1 朴素贝叶斯邮件过滤算法设计 |
4.2.2 MapReduce模型的邮件预处理模块 |
4.2.3 MapReduce模型的邮件训练模块 |
4.2.4 MapReduce模型的邮件过滤模块 |
4.3 实验环境搭建 |
4.3.1 Hadoop云计算平台 |
4.3.2 Hadoop平台搭建流程 |
4.4 本章小结 |
第5章 实验结果及其分析 |
5.1 实验语料 |
5.2 数据评价指标 |
5.3 实验结果展示 |
5.4 实验结果分析 |
5.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文和获得的科研成果 |
致谢 |
(10)中文垃圾邮件过滤方法的研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题的研究背景 |
1.1.1 垃圾邮件概述 |
1.1.2 主要应用领域及研究现状 |
1.1.3 中文垃圾邮件过滤面临的挑战 |
1.2 研究目的与意义 |
1.3 本文的主要工作 |
1.4 本文的组织结构 |
第2章 中文垃圾邮件过滤技术 |
2.1 朴素贝叶斯算法原理 |
2.2 中文垃圾邮件概述 |
2.2.1 中文垃圾邮件现状 |
2.2.2 中文垃圾邮件的异同 |
2.3 朴素贝叶斯过滤方法 |
2.4 本章小结 |
第3章 中文垃圾邮件过滤中的分词算法 |
3.1 中文邮件分词方法介绍 |
3.2 中文分词词典TRIE树 |
3.2.1 词典的树型结构组织 |
3.2.2 树型结构的生成 |
3.2.3 词匹配过程 |
3.3 基于基本短语模式的中文邮件分词 |
3.3.1 基于基本短语模式分词的意义 |
3.3.2 基本短语的界定和语义分析 |
3.3.3 基于基本短语分词过程 |
3.4 本章小结 |
第4章 改进的中文垃圾邮件过滤算法 |
4.1 特征项提取 |
4.1.1 特征项提取的意义 |
4.1.2 特征评估函数介绍 |
4.2 互信息特征评估函数 |
4.2.1 互信息特征评估函数的不足 |
4.2.2 改进的互信息特征评估函数 |
4.3 改进的中文垃圾邮件过滤方法 |
4.4 仿真实验 |
4.4.1 邮件样本的收集 |
4.4.2 分词算法测试及分析 |
4.4.3 基于基本短语模式特征向量空间的测试与分析 |
4.4.4 改进的朴素贝叶斯中文垃圾邮件过滤的测试与分析 |
4.5 本章小结 |
第5章 结论与展望 |
5.1 结论 |
5.2 展望 |
致谢 |
参考文献 |
攻读学位期间发表的学术论文及参加科研情况 |
四、中文分词在邮件过滤系统中的应用(论文参考文献)
- [1]基于集成学习的个性化垃圾邮件过滤技术研究与应用[D]. 向平常. 北京交通大学, 2020(03)
- [2]基于fastText的垃圾邮件过滤算法研究[D]. 闫秘. 华南理工大学, 2020(02)
- [3]改进朴素贝叶斯算法在垃圾邮件过滤中的应用[D]. 王斯琴. 重庆师范大学, 2020(05)
- [4]基于卷积神经网络的邮件管理系统的设计与实现[D]. 路永鑫. 华中师范大学, 2020(12)
- [5]基于贝叶斯分类的垃圾邮件过滤技术研究[D]. 王鹿. 上海工程技术大学, 2020(04)
- [6]基于中文文本挖掘的邮件过滤系统的设计与实现[D]. 林文鹏. 沈阳理工大学, 2020(08)
- [7]基于主题模型的垃圾邮件过滤系统的设计[D]. 杨平. 黑龙江大学, 2018(08)
- [8]基于内容的垃圾邮件过滤系统的设计与实现[D]. 陶峰. 武汉邮电科学研究院, 2018(07)
- [9]Hadoop平台垃圾邮件过滤算法研究与实现[D]. 种飞. 沈阳理工大学, 2018(01)
- [10]中文垃圾邮件过滤方法的研究[D]. 魏如玉. 辽宁大学, 2016(02)