文本特征向量论文-方秋莲,王培锦,隋阳,郑涵颖,吕春玥

文本特征向量论文-方秋莲,王培锦,隋阳,郑涵颖,吕春玥

导读:本文包含了文本特征向量论文开题报告文献综述及选题提纲参考文献,主要关键词:朴素Bayes分类器,特征选择,TFIDF算法,N-gram模型

文本特征向量论文文献综述

方秋莲,王培锦,隋阳,郑涵颖,吕春玥[1](2019)在《朴素Bayes分类器文本特征向量的参数优化》一文中研究指出采用朴素Bayes算法建立中文文本自动分类器,并研究相关参数的选择问题,以实现中文文本的高效分类.首先在模型训练阶段,采用N-gram模型处理训练数据集提取特征向量;然后使用朴素Bayes算法建立文本分类器;最后在模型测试阶段,为提高分类准确率,使用词频-反文档频率算法对测试样本进行特征向量提取.实例分析结果表明,在提取训练集特征向量时,2-gram模型和4-gram模型的特征提取效果最佳;在选取特征向量长度时,长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率;在确定特征项词性方面,同时选取动词和名词可使分类器准确率达到最高,仅选取动词时准确率最低.(本文来源于《吉林大学学报(理学版)》期刊2019年06期)

古倩[2](2019)在《基于特征向量构建的文本分类方法研究》一文中研究指出文本是多样信息的来源,由于其非结构化特性,从中获取见解耗时过多且相对困难。文本分类是自然语言处理领域中的经典主题,是根据内容分配预定义标签或类别的过程。神经网络作为处理文本分类的主流技术,是一种自动化预测分析方法。基于神经网络模型来构建特征向量的文本表示方法能够准确获取词义、语义信息,但易呈现高稀疏性,且文本分类模型中针对特定情况常会出现分类性能不佳的情况。面对上述问题,本文进行了如下研究:(1)文本表示方面。针对GloVe模型在词向量表示训练过程中存在大批量无关词的问题,本文提出了一种基于WT-GloVe的词向量加权模型。首先,借助基于词间距和类间贡献度的特征加权算法进行特征词提取;其次,根据GloVe模型的自身缺点提出了一种过滤无关词方法,以提高词向量训练质量;最后,结合基于词间距和类间分布的特征加权算法以及无关词过滤后的GloVe共同生成了加权词向量模型,有效获取特征词的重要程度及语义信息,构成新的词向量加权模型。实验结果表明,相同环境下与其它同类模型相比,基于WT-GloVe的词向量加权模型能有效提高分类效果。(2)文本分类方面。针对fastText模型在中文文本分类时,子词嵌入方法所获取词信息效果不明显且产生大量冗余词条的问题,本文提出了一种基于STL-fastText的文本分类模型。首先,在TF-IDF算法基础上提出了基于相关性的低频词加权算法;其次,将整个语料库作为LDA模型的输入,对文本内容进行主题分析以便学习其主题词分布,将所得结果作为低频高区分度特征的补充;最后,对fastText模型的输入层进行词典重构,将特征补充后所得新词典作为隐藏层的输入,完成STL-fastText模型的构建。实验结果表明,相同环境下与其它同类模型相比,基于STL-fastText的文本分类模型能有效提高了中文短文本的分类效果。(本文来源于《西安理工大学》期刊2019-06-30)

彭怀瑾[3](2019)在《基于LDA和潜在特征向量的文本表示模型研究》一文中研究指出文本分类作为处理非结构化信息的一种有效手段,在自然语言处理领域得到了广泛研究和应用。然而由于文本数据具有非结构化、高维性、高稀疏性等特征,因此能否有效地表示文本信息是影响后续文本处理效果的关键因素,文本分类的效果也高度依赖于文本表示模型的效果。常用的文本表示方法是基于文本主题的文本表示,因此主题模型的准确度直接影响文本表示的精度。本文主要从文本主题模型和文本表示模型两个方面展开研究。LDA模型是以全局的观念预测文档中的每个词,但它不包含文本特征词的上下文关系,缺失了文章的局部语义信息。目前基于LDA和潜在特征的模型改进方法分为两类,一类针对短文本,通过在大语料集上扩展词向量库改善模型效果;另一类通过词向量加和直接计算主题向量,此类方法词向量与主题向量分属不同语义空间,表示并不准确。考虑到LDA与现有改进模型的优缺点,本文将包含了文本语义特征的潜在特征向量引入模型,提出了基于LDA和潜在特征向量的文本主题表示模型LFV-LDA,在同一语义向量空间训练词向量、主题向量以及文档-主题-词的层次分布,改进后的模型可以直接输出文本主题向量。在新闻语料上对LFV-LDA模型进行训练和测试的实验结果表明,基于LDA和潜在特征向量的文本主题表示效果相对于传统的主题模型以及同类的LDA改进模型有了一定程度的改善。获得在文本分类中表现良好的文本主题向量后,本文在此基础上提出了两种文本表示方法。第一种是基于主题向量的概率分布关系的文本表示方法,该方法通过归一化加权统计主题向量的方式进行文本表示。第二种是基于Doc2Vec和主题向量的文本表示模型,该模型通过度量模型训练出的文档向量与主题向量的距离来将主题信息融入文本表示。最后在新闻语料上对模型进行训练和测试,实验结果表明,两个模型相较于传统模型都获得了更好的文本分类效果,且第二种文本表示模型效果优于第一种。(本文来源于《北京邮电大学》期刊2019-04-14)

孟涛,王诚[4](2019)在《基于扩展短文本词特征向量的分类研究》一文中研究指出由于短文本的文档长度较短,短文本中词语的共现信息非常匮乏,造成短文本信息稀疏性问题。信息稀疏性也成为了传统主题模型在短文本上难以取得突破性进展的瓶颈之一。针对短文本分类,充分利用短文本中的每一个词语并解决其稀疏性成为关键。为了解决这一问题,基于Word2vec模型对短文本进行词嵌入扩展以解决其稀疏性,并将词向量转换成概率语义分布来测量语义关联性;针对短文本扩展后的特征向量,利用改进后的特征权重算法并引入语义相关度去处理扩展后的词特征向量。该方法可以区分出扩展后的短文本中词的重要程度,以便获得更准确的语义相关性。短文本分类研究采用KNN算法分类,实验结果表明,通过在外部语料集上学习得到的语义相关性扩展来处理短文本特征,可以有效提高短文本的分类效果。(本文来源于《计算机技术与发展》期刊2019年04期)

李红灵,邹建鑫[5](2017)在《基于SVM和文本特征向量提取的SQL注入检测研究》一文中研究指出SQL注入攻击具有危害大、攻击类型多、变异快、攻击隐蔽等特点,备受关注。文章提出一种基于SVM和文本特征向量提取的SQL注入检测技术,该技术结合了机器学习和自然语言统计技术。检测过程分为文本分析、特征提取和分类3个主要部分。SQL注入检测包括文本采集、基本特征提取、变形特征的数据统计、文本空间向量模型建立、模型训练、产生分类器、进行分类并得出分类结果等过程。实验结果显示,基于SVM和文本特征向量提取进行SQL注入检测具有很好的分类效果。依据机器学习评价训练模型的边缘曲线、混淆矩阵、效果分析、敏感性分析、特异性分析等评价方法结果显示,经过学习得到的SQL注入检测分类模型有较高的检测率。(本文来源于《信息网络安全》期刊2017年12期)

郭正斌,张仰森,蒋玉茹[6](2017)在《一种面向文本分类的特征向量优化方法》一文中研究指出对文本进行建模的普遍方法是使用向量空间模型构建文本向量,并利用权值调整和维度调整对文本向量进行优化。提出了一种面向文本分类的特征向量优化方法。首先利用剔除近义词方法优化文本向量中的特征项;然后提出贡献率因子的概念,并利用其优化特征值。实验表明,相比朴素贝叶斯分类方法其效果提高了0.96%。因此,通过去除近义词和对提取出的特征词调整权重,可以达到优化特征向量、提高文本分类效果的目的。(本文来源于《计算机应用研究》期刊2017年08期)

郭士串[7](2015)在《结合权重因子与特征向量的文本聚类研究与应用》一文中研究指出文本聚类是通过聚类算法将同类的文本划分到同一簇的过程,该过程涉及到文本预处理和文本聚类算法执行两个方面。文本聚类方法目前已经被广泛的应用于舆情分析、搜索引擎、电子图书等服务。文本聚类过程属于典型的无监督学习方法,在聚类之前无需知道每个类别的描述信息。这也是文本聚类的难点,众多研究者都对其进行研究,并取的了丰富的研究成果。在文本进行聚类之前需对文本进行预处理,需要通过使用数学的方法表示文本,一般通过向量空间模型对文本进行表示。通过该模型表示的文本都是由文本本身的特征词与其权重构成的向量。但通过传统方法计算的特征词权重在表示文本时有一定的局限性,不能通过特征词权重充分体现文本间的差异性。而且在传统模型中不会考虑特征词出现的先后顺序,更不会考虑特征词在不同位置出现代表的意义是否相同。还有文本聚类算法的选择对聚类效果影响也很大,多数聚类算法不能很好的结合文本的编码方案。本文主要对文本聚类方法的改进和应用做了如下研究:1、首先分析了传统特征词权重计算方法对通过特征词权重表示文本的局限性,并且通过权重因子对特征词权重计算方法做出了改进。该方法强调了特征词权重在文本集合中的重要性,而不是单纯的想通过特征词权重表示文本,增强了同类文本之间的相似度。并在对文本进行编码时修改了传统的VSM编码方案,使文本向量由四条特征向量组成,并对特征向量加上位置权重信息。最后考虑到文本编码方案的修改对文本间相似度计算的影响,重构了文本相似度计算公式。2、其次根据改进的文本预处理和编码方案,通过遗传控制因子(GCF)对遗传K-均值文本聚类算法进行改进。使用GCF对遗传算子操作进行控制,使得算子中的优质个体一定被引入下一代,从而克服了遗传K-均值算法算子操作的低效性。使其应用到本文改进的文本编码方案中能更好的改进聚类效果并且提高聚类精度。最后对改进的文本聚类方法进行实验分析,证明了改进的方法在文本聚类精度上有明显提高。3、最后将结合权重因子和特征向量改进的文本聚类算法应用到舆情热点发现中,对具体应用做了详细分析和流程安排。实验结果表明,改进方法对舆情热点的趋势和预警研究很有帮助。(本文来源于《江西理工大学》期刊2015-05-27)

董跃华,郭士串[8](2015)在《结合权重因子与特征向量改进的文本聚类算法》一文中研究指出为解决特征词权重表示文本时存在的局限性和遗传K-均值算子操作的低效性问题,提出一种包含文本预处理和改进算法的文本聚类方法。根据权重因子和特征向量进行文本预处理,更好体现文本间的差异性,通过遗传控制因子控制个体的交叉和变异,对交叉和变异概率采用自适应控制,确保优质个体顺利进入到下一代种群,体现遗传算法的全局优化能力和K-均值算法的高效局部搜索能力。实验结果表明,该方法使特征词分类精度得到提高,改善了文本聚类效果。(本文来源于《计算机工程与设计》期刊2015年04期)

李敏,余正涛[9](2012)在《结合加权特征向量空间模型和RBPNN的文本分类方法》一文中研究指出提出了一种结合加权特征向量空间模型和径向基概率神经网络(RBPNN)的文本分类方法.该方法针对传统的文本特征提取方法的不足,根据文本中特征项的位置信息和所属类别信息定义特征权重,然后,依据特征项的权值计算文档特征项的频数,通过TFIDF函数计算特征值并得到文本的特征向量,最后,采用RBPNN网络分类,通过最小二乘算法求解神经网络的第二隐层和输出层之间的权值,最终训练获得文本分类模型.文本分类实验结果表明,该方法在文本分类中表现出较好的效果,具有较好查全率和查准率.(本文来源于《计算机系统应用》期刊2012年12期)

阮冰[10](2010)在《基于特征向量的文本信息过滤算法研究》一文中研究指出随着信息技术的迅速发展,网络已经逐步成为人们生活当中不可或缺的信息传播工具。由于网络资源的大量使用和信息的大量传输,导致信息过载及安全等问题日益突出。为了解决信息过滤的过滤精度和效率瓶颈等问题,这里详细地对文本信息过滤的主要过程、文本表示方法、特征向量获取、相似度计算等技术进行研究,提出一个基于特征向量的文本信息过滤算法。该过滤算法有效地平衡了计算负载,具有较高的信息过滤性能。(本文来源于《现代电子技术》期刊2010年04期)

文本特征向量论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

文本是多样信息的来源,由于其非结构化特性,从中获取见解耗时过多且相对困难。文本分类是自然语言处理领域中的经典主题,是根据内容分配预定义标签或类别的过程。神经网络作为处理文本分类的主流技术,是一种自动化预测分析方法。基于神经网络模型来构建特征向量的文本表示方法能够准确获取词义、语义信息,但易呈现高稀疏性,且文本分类模型中针对特定情况常会出现分类性能不佳的情况。面对上述问题,本文进行了如下研究:(1)文本表示方面。针对GloVe模型在词向量表示训练过程中存在大批量无关词的问题,本文提出了一种基于WT-GloVe的词向量加权模型。首先,借助基于词间距和类间贡献度的特征加权算法进行特征词提取;其次,根据GloVe模型的自身缺点提出了一种过滤无关词方法,以提高词向量训练质量;最后,结合基于词间距和类间分布的特征加权算法以及无关词过滤后的GloVe共同生成了加权词向量模型,有效获取特征词的重要程度及语义信息,构成新的词向量加权模型。实验结果表明,相同环境下与其它同类模型相比,基于WT-GloVe的词向量加权模型能有效提高分类效果。(2)文本分类方面。针对fastText模型在中文文本分类时,子词嵌入方法所获取词信息效果不明显且产生大量冗余词条的问题,本文提出了一种基于STL-fastText的文本分类模型。首先,在TF-IDF算法基础上提出了基于相关性的低频词加权算法;其次,将整个语料库作为LDA模型的输入,对文本内容进行主题分析以便学习其主题词分布,将所得结果作为低频高区分度特征的补充;最后,对fastText模型的输入层进行词典重构,将特征补充后所得新词典作为隐藏层的输入,完成STL-fastText模型的构建。实验结果表明,相同环境下与其它同类模型相比,基于STL-fastText的文本分类模型能有效提高了中文短文本的分类效果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本特征向量论文参考文献

[1].方秋莲,王培锦,隋阳,郑涵颖,吕春玥.朴素Bayes分类器文本特征向量的参数优化[J].吉林大学学报(理学版).2019

[2].古倩.基于特征向量构建的文本分类方法研究[D].西安理工大学.2019

[3].彭怀瑾.基于LDA和潜在特征向量的文本表示模型研究[D].北京邮电大学.2019

[4].孟涛,王诚.基于扩展短文本词特征向量的分类研究[J].计算机技术与发展.2019

[5].李红灵,邹建鑫.基于SVM和文本特征向量提取的SQL注入检测研究[J].信息网络安全.2017

[6].郭正斌,张仰森,蒋玉茹.一种面向文本分类的特征向量优化方法[J].计算机应用研究.2017

[7].郭士串.结合权重因子与特征向量的文本聚类研究与应用[D].江西理工大学.2015

[8].董跃华,郭士串.结合权重因子与特征向量改进的文本聚类算法[J].计算机工程与设计.2015

[9].李敏,余正涛.结合加权特征向量空间模型和RBPNN的文本分类方法[J].计算机系统应用.2012

[10].阮冰.基于特征向量的文本信息过滤算法研究[J].现代电子技术.2010

标签:;  ;  ;  ;  

文本特征向量论文-方秋莲,王培锦,隋阳,郑涵颖,吕春玥
下载Doc文档

猜你喜欢