自动文本分类论文_杨帅

导读:本文包含了自动文本分类论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:编码器,文本,神经网络,模型,算法,卷积,摘要。

自动文本分类论文文献综述

杨帅[1](2019)在《基于自动编码器的跨领域文本分类研究》一文中研究指出近年来,自动编码器被广泛用于跨领域文本分类任务,其中降噪自动编码器可以学到抽象、鲁棒的特征表示,在跨领域学习任务上取得令人满意的结果。在先前的工作中,降噪自动编码器将噪音系数设置为一个常量,然而,不同的跨领域任务因数据分布差异不同,对噪音系数敏感程度不同;此外,基于自动编码器在学习新的特征表示时,没有保存原始数据的局部几何结构信息,导致在原始特征空间距离较近的实例,可能在新的特征空间相距较远;而且在新的特征空间,源领域和目标领域之间的散度有可能变大,这给已有基于降噪自动编码器的跨领域分类方法带来了极大的挑战。针对上述问题,本文基于自动编码器,围绕文本数据的分类问题展开研究,主要工作如下:(1)针对不同的跨领域任务对噪音系数比较敏感问题,提出一种基于自适应噪音边缘降噪自动编码器(mSDA-AP)用于跨领域文本分类。该方法首先选取源领域和目标领域的共享特征词和特有特征词,并对特征进行加权以扩大极性较强的特征的比例;然后根据领域间共享特征词的分布差异计算噪音系数,并用该噪音系数对输入数据进行干扰;最后基于边缘降噪自动编码器(mSDA)获取新的特征空间构建分类器并对目标领域中未标记数据进行分类。实验结果表明该方法可以取得比基线算法更好的分类精度。(2)针对采用Frobenius范数衡量重构误差的自动编码器对异常数据比较敏感问题,我们提出了一种基于L_(2,1)范数堆迭自动编码器(SRAAR)用于跨领域文本分类。该方法采用L_(2,1)范数衡量原始特征空间和新特征空间的重构误差,在学习特征表示的目标函数中引入了流行正则化项和最大均值差异(MMD)项用于保存数据的局部几何结构信息和最小化领域间的分布散度。然后,基于新的特征表示构建分类器对目标领域样本分类。实验结果表明该方法在跨领域文本分类任务上性能优异。(本文来源于《合肥工业大学》期刊2019-04-01)

朱翔[2](2018)在《基于分布式表示的文本分类与自动摘要方法研究》一文中研究指出自然语言处理首先要应对的是如何表示文本以供机器处理,将文本元素向量化是一个很好的方式。分布式表示模型(Distributed Representation Model)通过神经网络训练将文本元素映射成固定长度的向量,且向量间的距离能够刻画文本元素间语义的相关性,克服了one-hot向量维数太高且不能刻画文本元素间联系的缺陷。本文在文本分布式表示的基础上设计了新的文本分类算法与多文档自动摘要算法。针对文本图模型结构维数庞大与极其稀疏等问题,本文将词语的分布式表示与文本图模型表示方法结合,设计了文本的概念有向图模型。首先将文本中的词语映射为词向量,通过词向量聚类将语义相关性较高的词语聚为概念。然后按照词语的顺序关系构建概念有向图模型,将文本的概念有向图模型对应的邻接矩阵保存为灰度图像,将自然语言处理任务转变为图像处理任务,实现从文本到灰度图的映射。最后设计了一个叁层卷积神经网络,对文本灰度图进行分类,将分类结果与其它文本分类算法作比较,结果表明本文提出的算法好于其它叁种文本分类算法。针对国内多文档自动摘要研究中常出现缺乏摘要句消冗的问题,本文将句子的分布式表示与谱聚类算法结合,设计了基于谱聚类的多文档自动摘要算法。首先将文本中的句子映射为句向量,利用谱聚类算法对句向量聚类,将文档划分为各个子主题文档。然后在各个子主题文档中建立句关系图模型,利用TextRank算法迭代句子权重。最后抽取权重最大的句子作为摘要句,按摘要句在原文中的位置排序组成摘要。的内部评价方式常需要人工的参与而无法做到评价高效与客观等问题,本文提出了基于文本信息熵的摘要自动评价方法。通过摘要与原文档信息熵的比值来衡量摘要的质量,该评价方法并不需要人工来撰写参考摘要,利用此评价方法将本文提出的多文档自动摘要算法与其它自动摘要算法作比较,结果表明本文提出的多文档自动摘要算法效果要好于其它两种自动摘要算法。(本文来源于《山东工商学院》期刊2018-06-15)

靖慧[3](2018)在《大数据知识工程中基于自动编码器的文本分类研究与应用》一文中研究指出现如今随着科学技术的发展,网络上的数据越来越多,尤其是随着网络的不断发展,网络上的信息量也急剧增长,信息的格式(视频、文本、音频等)也变得多样化。其中,文本信息对人们日常生活非常重要,怎样才能从杂乱无章的文本中获取有用的信息变得困难。高维的文本数据增加模型训练的复杂度,给大数据知识工程中信息的提取带来难度。大数据知识工程中最常用的文本处理方式是文本分类,通过文本分类技术高效地提取文本中隐藏的信息变得尤为重要。在1957年,美国科学家H.P.Luch第一次提出了文本分类技术,之后文本分类技术一直都是数据挖掘领域研究的重要课题,通过多年研究发展,已经研究出了很多有效的文本分类方法,而且很好地应用在实际生活中。本文基于深度学习中发展较好的自动编码器以及其无监督的特征学习方式来研究上述问题。(1)针对以往对于TFIDF的研究不足,提出了一种新的TFIDF计算文本特征词权重方法,将提出的新TFIDF与传统的TFIDF方法和张玉芳等人改进的TFIDF方法进行对比,实验证明提出的改进的TFIDF方法能更准确的计算特征词权重。(2)针对传统自动编码器特征提取效率不高问题,提出了一种新的混合自动编码器模型,先用两层堆迭的稀疏自动编码器初步学习文本特征,学习到的特征矩阵作为卷积神经网络的输入,进一步对文本特征进行学习,减少模型训练参数,提取更加准确的文本特征,降低文本维度。最后将文本特征送入SVM分类器,得出分类结果,将提出的混合模型和单一的稀疏自动编码器在分类准确率上进行对比分析实验,实验证明提出的混合模型提高了特征提取的效率和分类准确率。(3)为提高混合模型训练效率,减少混合模型训练时间,将混合模型训练过程放在Spark平台上进行分布式处理,并与单机运行处理文本数据的效率进行对比。实验证明使用Spark平台并行化处理降低了混合模型的训练时间,提高分类效率。(本文来源于《齐鲁工业大学》期刊2018-05-23)

李擎[4](2018)在《基于语义词向量的文本分类多文档自动摘要》一文中研究指出多文档自动摘要技术是自然语言处理领域的重要研究课题,其旨在通过对多篇文本文档利用相关信息抽取技术得到压缩的文本信息,解决信息碎片化和信息冗余问题,从而在海量的信息中为用户获得简洁可读的高效文本信息,有效降低用户的信息负载,提高用户读取信息的效率。传统的多文档自动摘要技术多采用抽取与文档相关性较高的重要句子作为摘要候选句,但在生成摘要过程中,对于词语之间的语义判断缺失,并且在满足用户个性化需求方面,目前的研究基于给定的小规模文档,而且不能够自动识别用户输入主题词、短语或者句子的语义关联。随着新技术的兴起,学者开始研究结合新技术应用在自动摘要领域,针对于此,本课题将传统的摘要生成技术与深度学习技术相结合,建立面向用户查询的系统,提出本文基于语义的文档匹配方法,实现基于用户查询在大规模语料库中进行相关文档匹配,并结合词向量模型针对匹配文档提出一种改进的基于语义的自动摘要生成方法,解决传统的语义缺失问题,满足用户的个性化需求,使得最终得到的摘要语义相关性更强冗余性更低,主要研究工作如下:1)建立面向用户查询的摘要生成系统,将文档检索与普通的抽取式摘要系统相结合,提出基于语义关键词的文档匹配方法,在实现过程中提出一种改进的基于语义词向量的关键词提取方法,解决关键词提取过程中的语义缺失问题。2)研究面向用户查询进行文档语义匹配的方法,提出本文基于语义向量包的文档匹配算法。3)研究基于词向量的自动摘要生成方法,基于Word2vec的句向量包提出一种改进的基于句向量包的聚类方法完成聚类,基于用户主题和句子权重对句子子集提取基于中心主题句的摘要句,并研究通过句子向量包对句子进行去冗余。4)研究摘要句抽取结果的评测方法,通过随机选择全网新闻语料库的测试文档对抽取的摘要句进行评测,并与其他摘要提取方法进行对比,分析本系统的评测效果。(本文来源于《北京邮电大学》期刊2018-03-20)

郭勃[5](2018)在《自动问答系统中问题文本分类、答案抽取技术研究》一文中研究指出客服服务作为各个企业和公司产品售后服务和公司业务咨询服务的重要组成部分,有着广泛的应用。随着互联网的快速发展,各种依靠网络的即时通讯软件极大地方便了人们的日常生活,微信作为如今用户最多的通讯软件,用户群体广大且微信公众号提供了二次开发的接口,因此基于微信构建客服系统在开发成本,推广成本,用户体验上具有较大的优势。微信客服系统中的自动问答功能是一个十分重要的模块,一方面减轻了客服人员的工作量,另一方面使用户得到更加快捷有效的客服服务。自动问答系统可以很好的应用到客服系统中去,提升客服系统的服务质量和效率。论文基于微信客服系统的自动问答模块,具体研究了其中两个重要的技术,一个是问题文本分类技术,另外一个是答案抽取技术。本文的整体内容安排按照如下顺序所述:本文首先对微信客服系统的整体构架进行了介绍,对其如何工作,运行的相关步骤进行了说明。并且对主要研究的问答模型进行了细致的说明,介绍了微信客服系统中问答模块中的问题分析模块,候选答案检索模块和答案抽取模块。上述功能模块都在系统中进行了相应的实现。接着本文对问题分析模块中的问题文本分类技术和答案抽取技术进行了详细阐述。在问题文本分类中,传统机器学习方法存在的问题如深层句法语法特征的提取困难,特征稀疏等问题,使用深度学习的方法可以自动提取文本特征但是需要相对较多的训练数据,而浅层线性模型具有较强的记忆能力。因此本文结合组合的深度模型与线性模型提出了改进的问题分类模型。在答案抽取模块中,本文将其同样看作一个分类问题,针对传统机器学习方法特征提取的相关问题,提出了改进模型,首先利用深度神经网络框架提取原始文本特征,然后提取文本浅层句法特征,将其输入到普通神经网络,最后分别得到了问题答案文本的特征,构建问答匹配框架,完成答案抽取模块的功能。本文通过与现有不同方法的对比实验证明了本文的文本分类方法和答案抽取方法的有效性,并展示了实验的结果。最后本文实现了基于微信的客服系统,将所研究的问题分类技术和答案抽取技术应用到了系统的自动问答模块,使得整个客服系统更加高效,智能。(本文来源于《昆明理工大学》期刊2018-03-01)

刘博斐,雒琛[6](2017)在《使用内容文本分类方法自动对存储在云数据管理系统内的大数据进行分类》一文中研究指出管理电子文档最好的策略当属于给文档建立索引并且对其进行有效地分类。大多数的组织都将其文档存储在以关键字命名的文件结构中。然而将文件分发在合适的文件结构必须由对此文件结构非常了解的人来完成,只有他们能保证分类的准确性。在以前,这样的员工需要花费大量的时间进行文件的人工分类。这样的工作非常耗时,枯燥和乏味。有时一些错误由员工对文件结构系统的知识匮乏或个人的疏忽引起,而这样的错误会降低其他员工获取文件的效率。为了得到更高的准确率并减轻员工的负担,企业都很希望能部署一个自动分类的解决方案,以达到员工更有效及更准确的获取存储信息。(本文来源于《电子技术与软件工程》期刊2017年20期)

王郝日钦[7](2017)在《基于自动编码器的文本分类实现》一文中研究指出21世纪的时代是信息的时代,随着计算机技术、数据存贮技术日新月异的发展和改进,应用领域也得到了快速扩展,世界也随着信息的大量涌入而发生着天翻地覆的变化,文本数据资源正以指数级的速度增长着。对于许多用户来说面对如此大量的文本信息,但知识却相对贫乏的现象,人们从大量的信息中获取有意义的、相关性强、具有针对性的知识变得困难,所以将文本信息按照自动编码器分类是一个迫切需要解决的问题,也是文本数据存储发展的必经之路。(本文来源于《中国高新区》期刊2017年16期)

靖慧,杨振宇,于敏[8](2017)在《基于改进的TFIDF和压缩自动编码器文本分类研究》一文中研究指出为了提高文本分类的分类效果和降低分类的错误率,本文将深度学习中的压缩自动编码器逐层迭加,提出基于改进的TFIDF和堆迭的压缩自动编码器SCAE(Stack Contractive Auto-Encoder)的文本分类思想,将SCAE构成深度神经网络,无监督的训练学习文本,提高特征提取的鲁棒性,并使用反向传播算法优化网络中的参数,在计算特征词的权重时,采用本文改进的TFIDF方法。通过实验将CAE和SAE(稀疏自动编码器)进行比较,采用支持向量机(SVM)分类。实验表明,单层的CAE比单层的SAE的分类性能更好,堆迭压缩编码器学习比堆迭的稀疏编码器的分类性能同样要好。(本文来源于《齐鲁工业大学学报(自然科学版)》期刊2017年03期)

赵强[9](2017)在《启发式算法在自动文本分类中的研究与应用》一文中研究指出互联网规模和应用领域不断扩张,海量的信息和资源以电子化形式记录,文本是其中使用最频繁的方式。大数据背景下对海量文本进行内容检索、管理和信息挖掘提出新的挑战,基于模式识别的文本分类技术占据主导地位。在自然语言处理和信息过滤应用中,文本语料存在标签多样性、关联复杂性和更新变化频繁等特征且随其规模增长矛盾愈演愈烈。文本挖掘当前存在扩展不便、数据集缺乏等困难,需求高精确度,低时、空消耗之综合解决方案。启发式算法是人们在生活和实践中,通过观察自然规律,生物行为,物理变化和社会行为所总结出用来解决问题的经验、规则和方法。启发模型对于解决组合优化问题具备应用灵活、执行高效和结果可靠之特点,为解决文本分类问题提供新的途径。现有文本分类模型中已经尝试使用局部搜索、遗传算法等启发式手段实现组合寻优,但存在迭代时间过长、精确度不高之问题。论文将启发式算法与文本分类技术结合与改进,并以此为核心设计实现了教育网网络环境净化系统。首先提出可以作为有标签特征集或样本集线性可分程度评价方法的LW测量。LW是线性度量方式,计算时间复杂度低、精确度高以及对噪声抗干扰性强。LW越高,表示特征集或样本集在类别划分层面,线性可分程度愈优秀,此时该特征集或样本集在分类问题上表现愈好,尤其是线性目标函数的模型。其次,将遗传算法和模拟退火算法两种启发式算法与文本挖掘技术结合,提出LW-GA和LW-SA两种特征选择模型。LW-GA结合LW和遗传算法,LW测量与遗传算法分别解决高维问题搜索特征域空间与迭代评价特征集耗时长问题。LW-SA集合LW和模拟退火算法,LW测量与模拟退火算法分别针对遍历特征空间问题与控制特征选择迭代终止问题。在实际语料集上进行设计实验,两种模型取得很好的效果,在保证可靠性的前提下极大缩减了执行时间,相关成果已经在国内外期刊公开发表。最后,以上述文本分类技术为核心,设计与实现教育网网络环境净化系统,其本质是信息识别、过滤与阻断的综合解决方案。经实地部署与测试,教育网网络环境净化系统可用于净化校园环境,维护青少年身心健康。(本文来源于《电子科技大学》期刊2017-03-29)

许奇功[10](2017)在《KNN算法的改进及其在自动文本分类中的应用》一文中研究指出在当今大数据时代下,随着互联网的快速发展,在线文档信息迅速增加。Web是当下最为主要的信息库,而文本又是在Web中占有最大份额的信息载体。如何从海量的Web文本信息中提取出用户所需要的信息,成为了当今的一大热门课题。而文本自动分类技术作为其中最为重要和基础的信息处理方法之一,一直以来成为人们广泛关注和研究的热点。K最近邻方法(K-Nearest Neighbor,KNN)以其概念清晰、鲁棒性好、具有较好的准确率和召回率等优点而被沿用至今,同时它被证明是向量空间模型(VSM)下最好的文本分类方法之一。然而KNN算法作为一种懒惰算法也有其不足:第一,当训练样本集过大时,KNN算法的计算开销会过于庞大,效率下降明显;第二,当训练样本集分布不均匀时,很容易出现类偏向现象,使得分类的准确率有所下降。针对以上提出的KNN算法的不足之处,本文的改进目标:一是缩减大训练集的计算开销,二是平衡非均匀样本集产生的类偏斜。首先,对于样本集过大的问题,本文提出改进KNN算法一,即基于类内K-Means聚类的KNN算法(KCKNN)。KCKNN能够通过类内聚簇,然后比较各个簇中心向量与待分类样本的相似度,以相似度高的簇作为该待分类样本的训练样本集合。改进算法可以针对不同的待分类样本选出各个类别中最具代表性的训练样本,从而达到裁剪训练样本集的目的,使得在保证分类准确率基本不变的前提下大幅缩减分类时间。实验表明,改进算法能够在保证分类效果基本不退化的基础上大幅缩减分类的计算开销。其次,对于训练样本集分布不均而出现的类偏斜问题,本文提出改进KNN算法二,即基于类别平均距离和样本与类别样本数量综合考虑的新型决策加权KNN算法(IWKNN)。类别平均距离是指一个训练样本类别内各个样本直接距离的平均值,其隐含样本类别的重要信息;类别样本数量,则反映了该样本被选中的概率的大小。依据上述两个信息点对KNN算法的决策加权进行重新规定,能够有效地降低类偏斜现象的发生,从而提升分类的准确率。实验表明,改进算法能够有效地提升非均匀样本集下分类的准确率。最后总结全文,并对KNN算法在文本自动分类下的应用改进的进一步研究方向进行展望。(本文来源于《福州大学》期刊2017-02-01)

自动文本分类论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

自然语言处理首先要应对的是如何表示文本以供机器处理,将文本元素向量化是一个很好的方式。分布式表示模型(Distributed Representation Model)通过神经网络训练将文本元素映射成固定长度的向量,且向量间的距离能够刻画文本元素间语义的相关性,克服了one-hot向量维数太高且不能刻画文本元素间联系的缺陷。本文在文本分布式表示的基础上设计了新的文本分类算法与多文档自动摘要算法。针对文本图模型结构维数庞大与极其稀疏等问题,本文将词语的分布式表示与文本图模型表示方法结合,设计了文本的概念有向图模型。首先将文本中的词语映射为词向量,通过词向量聚类将语义相关性较高的词语聚为概念。然后按照词语的顺序关系构建概念有向图模型,将文本的概念有向图模型对应的邻接矩阵保存为灰度图像,将自然语言处理任务转变为图像处理任务,实现从文本到灰度图的映射。最后设计了一个叁层卷积神经网络,对文本灰度图进行分类,将分类结果与其它文本分类算法作比较,结果表明本文提出的算法好于其它叁种文本分类算法。针对国内多文档自动摘要研究中常出现缺乏摘要句消冗的问题,本文将句子的分布式表示与谱聚类算法结合,设计了基于谱聚类的多文档自动摘要算法。首先将文本中的句子映射为句向量,利用谱聚类算法对句向量聚类,将文档划分为各个子主题文档。然后在各个子主题文档中建立句关系图模型,利用TextRank算法迭代句子权重。最后抽取权重最大的句子作为摘要句,按摘要句在原文中的位置排序组成摘要。的内部评价方式常需要人工的参与而无法做到评价高效与客观等问题,本文提出了基于文本信息熵的摘要自动评价方法。通过摘要与原文档信息熵的比值来衡量摘要的质量,该评价方法并不需要人工来撰写参考摘要,利用此评价方法将本文提出的多文档自动摘要算法与其它自动摘要算法作比较,结果表明本文提出的多文档自动摘要算法效果要好于其它两种自动摘要算法。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

自动文本分类论文参考文献

[1].杨帅.基于自动编码器的跨领域文本分类研究[D].合肥工业大学.2019

[2].朱翔.基于分布式表示的文本分类与自动摘要方法研究[D].山东工商学院.2018

[3].靖慧.大数据知识工程中基于自动编码器的文本分类研究与应用[D].齐鲁工业大学.2018

[4].李擎.基于语义词向量的文本分类多文档自动摘要[D].北京邮电大学.2018

[5].郭勃.自动问答系统中问题文本分类、答案抽取技术研究[D].昆明理工大学.2018

[6].刘博斐,雒琛.使用内容文本分类方法自动对存储在云数据管理系统内的大数据进行分类[J].电子技术与软件工程.2017

[7].王郝日钦.基于自动编码器的文本分类实现[J].中国高新区.2017

[8].靖慧,杨振宇,于敏.基于改进的TFIDF和压缩自动编码器文本分类研究[J].齐鲁工业大学学报(自然科学版).2017

[9].赵强.启发式算法在自动文本分类中的研究与应用[D].电子科技大学.2017

[10].许奇功.KNN算法的改进及其在自动文本分类中的应用[D].福州大学.2017

论文知识图

一自动文本分类的基本过程自动文本分类策略的基本流程自动文本分类过程一1自动文本分类的基本过程自动文本分类结果显示界面(局部)自动文本分类概念模型

标签:;  ;  ;  ;  ;  ;  ;  

自动文本分类论文_杨帅
下载Doc文档

猜你喜欢