导读:本文包含了中文文本自动分类论文开题报告文献综述、选题提纲参考文献,主要关键词:文本,向量,特征,类别,多层,中文,分词。
中文文本自动分类论文文献综述写法
韦灵,黎伟强[1](2019)在《基于机器学习的中文文本自动分类的实践研究》一文中研究指出信息技术应用平台的拓展、互联网用户数量的大幅度增加,使得网络平台成为人们生活、工作的重要阵地,随之而来的,网络数据计算、分类需要以秒级为单位处理,技术难度更大。为深入、全面地开发数据资源的内在价值,进一步提升文本分类的实践技术应用成为当务之急。作为信息检索与数据分类、文本挖掘、信息利用的重要技术手段,文本分类的技术研究已经迈入新的阶段,以非线性、核方法、数据集偏斜与多层分类、web网页分类为代表的技术创新应用,已经成为现阶段文本分类的重要技术研究方向。(本文来源于《智库时代》期刊2019年46期)
韦灵,黎伟强[2](2019)在《基于机器学习的中文文本自动分类的实践研究》一文中研究指出信息技术应用平台的拓展、互联网用户数量的大幅度增加,使得网络平台成为人们生活、工作的重要阵地,随之而来的,网络数据计算、分类需要以秒级为单位处理,技术难度更大。为深入、全面的开发数据资源的内在价值,进一步提升文本分类的实践技术应用成为当务之急。作为信息检索与数据分类、文本挖掘、信息利用的重要技术手段,文本分类的技术研究已经迈入新的阶段,以非线性、核方法、数据集偏斜与多层分类、web网页分类为代表的技术创新应用,已经成为现阶段文本分类的重要技术研究方向。(本文来源于《智库时代》期刊2019年45期)
马双刚[3](2016)在《基于深度学习理论与方法的中文专利文本自动分类研究》一文中研究指出在当前经济全球化的时代,科技成为第一生产力。国家和企业的进步,越来越多地依赖于科技的创新。作为科技载体的专利的数量和质量已经成为衡量国家和企业创新能力的重要指标,因而专利申请的数量大大增加。世界知识产权组织的统计结果表明,专利文本中蕴含了全世界90%-95%的发明创造,表征着世界科技的发展水平。如何从这些专利文本中获取和利用科技信息,为国家和企业的发展提供战略支持,是国内外相关学者和专家研究的重点。而专利文本的分类作为最基础的步骤,制约着专利文本信息的获取和利用。目前,专利文本的分类主要以人工方式为主,自动分类方式已经开始作为辅助手段,但大规模的专利文本自动分类尚未实现,因此研究专利文本的自动分类具有重要的现实意义。基于专利文本的语义特征,借助自动分类技术,专利工作人员能够对大量的专利文本进行自动且高效地分类,提高工作效率的同时,能够更好地对专利文本中蕴含的丰富的科技信息进行分析和利用。因此,本文在对专利文本自动分类的基本框架和基本原理进行系统梳理的基础上,设计了一个基于深度学习理论的中文专利自动文本分类方法,方法的主要内容如下:首先对专利文本进行预处理和特征选择,得到专利文本的形式化表示;然后基于深度学习理论,用降噪自动编码器构建深度学习网络,自动学习得到专利文本的低维特征编码,并在网络的最顶层采用支持向量机算法对其进行分类,根据分类的结果不断调整网络中的各层参数得到分类器;最后采用已知类别的专利文本测试集对分类器进行分类测试,得到测试分类的准确率、召回率和F值以验证本文设计的方法的可行性。另外,为了验证本论文设计方法的有效性和优越性,本文借鉴其他学者的方法,将得到的分类测试结果分别与K近邻算法、支持向量机算法和反向传播神经网络算法等经典算法得到的分类测试结果进行比较。本文设计的专利文本自动分类方法在测试集上平均得到了95%以上的分类准确率和94%以上的分类召回率,优于经典算法,表明本文设计的方法是有效而且优越的。(本文来源于《江苏大学》期刊2016-06-01)
马芳[4](2015)在《基于SUMO本体的中文文本自动分类研究》一文中研究指出在文本分类中,传统的文本表示模型忽略了词语之间的内在关联性,而真实的文本中存在较复杂的语义关系。针对此问题,将SUMO本体引入文本分类模型,利用本体的概念语义关系和清晰的层次结构,对文本内容进行概念映射,使最终特征空间包含更多的语义信息。实验表明,该模型可以有效地提高文本分类的准确性,具有一定的研究意义。(本文来源于《情报科学》期刊2015年06期)
安欢[5](2014)在《中文文本自动分类技术的研究与改进》一文中研究指出随着信息技术的迅猛发展,尤其是网络应用的普及,各类信息以电子文档的形式充斥着人们生活,其规模也在飞速增长。传统的人工方式对信息进行组织和管理的方法,费时费力、代价巨大,在面对大规模数据时也束手无策。对海量信息的科学组织管理日益成为一个重要课题,文本自动分类技术作为这一课题领域的一个重要研究方向,在信息检索、数据挖掘等方面都有很高的应用价值。在我国大部分信息都是用中文记载的,因此对中文的文本的分类显得尤为重要。目前,伴随着统计学习理论和自然语言处理技术的发展,文本分类技术已经取得了不少研究和实践成果。文本分类技术的四种发展趋势,包括新分类方法的涌现、传统分类方法的改进、新的应用模式及应用领域的出现、理论成果的转化等。本文的工作内容主要包括如下几个部分:(1)对中文文本自动分类技术的研究背景、研究现状、发展趋势进行了分析和总结。对中文文本自动分类的相关理论和关键技术进行了系统的介绍,包括文本分类的定义、文本分类的类别体系、文本分类的预处理技术、文本分类算法、分类结果的评估标准等。其中预处理部分又包括网页内容的解析和提取、中文分词、特征选择、文本表示等方面。分类算法主要介绍了SVM、KNN、NB分类算法,同时对不同的分类算法进行了对比分析,提出了不同的适用场景。(2)基于对文本分类相关技术和理论的研究和分析,设计了一个基于B/S架构的中文文本自动分类方案,并进行了系统的需求分析、功能分析,提出了系统的性能目标、开发运行环境、总体设计方案和详细的模块设计方案。(3)基于该方案实现了一个中文文本自动分类系统,该系统包括语料获取模块、语料处理模块、训练和分类模块、用户交互模块。同时该系统通过维护一个保存网页类别信息的URL分类数据库,提供给用户直接查询网页类别的功能,减少了用户的等待时间。(4)从特征选择方法、词典长度、分类算法、样本数量四个方面进行了对比实验,并对实验结果进行了分析,同时得出了提高分类效果的方法,使该分类方案得以完善。本文未来的努力方向是根据积累的分类经验,从流程和方法上对系统的分类性能进行优化。(本文来源于《北京交通大学》期刊2014-06-01)
吴波[6](2013)在《中文文本自动分类的应用研究》一文中研究指出时代的飞速进步,信息技术的快速发展,信息获取的途径多样化、信息的表现形式多元化、信息容量的膨胀化,特别是网络上电子图书、电子信息等海量的电子资源,给予我们搜取信息极大地便利性,但同时也带来一个严峻的问题。怎样才能从如此庞大的信息库中准确快速的获取我们所需要的信息就是亟需解决的问题。目前,文本分类技术以其实用性受到了研究者的关注。文本分类也成为当前热门的研究课题之一。本文首先概述了中文文本分类的流程以及在分类流程中所涉及的相关理论:简要的分析了布尔模型、概率模型和向量空间模型这叁种文本表示模型的表示原理以及各自的优缺点,其中重点描述了向量空间模型;对信息增益、文档频率、期望交叉熵、互信息和x2统计特征选择方法进行详细地介绍以及优缺点的比较,比较了常见文本分类算法Rocchio、朴素贝叶斯(NB)、支持向量机(SVM)、K最近邻(kNN)的优缺点,对分类器性能评价指标召回率、准确率和F1值等做了简单描述。其次深入分析了K最近邻算法,总结了近年来各研究对KNN算法改进方案,并针对其存在的问题,提出一种改进方案。新的方案引入拉推策略的思想,通过对误分样本的迭代分类,为每个类设置一个权向量,改进了相似度计算公式,从而提出一种改进KNN算法。最后,设计了四组对比实验,选取了较合适的特征维数和K值,实验证明,改进的KNN算法有较好的分类性能。(本文来源于《淮北师范大学》期刊2013-05-01)
张振浩[7](2013)在《中文文本自动分类关键技术研究及实现》一文中研究指出随着互联网技术的飞速发展,电子文本信息迅速膨胀,呈现出海量性和杂乱性的特点,对这些海量文本信息的有效组织和管理已成为当前信息技术领域面临的一大挑战。基于人工智能的文本自动分类技术根据文本的内容自动将未知文本自动分类,通过将文本分门别类来对海量文本进行管理,方便用户准确定位所需信息。文本自动分类技术作为信息检索、信息过滤、文本数据库、数字化图书馆等相关领域的技术基础,可以有效的提高这些信息服务的质量。因此,文本自动分类有着广泛的应用价值和研究意义。本文研究探讨了文本自动分类的关键技术,如分词技术、特征降维、分类技术等,着重分析研究了特征降维中的特征选择技术。作为特征降维中最常用的方法,特征选择的目的在于从原始文本特征空间中选择出对文本分类最具有类别区分意义的词构成文本分类的特征空间,从而有效降低文本向量维数,去除冗余特征,提高分类器的分类效率和分类准确度。传统的特征选择方法选出的特征词都是具有多个类别指示意义上的词,并没有按照类别来选择特征词,同时忽略了词频在特征选择中的作用。如果一些特征词条集中存在某几个类别中,而且在这些类中均匀分布,那么这些词条有较强的类别区分度,应当被保留。基于这种思想,本文在引入词条类别区分度的概念的基础上,将特征词条的类别区分度作为特征选择的一个依据,提出了对传统的特征选择算法的改进方法和一种新的基于类别区分度的特征选择算法。为了验证本文所提出的特征选择算法,设计并开发了一个中文文本自动分类系统,然后在该系统上进行分类实验对比。实验结果表明,本文所提出的特征选择算法的分类准确度均高于传统的特征选择算法,从而验证了本文方法的有效性和可行性。(本文来源于《浙江理工大学》期刊2013-03-07)
张振浩,周奇年,杨继慧,徐登彩[8](2012)在《中文文本自动分类中的特征选择改进与研究》一文中研究指出特征选择是中文文本分类过程中的一个关键环节,文本特征项选择的优劣将直接影响文本分类的准确率。针对传统的特征选择算法没有考虑到特征项的类别区分度在特征选择中的作用而丧失了一些优秀的特征项的问题,文中通过引入特征项的类别区分度对传统的特征选择算法进行改进。实验结果表明,改进方法的分类效果要好于传统方法,从而验证了改进方法的有效性和可行性。(本文来源于《工业控制计算机》期刊2012年11期)
范君君[9](2012)在《中文文本自动分类研究与应用》一文中研究指出随着计算机网络的高速发展以及信息、资讯的大量增加与积累,无论是个人电脑上还是internet上,以文本形式存储的信息数量巨大。而如何对这些文本数据进行高效的管理、存储、访问以及提取出所需要的信息,成为当前现代社会的人们提高工作和生活质量和效率的重要问题,也是当前计算机科技、人工智能知识工程和信息处理研究的热点与难点的所在。而处理这个问题的基本工具——文本自动分类,也于近几年得到了前所未有的重视与发展。截至目前,国内外对于文本自动分类的研究已经非常多,并且在信息提取、搜索引擎等具体热点领域有着丰富深入的研究。不管是工业界还是科研院所,都已经取得了很多举世瞩目的成就,同时开发出了很多实用的工具与软件系统。本文主要研究中文文本自动分类的关键技术并设计实现原型系统。首先介绍文本自动分类技术研究现状与理论基础,然后对中文文本分类技术进行了详细的讨论,并分析了向量空间模型和中文自动分词的技术优势与特点。然后详细研究了文本分类的关键技术,包括项的权重、特征选择和关键算法。在这些基础之上,设计了一种中文文本分类自动分类系统,并对其中的关键技术进行了详细介绍。最后是对系统进行相关实验以及效率效果评估分析。(本文来源于《湖北大学》期刊2012-04-20)
陈琳,王箭[10](2012)在《叁种中文文本自动分类算法的比较和研究》一文中研究指出网络信息规模随着互联网与信息技术的发展而不断增大,在这些信息中,各种类型的文本信息占据了相当大的比重。因此,高效、快速地对文本信息进行分类是网络信息处理中一个关键问题。本文分析比较了SVM算法、朴素Bayes算法和KNN算法3种算法,并通过实验证明了这3种算法在中文文本分类中的效果。实验结果表明:SVM算法比KNN算法和朴素Bayes算法更优,SVM算法是一种较好的中文文本分类算法。(本文来源于《计算机与现代化》期刊2012年02期)
中文文本自动分类论文开题报告范文
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
信息技术应用平台的拓展、互联网用户数量的大幅度增加,使得网络平台成为人们生活、工作的重要阵地,随之而来的,网络数据计算、分类需要以秒级为单位处理,技术难度更大。为深入、全面的开发数据资源的内在价值,进一步提升文本分类的实践技术应用成为当务之急。作为信息检索与数据分类、文本挖掘、信息利用的重要技术手段,文本分类的技术研究已经迈入新的阶段,以非线性、核方法、数据集偏斜与多层分类、web网页分类为代表的技术创新应用,已经成为现阶段文本分类的重要技术研究方向。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
中文文本自动分类论文参考文献
[1].韦灵,黎伟强.基于机器学习的中文文本自动分类的实践研究[J].智库时代.2019
[2].韦灵,黎伟强.基于机器学习的中文文本自动分类的实践研究[J].智库时代.2019
[3].马双刚.基于深度学习理论与方法的中文专利文本自动分类研究[D].江苏大学.2016
[4].马芳.基于SUMO本体的中文文本自动分类研究[J].情报科学.2015
[5].安欢.中文文本自动分类技术的研究与改进[D].北京交通大学.2014
[6].吴波.中文文本自动分类的应用研究[D].淮北师范大学.2013
[7].张振浩.中文文本自动分类关键技术研究及实现[D].浙江理工大学.2013
[8].张振浩,周奇年,杨继慧,徐登彩.中文文本自动分类中的特征选择改进与研究[J].工业控制计算机.2012
[9].范君君.中文文本自动分类研究与应用[D].湖北大学.2012
[10].陈琳,王箭.叁种中文文本自动分类算法的比较和研究[J].计算机与现代化.2012