导读:本文包含了文档特征论文开题报告文献综述、选题提纲参考文献,主要关键词:文档,特征,文本,算法,频率,图像,机器。
文档特征论文文献综述写法
张英杰[1](2019)在《基于文档层词频重排序的特征选择方法的研究与应用》一文中研究指出随着信息技术的快速发展,文本数据量不断增长,如何高效、准确地定位有效信息成为当今时代下的迫切需求。文本分类作为信息处理的核心技术成为解决这类问题的关键手段。在文本分类过程中,高维数据容易引起分类过程中的维度灾难,特征选择是解决维度灾难,实现维数约减的有效方法,因此论文以文本分类过程中的特征选择方法作为主要研究内容。论文首先简要概述了文本分类技术,并介绍了其详细过程,在每个步骤中都列举了一些常用的方法。其次为解决文本分类过程中的维度灾难,提出了两种新的特征选择算法。(1)提出一种基于NDM改进的特征选择算法(T F-NDM)。通过分析常见的特征选择算法,发现大部分算法都依赖于文档频率,未考虑词条频率,因此本文以表现优秀的NDM算法的文档频率为基础,引入词频权重,充分考虑类别信息和词条占比的情况。最后通过在五个数据集上不同的实验结果证明,T F-N DM算法性能良好,能够有效地提高分类性能。(2)提出一种基于文档专一化和词条多样化的特征选择算法(D S T D)。该算法在宏观上统一文档频率的多种计算方式,在微观上从多个角度考虑了词条分布的情况,提出文档专一性和词条多样性两个全新的影响因子。DSTD算法对两个因子进行有效结合,充分发挥了文档频率和词条频率的优势,最后在叁个数据集上与六个相关算法进行了对比分析,验证了DSTD算法的有效性。本论文深入研究了文本数据集中的文档频率和词条频率,从不同角度提出两种特征选择算法,有效地解决了特征排序时的片面性问题,两种算法综合多个方面选出具有代表性的特征,并且通过实验表明它们具有良好的效果。(本文来源于《西安理工大学》期刊2019-06-30)
李顺[2](2019)在《基于纹理特征的多文种文档图像文种识别研究》一文中研究指出随着信息时代的到来,在数字化大环境中,越来越多的资源以文本图像的形式保存。在全球化的进程中,国家之间交流日益频繁,在海量的信息处理过程中,光学字符识别技术(Optical Character Recognition,OCR)得到广泛应用。文种识别技术是OCR前端处理步骤,同样也是文本图像分析的一个重要环节,已经成为一个研究热点。文种识别的研究从1990年开始至今,已经取得不少具有重要价值的成果,大部分研究的数据库都只包含部分地区的文字,数据量少,不能确定适用于更多的文种。鉴于文种识别方法存在的一些问题,本文建立了多文种文档图像数据库,文种的选取包含全球通用文种、中亚文种和国内少数民族文字,具有普遍适用性。本文针对多文种文档图像的文种识别技术进行了相关研究。针对不同语言文字的构造特征、笔画书写特征、空间分布等存在一系列差异,在文档图像中所表现的就是不同的纹理特征,本文提出了基于离散曲波变换的文种识别方法和基于HOG特征的多文种文档图像文种识别方法。为提高单一纹理特征的文种查全率,提出了基于曲波变换纹理特征融合的文种识别方法。本文所做的主要工作如下:1.简述了文种识别领域的研究发展,总结了该方向取得的突出性研究成果,分析了多文种文档图像文种识别技术研究需要突破的难点。2.创建一个标准的实验数据库。分辨率为200dpi,图像尺寸为256×256,数据库包含中文、俄文、英文、土耳其文、哈萨克斯坦文、藏文、维吾尔文、吉尔吉斯斯坦文和蒙古文9个文种。每个文种各有1000幅图像。3.鉴于我们建立的数据库,扫描的书刊有些纸张软薄,会有另一面的影印。选取加权平均法灰度化、中值滤波去噪和全局阈值二值化对文档进行预处理,从而达到提取特征前的二值化图像的背景一样和降噪的目的。4.提出了一种基于离散曲波变换的多文种文档图像文种识别方法。利用文档图像经过曲波变换后得到的系数提取能量特征,组成特征向量。采用Bayes、LDA和SVM叁种分类器进行特征训练和分类。实验结果证明该方法优于传统的文种识别方法,如基于小波变换、二元复数小波变换、LBP等文种识别方法。5.提出了一种基于HOG特征的文种识别方法。计算和统计文档图像每一个区域的梯度方向直方图组成特征向量,采用不同的分类器进行特征训练和分类,与经典方法的对比实验结果证明,该方法特征提取时间短,且能准确地提取文档图像的纹理特征,有效提高文种查全率。6.提出了一种曲波变换纹理特征融合的多文种文档图像文种识别方法。利用曲波变换后的cell矩阵中的低频和高频系数,提取纹理特征,并融合图像统计特征,组成特征向量,采用不同的分类器进行特征训练和分类。实验结果证明该方法能有效地提取文档图像的纹理特征,提高文种识别效率。(本文来源于《新疆大学》期刊2019-06-03)
李翌昕,邹亚君,马尽文[3](2019)在《基于特征提取和机器学习的文档区块图像分类算法》一文中研究指出文档区块图像分类对于文档版面图像的理解和分析至关重要。在传统机器学习分类模型中,直接使用图像作为输入会导致学习模型参数量过大而无法进行有效的训练。为了克服这个困难,我们针对文档区块图像设计了一组有效的特征,并提出了基于这些特征和机器学习的文档区块分类算法。在特征设计上,我们提取了几何、灰度、区域、纹理和内容五方面在内的32种特征,以增强特征针对区块类别的分辨能力。在分类器方面,我们在所提出的特征上对传统机器学习分类模型、自动机器学习方法以及深度学习均进行了实验。在公开数据集上的实验结果表明,我们提出的文档版面区块分类算法具有很高的分类准确率,并且效率很高。另外,我们实现了一个简单的分步文档版面分析算法,以展示所提出的区块分类算法的推广能力。(本文来源于《信号处理》期刊2019年05期)
杜学绘,林杨东,孙奕[4](2019)在《基于混合特征的恶意PDF文档检测》一文中研究指出针对现有恶意PDF文档在检测方案存在特征顽健性差、易被逃避检测等问题,提出了一种基于混合特征的恶意PDF文档检测方法,采用动静态混合分析技术从文档中提取出其常规信息、结构信息以及API调用信息,并基于K-means算法设计了特征提取方法,聚合出表征文档安全性的核心混合特征,从而提高了特征的顽健性。在此基础上,利用随机森林算法构建分类器并设计实验,对所提方案的检测性能以及抵抗模拟攻击的能力进行了探讨。(本文来源于《通信学报》期刊2019年02期)
郝海利,李宁,田英爱,耿思[5](2019)在《基于融合特征与语法规则的流式文档理解方法》一文中研究指出针对流式文档结构理解中构件识别特征分析的不足,提出一种基于融合特征的构件识别方法。首先建立格式向量表示字体等构件格式特征,提取文档构件中关键字等内容特征作为内容向量,分别计算待识别构件两种特征与候选构件的得分并对其加权计算,得出候选的构件标签;结合自顶向下和自底向上的结构识别方法,得到文档的逻辑结构。通过实验验证了该方法能有效提高文档构件识别的准确率,同时提高了文档结构识别的准确率。(本文来源于《北京信息科技大学学报(自然科学版)》期刊2019年01期)
罗衎,马佳佳[6](2019)在《基于文档结构的特征权重计算方法研究》一文中研究指出针对不同类别文档可能被表示为相同向量的问题,在研究常用文档特征权重计算方法的基础上,分析文档中特征项之间的相对位置关系,引入文档结构矩阵DS。将DS与3种常用权重算法相结合,构造3种新模型,并利用6种模型在实际语料上进行分类实验。结果表明,基于DS的权重算法与原始权重算法相比,能够提高文本分类效果。(本文来源于《软件导刊》期刊2019年05期)
段国仑,谢钧,郭蕾蕾,王晓莹[7](2019)在《Web文档分类中TFIDF特征选择算法的改进》一文中研究指出随着海量数据资源在网络中的出现,Web文档分类技术越来越受到重视。在Web文档分类的研究中,特征选择算法有着重要的研究意义。特征选择能有效降低文本向量空间模型的维度,从而构造出更快,消耗更低的预测模型。传统的TFIDF算法仅仅依靠文档中所包含特征词的词频和逆文档频率来判断该特征词对于文档分类的重要性,忽略了特征项在类内和类间的分布以及数据集不均衡现象,从而效果受到制约。针对存在的不足进行改进,提出了类内分布因子以及类间分布因子。基于类内以及类间因子,替代逆文档频率,可以使得改进的表达式能够选择出更加高效的特征词。通过使用SVM分类器进行文本分类对比实验,与改进前的方法相比,该方法能使F_1值得到一定程度的提高,在不均衡数据集上同样具有较好的分类效果。(本文来源于《计算机技术与发展》期刊2019年05期)
孙龙,李彦[8](2019)在《基于功能结构元组的技术文档的特征提取研究》一文中研究指出词汇模型在表征工程技术知识文档特征时,将文档切分为一个个相互不关联的词,较难提取出文档的语义特征。如果考虑到一条语句中词之间的关联性,根据工程技术知识文档的语义结构信息,提取出功能结构元组作为文档特征,则可以进一步提高分类效果。文中从工程技术知识文档的特点出发,在归纳总结现有提取文本功能结构元组方法的基础上,探索将基于统计的方法和基于规则的方法相结合。首先通过统计方法提取文档特征词来过滤掉文档中的噪声和无意义的语句,再从过滤后的语句中按照语法分析树的层次,以递归方式提取文档中的功能结构元组。为更有效地提取语句中的功能结构元组,对语句的词法分析树中规律性的规则进行了总结。经验证,该方法可有效提升工程技术知识文档的特征提取效果。(本文来源于《计算机技术与发展》期刊2019年05期)
赵鸿山,范贵生,虞慧群[9](2019)在《基于归一化文档频率的文本分类特征选择方法》一文中研究指出特征选择是文本分类的一个重要过程,对分类性能的提升发挥着重要的作用。传统的文档频率(Document Frequency,DF)特征选择指标只是从全局的角度统计包含特征的文档数作为选择的依据,没有考虑特征与类别的相关性。针对该问题,本文从特征和类别的相关性出发,对文档频率分别进行局部和全局的归一化处理,提出了一种归一化文档频率(Normalized Document Frequency,NDF)的特征选择指标,并在不同的特征维度下验证特征选择对文本分类性能的影响。结果表明,应用NDF特征选择指标可以得到更高的分类准确率和Macro-F1值。因此,对文档频率进行归一化处理可以更好地选择出有价值的特征,有效提升文本的分类性能。(本文来源于《华东理工大学学报(自然科学版)》期刊2019年05期)
赵峰涛[10](2018)在《区域相关融合纹理特征FDPC图书馆文档图像检索研究》一文中研究指出当前在不同城市和地区,都在积极的进行数字图书馆建设。这一背景下,如何实现对各种图书馆资源的快速、准确检索,成为备受人们关注的重要问题。本文的研究过程中,以快速纹理密度极值的聚类算法为基础,提出一定的图像检索策略。文章对文档图像纹理特征检索与基于FDPC的文档图像纹理特征检索进行简要的分析,并通过实验,分析区域相关融合纹理特征FDPC图书馆文档图像检索问题。对图书馆图像资源检索问题进行基于内容的检索框架构建,然后采用直方均衡以及中值滤波策略实现图像资源的背景处理和噪声过滤,并通过二值化对图书馆馆藏图像资源进行处理,获得检索框架图像输入的预处理操作,并利用极值密度聚类算法对图像的分类问题进行研究。基于动态距离截断策略对其进行改进,以有效增强算法的聚类效果,进而获促进DPC算法性能的有效提高。最后对所提算法的性能进行实验验证,最终的结果证明,实验所提方法具有较高的检索精度和检索效率,具备一定的应用价值。(本文来源于《电子设计工程》期刊2018年21期)
文档特征论文开题报告范文
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着信息时代的到来,在数字化大环境中,越来越多的资源以文本图像的形式保存。在全球化的进程中,国家之间交流日益频繁,在海量的信息处理过程中,光学字符识别技术(Optical Character Recognition,OCR)得到广泛应用。文种识别技术是OCR前端处理步骤,同样也是文本图像分析的一个重要环节,已经成为一个研究热点。文种识别的研究从1990年开始至今,已经取得不少具有重要价值的成果,大部分研究的数据库都只包含部分地区的文字,数据量少,不能确定适用于更多的文种。鉴于文种识别方法存在的一些问题,本文建立了多文种文档图像数据库,文种的选取包含全球通用文种、中亚文种和国内少数民族文字,具有普遍适用性。本文针对多文种文档图像的文种识别技术进行了相关研究。针对不同语言文字的构造特征、笔画书写特征、空间分布等存在一系列差异,在文档图像中所表现的就是不同的纹理特征,本文提出了基于离散曲波变换的文种识别方法和基于HOG特征的多文种文档图像文种识别方法。为提高单一纹理特征的文种查全率,提出了基于曲波变换纹理特征融合的文种识别方法。本文所做的主要工作如下:1.简述了文种识别领域的研究发展,总结了该方向取得的突出性研究成果,分析了多文种文档图像文种识别技术研究需要突破的难点。2.创建一个标准的实验数据库。分辨率为200dpi,图像尺寸为256×256,数据库包含中文、俄文、英文、土耳其文、哈萨克斯坦文、藏文、维吾尔文、吉尔吉斯斯坦文和蒙古文9个文种。每个文种各有1000幅图像。3.鉴于我们建立的数据库,扫描的书刊有些纸张软薄,会有另一面的影印。选取加权平均法灰度化、中值滤波去噪和全局阈值二值化对文档进行预处理,从而达到提取特征前的二值化图像的背景一样和降噪的目的。4.提出了一种基于离散曲波变换的多文种文档图像文种识别方法。利用文档图像经过曲波变换后得到的系数提取能量特征,组成特征向量。采用Bayes、LDA和SVM叁种分类器进行特征训练和分类。实验结果证明该方法优于传统的文种识别方法,如基于小波变换、二元复数小波变换、LBP等文种识别方法。5.提出了一种基于HOG特征的文种识别方法。计算和统计文档图像每一个区域的梯度方向直方图组成特征向量,采用不同的分类器进行特征训练和分类,与经典方法的对比实验结果证明,该方法特征提取时间短,且能准确地提取文档图像的纹理特征,有效提高文种查全率。6.提出了一种曲波变换纹理特征融合的多文种文档图像文种识别方法。利用曲波变换后的cell矩阵中的低频和高频系数,提取纹理特征,并融合图像统计特征,组成特征向量,采用不同的分类器进行特征训练和分类。实验结果证明该方法能有效地提取文档图像的纹理特征,提高文种识别效率。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文档特征论文参考文献
[1].张英杰.基于文档层词频重排序的特征选择方法的研究与应用[D].西安理工大学.2019
[2].李顺.基于纹理特征的多文种文档图像文种识别研究[D].新疆大学.2019
[3].李翌昕,邹亚君,马尽文.基于特征提取和机器学习的文档区块图像分类算法[J].信号处理.2019
[4].杜学绘,林杨东,孙奕.基于混合特征的恶意PDF文档检测[J].通信学报.2019
[5].郝海利,李宁,田英爱,耿思.基于融合特征与语法规则的流式文档理解方法[J].北京信息科技大学学报(自然科学版).2019
[6].罗衎,马佳佳.基于文档结构的特征权重计算方法研究[J].软件导刊.2019
[7].段国仑,谢钧,郭蕾蕾,王晓莹.Web文档分类中TFIDF特征选择算法的改进[J].计算机技术与发展.2019
[8].孙龙,李彦.基于功能结构元组的技术文档的特征提取研究[J].计算机技术与发展.2019
[9].赵鸿山,范贵生,虞慧群.基于归一化文档频率的文本分类特征选择方法[J].华东理工大学学报(自然科学版).2019
[10].赵峰涛.区域相关融合纹理特征FDPC图书馆文档图像检索研究[J].电子设计工程.2018