文档聚类论文_陈欣欣

文档聚类论文_陈欣欣

导读:本文包含了文档聚类论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:文档,切分,维吾尔,算法,单词,卷积,模型。

文档聚类论文文献综述

陈欣欣[1](2018)在《基于耦合关联分析的文档聚类》一文中研究指出随着互联网的发展,数据呈现爆炸式的增长,大量的文档不断涌现,而聚类分析可以从这些文档中获取大量的有用信息。因此如何高效地对文档进行聚类并应用于文本挖掘和信息检索的不同方面,成为当前急需解决的问题。文档聚类是通过相应的文档聚类算法将文档集合以簇的形式表示,使得相似性大的文档在一个簇中,相似性小的在不同簇中。文档聚类是数据挖掘以及自然语言处理领域的重要课题。在大多数文档聚类方法中,频繁被使用的是基于词包模型的文档表示技术,但是使用词包模型表示文档并没有考虑词项间潜在的关联,因此这些方法在聚类效果上并不令人满意。同时,一些文档聚类方法尽管考虑了词项间的耦合关联,但是涉及的关联并不全面。本文正是针对这些重要的耦合关联来展开更为全面的相关研究。本文以词项间的耦合关联为研究目标,主要提出了如下叁种有效的聚类分析方法:(1)本文提出了一种基于WordNet和耦合关联分析的文档聚类,依据WordNet词典计算简单文档相似度,进行语义耦合,并将词项间同时出现的频率信息进行显示耦合和隐式耦合。把这叁种关联耦合量化,进行聚类分析。(2)本文在原先CRM(Coupled term-term Relation Model)方法下,针对计算显示耦合并不直接的问题,提出了一种基于JS(Jensen-Shannon)散度的耦合关联文档聚类方法。该方法利用JS散度直接计算词项间的显示耦合,辅以隐式耦合来进行文档聚类。(3)本文针对前两种聚类方法中存在的以复杂计算提高聚类效果以及权重准确度不高的问题,提出一种基于自信息和位置词频的简化耦合关联文档聚类算法。该方法改变原先TF-IDF权重计算的方式,利用自信息以及位置耦合进行权重的计算,简化隐式耦合的复杂计算,提高了文档的聚类效率。本文对提出的叁种方法都进行了实验验证。本文的叁种方法都分别结合了K-means和DBSCAN两种聚类方法,并且使用两种数据集,表明这叁种方法具有通用性。使用了WordNet、JS散度、自信息和位置,使得进行聚类前,文档处理和计算较为充分准确。本文提出的叁种方法都与已有的耦合关联方法进行了对比,使用了Purity、RI、F1和NMI四种聚类评估指标。实验结果证明了本文提出的方法可以取得更好的聚类效果。(本文来源于《南京邮电大学》期刊2018-11-14)

冯健,张莹[2](2018)在《基于文档对象模型结构聚类的钓鱼网页检测方法》一文中研究指出为了解决现有的钓鱼网页分析方法,往往基于页面的文本特征,而忽略了页面的结构特征的问题,提出基于文档对象模型(document object model,DOM)结构聚类的钓鱼检测方法,其关键在于如何快速有效地计算网页的相似度。首先对获取的页面进行DOM结构解析,构建DOM树层次标签向量以刻画网页的结构特征;然后重新定义DOM树距离的概念,通过不同DOM树之间的距离来度量网页间的相似度;最后采用划分聚类思想实现网页的聚类。一系列的仿真实验表明,方法具有较高的召回率与精确率,运行时间也较短。(本文来源于《科学技术与工程》期刊2018年23期)

Muhammad,Qasim,Memon[3](2018)在《基于简易子文档框架的高效文档聚类研究》一文中研究指出本文将基于临时子文档框架的隐式分配(LDA)分割与传统聚类方法(如基于分段的聚类)进行比较,以实现有效的文档聚类。文档聚类被用于主题发现和相似度计算,是文本数据管理中的一个重要问题。传统聚类中采用的方法特别是多主题文档的聚类方法不够可行,因为子主题结构所区分的内容与文档无关。在本研究过程中,现有的传统方法将文本文档作为单一的文本表示和相似度计算,对于多主题文档来说,这是不合理的。拟议的临时框架是解决这一问题的双向做法。第一,使用LDA分割方法对文本数据(主题和单词)进行两级表示,不是将聚类算法应用于整个数据集,而是根据主题边界将文档划分为衔接的子文档。第二,第叁章将聚类技术与现有的聚类方法(传统聚类和基于分段的聚类方法)进行了比较,采用球形k-均值(sk均值)、重迭sk均值(OSk均值)和LDA等聚类算法对多主体文档进行聚类。本文还介绍了进一步聚类成组的子文档,每个组采用子文档集的形式,该子文档集在一个大型文档中包含连贯的子文档组。此外,子文档集和原始文档分别在分区和分层聚类中进行聚类,如4章所述。用评价指标Pk测量文档分割,度量误差率值表示分割精度。按照精确度,聚类质量是用F度量来衡量的,如第4章所述。基于第4章提出的评价选择模型,聚类算法产生重迭和非重迭的聚类解决方案。此外,本文还给出了聚类匹配查询处理的实验结果能用于第5章中的时间有效数据检索。查询优化涉及到集群的生成和匹配,对于商业数据库来说是一项非常复杂的任务。为了提高性能,查询处理成为寻找更好执行的主要因素。本文只从不同数据库中查询响应时间的角度出发,使用连接查询和复杂查询等不同的查询,来研究SQL查询优化问题。查询处理方法遵循基础主题,以便使用PL/SQL功能将数据库对象(如过程、触发器和方法)合并到一起以优化执行计划来优化(选择、复杂和联接SQL)查询,以提高聚类生成的查询性能。在多主题文档聚类中,针对多主题文档采用传统聚类方法是不可行的,这是由于子主题结构所区分的内容与文档无关,其中,现有的方法将文本文档看作单一的文本单元表示形式和相似度计算,这不适用于多主题文档。文档的主题部分是通过边界(称为段)来识别的,其缺点是处理过程中使用TextTiling算法单词重复,即,段与任何主题信息无关或标记。多主题文档的聚类方法规定每个文档都是单个文本单元,其中多个群集由与不同主题不明确相关的文档分配。现有的方法在描述低于标准结果的多主题文档中被发现不足,与主题相似性没有联系或缺乏联系来确定透视图域。开发这样一种文档聚类方法,评估每个文档与不同主题的显式关联。现有的方法在描述低于标准结果的多主题文档中被发现不足,与主题相似性没有联系或缺乏联系来确定透视图域。传统的多主题文档聚类涉及到模糊聚类、基于生成模型的聚类和集合子空间聚类等方法。这些方法基于一种方法,其中每个群集被视为单个主题或一条信息,每个文档都分配多个群集,其特点是主题相关性。TextTiling算法以连续块(段落和子主题)的形式将文本分解成不同的部分,根据主题边界对文档进行分割,这与LDA算法相比,效率和鲁棒性都不高。每个块都在与包含术语和单词的主题相对应的文档中查找边界。利用向量空间中的点乘积,分析了连续块中的词汇共生和分布规律。在基于LDA的方法中,没有必要分割所有相邻块来识别文档的片段。将基于两种不同算法的多主题数据集的建议框架、基于多文档段的聚类和多文档等现有方法进行比较,得到了预期的实验结果。基于分段的聚类方法采用TextTiling算法。文档聚类是一种很有用的技术,它将大量的文本集合组织成凝聚组。每个组都与一个群集相关联,并标记了相关的单词和声明相关文档的术语。传统的聚类方法不能通过词之间的语义关系准确地表示关联文档。引入基于本体的文档聚类,可以有效地挖掘词之间的语义关系,提高聚类质量,如基于本体的通用加权模式框架和基于E-Learning领域的特定本体文档。然而,从文本中检索词语义、同义词和多义词、适当的聚类声明和高维性等问题仍然存在。为了消除这些问题,本文尝试将WordNet和词汇链相结合,生成具有准确词义消歧能力的词汇聚类。然而,基于本体的文档聚类中的参考本体不能表示和包含所有的术语,为了将这些并不存在于参考本体中的术语关联到群集中,这是非常具有挑战性的任务。上述聚类方法大多偏向于将每个文档作为一个单一的文本单元进行分组,并且发现提供高效和准确的聚类效率较低。同时,基于本文所提出的基于子文档的框架,可以融合文档分割和文档聚类相一致的主题建模和文档分割方法。提出的聚类框架在f-测度和时间代价方面优于现有的聚类方法,在实验1的路透社语料库第1卷(Rcv 1)和20个新闻组中,f-测度的平均改进率分别为10.2%和11.5%。此外,在RCV1数据集上观察到的最高宏F度量值为0.791,平均提高了10.2%,而20个新闻组数据集的平均改进为11.2%,在文档中包含了更小的子文档。在精度方面,我们提出的聚类框架比传统的文档聚类方法表现更好,平均提高了54%以上。随后,实验2提出了包含多主题文档的各种实时数据集,通过所提出的基于子文档的框架对聚类算法进行了全面的演示和验证。此外,与TextTiling相比,同时使用了LDA分割和平分LDA,基于子文档的框架在f测度方面可以提高73%以上的性能。利用LDA和TextTiling进行了文档分段的实验研究。在此基础上,给出了分段评价的性能指标(第六章)。将基于交叉聚类模型的子文档框架的评价性能与无交叉(文档内)聚类相比较,利用lda分割法和lda聚类算法对时间和记忆成本进行了改进。这些评价结果也表明,不同的聚类方法在交叉和文档聚类中获得更好的结果,TextTiling文档分割优于在第6.5节中。在此基础上,对不同聚类方法的实验结果进行了研究,得出了各表示模型(如子文档、子文档集和文档)的交叉和文档(无交叉)的方式。这些结果也与传统的聚类和基于分段的框架进行了比较,并显示了在F度量方面的改进(第6.6节)。此外,分别在6.7和6.8节的实验1和实验2中介绍了不同数据集的子文档框架的性能评估。所提出的框架可以提高聚类性能,特别是平分k均值聚类算法。实验结果表明,在时间成本、精度和存储成本方面,TextTiling分割优于该算法。与TextTiling相比,我们对所提出的基于子文档的框架实现结果的统计意义进行了比较。由于文档(子文档、子文档和文档)呈现较高值的多个表示形式,所以假定此意义测试使用不等方差。进一步,对未配对T检验是通过零假设计算的,所取得的结果没有差异。所提出的框架的重要特点是强调了主题建模,以改进利用聚类算法进行的图像分割,并通过计算分割中的误差率来识别和提取子文档(就Pk而言)基于主题和词。针对基于域数据的基于子文档的聚类算法,通过对主题模型的训练,提出了以TextTiling为基础的图像分割的演示方法,其性能优于标准分割技术。通过查询中的查询处理和优化,通过Add_Atribute的方法对查询进行聚类匹配,以消除所有较差的SQL语句。此外,调试PL/SQL代码制定更好的执行计划以根据时间和内存成本优化查询,而不是只依赖于自动的SQL优化进行手动调整。建议的基于子文档的框架在F度量、时间和内存成本方面是准确和有效的,它优于基于分段的框架和传统的聚类,这些文档描绘的是高于标准结果的多主题文件,并连接到主题相似性,以确定透视域,因此建议的基于子文档的框架是文档聚类的一个重要而有效的方法。(本文来源于《北京工业大学》期刊2018-05-01)

阿丽亚·巴吐尔,木特力铺·马木提,努尔毕亚·亚地卡尔,阿力木江·艾沙,库尔班·吾布力[4](2018)在《连体段特征聚类的维吾尔文文档图像单词切分》一文中研究指出为有效解决文档图像中单词漏切分和过切分问题,分析维吾尔文文档图像的无嵌入式双栏版面特性和文字特点。综合考虑连体段位置信息、密度及高宽特征和相邻连体段重迭性,提出一种文档图像中精确切分完整单词块的方法。将图文混排的版面分析与重迭域合并相结合,采用两级K-means分类策略,有效避免标点符号的影响,增强完整单词块的被切分能力。实验结果表明,该算法比连通域搜索算法和投影算法具有更高的切分精度,在多文种图像单词切分中具有更高的有效性。(本文来源于《计算机工程与设计》期刊2018年03期)

贾晓婷,王名扬,曹宇[5](2018)在《结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究》一文中研究指出【目的】引入深度神经网络模型Doc2Vec,以综合考察文本的上下文语境信息。结合改进的K-means聚类算法,实现中文单文档摘要的提取。【方法】利用Doc2Vec模型,提取语句的语义、语法、语序等特征,将其转化为固定维度的向量。基于密度最大距离最远原则为K-means聚类算法选取初始聚类中心,对语句向量进行聚类。在每个类簇内计算句子的信息熵,提取类内与其他语句均具有较高相似度的句子作为摘要句。【结果】相对于传统的向量化表示方法 PLSA,利用本文方法生成的摘要效果在准确率、召回率、F值上分别提高了9.57%、7.62%、10.30%。【局限】提取的摘要句来源于正文,而标准摘要是对正文的高度凝练总结,二者通常难以完全匹配。【结论】实验结果表明,相对于常见的向量化表示方法,本文提出的方法能较为显着地提升自动摘要的效果,对多文档自动摘要的实现提供了一种思路。(本文来源于《数据分析与知识发现》期刊2018年02期)

冯永强,李亚军[6](2018)在《一种基于卷积自编码器的文档聚类模型》一文中研究指出文档聚类是将文档集自动归成若干类别的过程,是对文本信息进行分类的有效方式。为了解决半结构化的文本数据转化为结构化数据时出现的数据高维性问题,本文提出了一种卷积自编码器的文档聚类模型CASC,利用卷积神经网络和自编码器的特征提取能力,在尽可能保留原始数据内部结构的同时,将其嵌入到低维潜在空间,然后使用谱聚类算法进行聚类。实验表明,CASC模型在保证聚类准确率不降低的前提下减少了算法运行时间,同时也降低了算法时间复杂度。(本文来源于《现代信息科技》期刊2018年02期)

曲靖野,陈震,郑彦宁[7](2018)在《基于主题模型的科技报告文档聚类方法研究》一文中研究指出[目的 /意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法 /过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果 /结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。(本文来源于《图书情报工作》期刊2018年04期)

张鑫[8](2017)在《基于DBSACN聚类算法的XML文档聚类》一文中研究指出为了满足对XML文档集合进行数据挖掘需求,本文提出了根据XML文档树的语义信息和结构信息来计算其结构相似度,通过结构相似度构造其结构相似度矩阵,在此基础上应用DBSCAN算法来对XML文档集合进行聚类。与其他聚类算法相比,其聚类的速度得到了很大的提高.(本文来源于《电子测试》期刊2017年15期)

阿依萨代提·阿卜力孜[9](2017)在《基于聚类分析的手写维吾尔文档图像中单词切分技术研究》一文中研究指出手写文本行中的单词切分是研究笔迹文本图像研究中的重要内容。它在关键词语搜索,单词为整体的识别,字符切分等研究中必不可少的重要步骤。切分结果的好坏对后续的识别结果有直接的影响。手写维吾尔文本具有笔迹的唯一性、随意性、不规律性等特点。这些特点引起书写维吾尔单词之间的距离没有规律性,频繁地出现重迭、粘连等情况。因此从手写维吾尔文单词的这些书写特点出发,使用聚类算法,把连通域之间的空白间距分成两类,再以这些空白间距的分类结果为依据,对文字区域进行合并得到最后的切分点是本文主要的研究思路。本文所使用的方法中首先对文本行图像进行预处理。预处理阶段解决了噪声离散点和单词之间的粘连或重迭问题。对预处理得到的文本行图像进行垂直投影,得到最初可能的切分点和记录连通域之间的空白间距和文字长度。对空白间距使用聚类算法,分类成单词内距离和单词间距离两类,再对文字区域也使用聚类算法,分成叁类。空白间距的聚类结果作为依据,对文字区域第一次合并。为了更加完善切分结果,第二次合并中使用,空白间距和文字长度结合考虑的基于阈值的合并算法。通过两次合并得到最终的切分点,最后对切分点内的文字区域进行着色处理。整个论文分别使用了k-均值,FCM和k-均值融合FCM的叁种聚类算法,并通过对比实验对这叁种算法在单词切分中的性能进行详细的分析。通过实验证实了叁种聚类算法中k-均值算法聚类所耗时间最短,FCM算法和融合算法的切分正确率一样,但是融合算法聚类所耗时间比FCM算法聚类所耗时间短。使用融合聚类算法得到的平均正确率为75.66%。(本文来源于《新疆大学》期刊2017-05-25)

刘东威[10](2017)在《面向JSON半结构化文档的聚类技术研究》一文中研究指出互联网中半结构化文档占据了绝大部分数据,如何应对半结构化文档成为了企业界和学术关注的重点。JSON是一个典型的半结构化文档广泛应用于互联网中,然而JSON文档的聚类研究鲜有涉及。本文研究了 JSON半结构化文档的聚类技术,提出基于混合的K-Means的聚类算法改进,并将聚类模型应用于政府开放数据,最后实现了聚类系统。论文的主要内容有:首先介绍了半结构化文档的特点,定性和定量分析比较了 JSON和XML文档。然后给出了 JSON半结构化文档的文档向量表示,考虑了特征降维技术,提出了混合因子和路径层级的假设,最后给出了基于混合的K-means聚类算法改进。随后本文给出政府开放数据的背景以及数据集的相关信息,讨论了聚类质量评价指标,包括内部和外部质量指标,然后设计了聚类有效性评价实验和类别数目k的确定实验。本文实现了基于JSON半结构化文档的聚类系统,设计了系统流程图,进行了系统模块设计,包括数据获取模块、预处理模块、向量表示模块和聚类方法模块,然后提出了频繁权重和特异权重的概念用于系统效果可视化。本文的研究结论:(1)提出影响文档区分能力的两个因素:路径层级和混合因子,在实验部分得以验证。(2)通过实验证明,需要综合考察两者对聚类的效果影响,侧面上验证了单独考虑混合因子和路径层级是不够的。(3)在JSON半结构化文档聚类中,验证了 SC指标表现优于CHI指标。(4)开发并实现了面向JSON半结构化聚类的原型系统。(5)提出频繁权重和特异权重,从主题和模式两个角度展示JSON半结构化文档的内容和结构两个部分,在展示过程中使用了标签云技术,展示效果非常明显。(本文来源于《东南大学》期刊2017-05-25)

文档聚类论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

为了解决现有的钓鱼网页分析方法,往往基于页面的文本特征,而忽略了页面的结构特征的问题,提出基于文档对象模型(document object model,DOM)结构聚类的钓鱼检测方法,其关键在于如何快速有效地计算网页的相似度。首先对获取的页面进行DOM结构解析,构建DOM树层次标签向量以刻画网页的结构特征;然后重新定义DOM树距离的概念,通过不同DOM树之间的距离来度量网页间的相似度;最后采用划分聚类思想实现网页的聚类。一系列的仿真实验表明,方法具有较高的召回率与精确率,运行时间也较短。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文档聚类论文参考文献

[1].陈欣欣.基于耦合关联分析的文档聚类[D].南京邮电大学.2018

[2].冯健,张莹.基于文档对象模型结构聚类的钓鱼网页检测方法[J].科学技术与工程.2018

[3].Muhammad,Qasim,Memon.基于简易子文档框架的高效文档聚类研究[D].北京工业大学.2018

[4].阿丽亚·巴吐尔,木特力铺·马木提,努尔毕亚·亚地卡尔,阿力木江·艾沙,库尔班·吾布力.连体段特征聚类的维吾尔文文档图像单词切分[J].计算机工程与设计.2018

[5].贾晓婷,王名扬,曹宇.结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究[J].数据分析与知识发现.2018

[6].冯永强,李亚军.一种基于卷积自编码器的文档聚类模型[J].现代信息科技.2018

[7].曲靖野,陈震,郑彦宁.基于主题模型的科技报告文档聚类方法研究[J].图书情报工作.2018

[8].张鑫.基于DBSACN聚类算法的XML文档聚类[J].电子测试.2017

[9].阿依萨代提·阿卜力孜.基于聚类分析的手写维吾尔文档图像中单词切分技术研究[D].新疆大学.2017

[10].刘东威.面向JSON半结构化文档的聚类技术研究[D].东南大学.2017

论文知识图

Notice: Undefined index: items in F:\Web\www\cnki.demo.com\app\cnki\tpl\search.html on line 79Warning: Invalid argument supplied for foreach() in F:\Web\www\cnki.demo.com\app\cnki\tpl\search.html on line 79

标签:;  ;  ;  ;  ;  ;  ;  

文档聚类论文_陈欣欣
下载Doc文档

猜你喜欢