聚类有效性论文_徐汉青,王思茗,孙熊兰,滕广青

导读:本文包含了聚类有效性论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:有效性,算法,指标,知识,模糊,数据,准确度。

聚类有效性论文文献综述

徐汉青,王思茗,孙熊兰,滕广青[1](2019)在《知识群落在文献资源动态主题聚类中的有效性》一文中研究指出文章将网络分析与时间序列分析相结合,基于社群发现算法和知识关联频度提取层次知识群落。从时间序列的层面,对层次知识群落在文献资源主题聚类中的有效性进行测算与验证。研究表明,层次知识群落能够凸现知识之间的强关系,能够有效表征文献资源的动态主题聚类。(本文来源于《图书馆理论与实践》期刊2019年11期)

刘丛,陈倩倩,陈应霞[2](2019)在《多距离聚类有效性指标研究》一文中研究指出现有的聚类有效性指标大都是基于欧氏距离而设计.虽然对超球型数据效果较好,但对非超球型数据效果并不理想.基于此,提出一种基于多目标进化算法的多距离聚类有效性指标(MoMDVI).首先使用两种距离设计两个聚类目标,并使用类代表点代替类中心点;其次使用一组实数设计染色体,该组实数可解码成代表点序号的形式;然后使用基于正则化的分布估计算法(RMMEDA)对两个目标进行优化.在进化算子中,加入差分进化算子对RMMEDA算法进行改进,以提高算法的收敛速度.将MoMDVI与现有算法在不同结构的数据上对比可知,MoMDVI不仅可以自动检测超球型数据聚类数目,也可以自动检测非超球型数据聚类数目.(本文来源于《小型微型计算机系统》期刊2019年10期)

耿嘉艺[3](2019)在《模糊聚类有效性研究》一文中研究指出聚类是模式识别、机器学习和图像处理等领域的重要研究内容。聚类分析已经成为聚类领域的研究热点,受到了国内外学者的广泛关注。其中,模糊聚类由于引进模糊集概念,能够有效处理现实中的模糊性问题,已经成为聚类分析中不可或缺的一部分。模糊C-均值聚类算法(Fuzzy C-Means,FCM)是模糊聚类最常用的实现算法之一。FCM算法设计简单,运行效率高,可以有效地处理大数据集,在模糊聚类算法中占据非常重要的地位,但是该算法在某些方面还存在一些欠缺,比如需要预先给定最佳聚类数、不同的模糊度m会导致不同的聚类数结果等缺陷。针对以上缺点,目前主要通过聚类有效性进行验证,以判断聚类结果的好坏。聚类有效性分析主要通过提出合适的聚类有效性指标,作为算法的判断依据,但是现有的聚类有效性指标大多数只能处理分离性较好的数据集,对于噪声污染以及多类型结构并存的数据集,无法有效地做出正确判断。因此,本文从多角度分析,寻找更加合适的聚类有效性指标,使得FCM算法能够在无人工干预的情况下,有效地处理不同结构类型的数据集。本文主要研究工作如下:(1)本文首先针对现有聚类有效性指标在含有噪声与重迭的数据集上无法有效判断最佳聚类数的缺陷,提出了一种新的聚类有效性指标,简称W指标。该指标从紧凑度、分离度、重迭度叁个重要特征进行测量。其中,W指标的紧凑度使用数据子类两两之间的距离,分离度使用最小隶属度,重迭度使用两个类隶属度平方的乘积进行定义,从多个方面反映了数据集的分布情况,在一定程度上避免了噪声与重迭数据对聚类结果的干扰。实验结果表明,所提出的指标能够有效地对聚类结果进行评估,并能够克服噪声与重迭数据集的影响,准确地确定样本最佳聚类数。最后,在不同模糊度m下的鲁棒性测试实验中,W有效性指标展现出比较好的鲁棒性。(2)基于上述指标进一步深入研究,发现现有的大多数模糊聚类有效性指标一般过于依赖聚类质心,使得在含有紧邻类与小类的数据集上无法准确地进行判断。为了缓解这种问题,提出了WS聚类有效性指标。WS指标通过使用最大最小隶属度法则与数据集模糊偏差,在一定程度上改善了指标过于依赖聚类中心的缺陷,全面考虑了数据集的整体信息。WS指标不仅能够避免将紧邻类误判为同一类,同时不会忽略小类的存在,展现出比较好的准确性。实验结果表明,在包含紧邻类与大小、密度差异大的数据集上,WS指标能够在不同模糊度m下,准确地找到数据集的最佳聚类数,完成有效性聚类。(3)最后,将提出的WS指标与FCM图像分割算法相结合,提出一种灰度图像自动分割算法。实验结果表明,该算法能够准确地获取图像的最佳分割数,从而高效、快速地完成图像自动分割。(本文来源于《江南大学》期刊2019-06-01)

傅立伟,武森[4](2019)在《基于属性值集中度的分类数据聚类有效性内部评价指标》一文中研究指出针对分类数据,通过数据对象在属性值上的集中程度定义了新的基于属性值集中度的类内相似度(similarity based on concentration of attribute values,CONC),用于衡量聚类结果中类内各数据对象之间的相似度;通过不同类的特征属性值的差异程度定义了基于强度向量差异的类间差异度(dissimilarity based on discrepancy of SVs,DCRP),用于衡量两个类之间的差异度.基于CONC和DCRP提出了新的分类数据聚类有效性内部评价指标(clustering validation based on concentration of attribute values,CVC),它具有以下3个特点:(1)在评价每个类内相似度时,不仅依靠类内各数据对象的特征,还考虑了整个数据集的信息;(2)采用几个特征属性值的差异评价两个类的差异度,确保评价过程不丢失有效的聚类信息,同时可以消除噪音的影响;(3)在评价类内相似度及类间差异度时,消除了数据对象个数对评价过程的影响.采用加州大学欧文分校提出的用于机器学习的数据库(UCI)进行实验,将CVC与类别效用(category utility,CU)指标、基于主观因素的分类数据指标(categorical data clustering with subjective factors,CDCS)指标和基于信息熵的内部评价指标(information entropy,IE)等内部评价指标进行对比,通过外部评价指标标准交互信息(normalized mutual information,NMI)验证内部评价效果.实验表明相对其他内部评价指标,CVC指标可以更有效地评价聚类结果.此外,CVC指标相对于NMI指标,不需要数据集以外的信息,更具实用性.(本文来源于《工程科学学报》期刊2019年05期)

温鹏[5](2019)在《聚类分析中的改进K-means算法和新聚类有效性指标的研究》一文中研究指出聚类分析是自主的发现数据集中的自然结构,并根据数据间的规律将数据集划分成若干个聚簇的重要工具。作为“无监督学习”的方法,聚类分析己经被广泛应用在数据挖掘,模式识别,图像处理等领域。聚类分析主要分为对聚类算法和聚类有效性指标(CVI)的研究。但是,面对大数据时代,现有的聚类算法和聚类有效性指标都存在若干问题,包括:算法的效率较低、聚类结果的准确性较差、对噪声点较为敏感和无法高效正确地处理大规模数据集等问题。针对上述问题,本文聚焦于对K-means算法的改进,同时提出了新的适用于大数据的聚类有效性指标(BCVI)。本文的主要工作如下:(1)针对传统的K-means算法应对大规模数据集时效率较低的问题,本文将网格算法中划分网格的思想引入K-means算法提高算法效率,提出了改进算法Grid-K-means;同时,本文利用网格算法中的网格密度解决了K-means算法无法确定初始聚类中心的问题;为了规避网格算法划分网格需要设置过多参数的问题,本文利用动态网格的操作代替数据点的操作来提高改进的Grid-K-means算法的效率和准确率,并减少聚类算法需要手动设置初始参数的数量。改进的Grid-K-means算法具有更好的稳定性、准确性和鲁棒性。(2)本文提出新的适用于大规模数据集的聚类有效性指标BCVI。BCVI指标利用加权网格作为多个代表点来处理各种形状的聚簇,避免了所有样本点参与计算带来的计算量过大的问题。同时,多个代表点较单个代表点可以更好地评估聚类结果的质量。最后,利用各个聚类中心构建的最小生成树和最大生成树的组合确定聚簇之间的分离性。各个聚类中心之间的最大生成树的加入可以更好的评估聚簇间的分离程度,同时可以平衡聚簇内部紧致性数据上的差异,保证BCV1指标有更稳定的评估效果。(3)BCVI指标由簇内紧致性和簇间分离性的线性组合构成,通过分析BCVI指标特性可以发现BCVI指标具有的单调性特性可以快速地确定最佳聚类数(Kop邮)。BCVI在寻找最佳聚类数(Kopt)方面花费的时间成本远低于利用经验规则2 ≤ K ≤(?)的常用方法。通过该方法,BCVI可以快速确定最佳聚类数KKpt,特别是对于大规模数据集。(4)利用模拟数据集和真实数据集对本文提出的改进算法Grid-K-means和新的聚类有效性指标BCVI进行测试。实验证明,Grid-K-means算法比传统的K-means算法、K-medoids算法、K-means++算法和改进的K-means算法更快,更准确。同时,BCVI指标与其他7种现有指标(DI指标、DBI指标、I指标、CH指标、COP指标、STR指标、VCVI指标)的对比实验结果表明,新的BCVI指标在数据处理速度和稳定性方面优于传统指标。(本文来源于《安徽大学》期刊2019-03-01)

王雪[6](2019)在《聚类分析中面向重迭数据集的新型聚类有效性指标的研究》一文中研究指出聚类分析在许多科学领域发挥着重要作用,聚类算法和聚类验证是聚类分析的两个基本要素。在聚类分析之前,聚簇的数量是聚类算法的基本参数。在聚类分析之后,对聚类结果的有效性进行评估。而在整个过程中最佳聚类数的合理选择对形成正确的聚类结果有着十分重要的影响。然而,聚类分析属于无监督学习方法,这一特性使其在应用中很难获取具体数据集的最佳聚类数。作为一种度量聚类性能和确定聚类数的有效方法,聚类有效性指标在聚类分析的过程中就显得尤为重要。本文主要工作是在改进的聚类算法的同时对聚类有效性指标进行研究,并在此基础上针对一些不足之处提出了新的聚类有效性指标。新算法和新指标都比较适合处理重迭数据,改进了之前一些指标和算法对重迭数据无法处理的不足。具体工作内容如下:(1)本文主要对不同类型的聚类算法进行了研究和分析并提出了一种新的聚类算法。本文共对其中12种聚类算法进行了分析。基于对12种不同类别聚类算法的研究,总结了不同类别的算法都存在各自的优点和缺陷。着重对K-means算法进行了介绍,因为新算法是利用网格划分方法对K-means算法做出的改进。新算法不仅克服了K-means算法的缺陷还可以有效的处理重迭数据集。(2)文章中着重对13种聚类有效性指标进行研究,这13种指标被分为两类进行讨论分析。通过分析以及结合大量的相关文献总结可知无论是外部有效性指标还是内部有效性指标对于数据结构的多样性以及重迭度方面都存在不足。(3)本文主要提出一种新的聚类有效性指标,新指标是一种适用于重迭数据的指标——WCH指标。新的聚类有效性指标是由聚簇内紧密度、聚簇间分离度以及聚簇间重迭度叁部分构成的。新指标的提出不仅考虑到了大部分指标考虑到的聚簇内紧密度和聚簇间分离度的问题还在此基础之上加入了数据重迭度对聚类结果判断的因素。本文并用数学方法分类讨论、归纳总结将数据重迭度表示出来。(4)本文针对新指标性能的检测做了大量的对比实验。从众多指标中选择了比较经典的有代表性的指标DI指标,DBI指标,I指标和COP指标与新的聚类有效性指标基于新聚类算法对不同类型数据集的聚类结果的判断做了对比试验。其中,这些不同类型的数据集其中包括5个模拟数据集和3个真实数据集,有着不同的维数,不同的空间分布,不同的重迭度和不同的规模等。用这些对比实验证明新指标的优越性。大量对比实验的结果表明:新的聚类有效性指标——WCH指标能够对不同维数,不同规模,不同形状等不同的数据集特别是不同重迭度的数据集的聚类结果做出高效准确的判断。(本文来源于《安徽大学》期刊2019-03-01)

朱斌斌[7](2019)在《基于改进聚类算法的新聚类有效性指标的研究》一文中研究指出聚类分析作为一种无监督学习方法,是获取数据信息的重要工具,它被广泛的应用在数据挖掘、模式识别、图像处理、机器学习和其他各个领域。由于简单性和高效性的特点,K-means算法是划分聚类方法中最为流行的一种聚类方法,但由于不同的参数值设置和初始聚类中心点的随机选择而导致划分聚类结果很不稳定,可能为单个数据集产生不同的聚类分区。聚类有效性指标(CVI)是评估不同聚类算法划分聚类结果的重要方法。然而,大多数聚类算法对于最佳聚类数(Kopt)无法确定,因此,很多研究者提出了众多新聚类有效性指标CVI,但是,目前大多数CVIs都存在若干问题:聚类结果的稳定性差,效率低、不能处理重迭度比较大的数据集和一些复杂的非凸形数据集等。针对以上问题本文首先改进了传统的K-means算法,并由此基于不同的聚类算法提出了两个新的聚类有效性指标CVI。本文主要做出了以下几个方面的工作:1.对于传统的K-means算法对起始聚类中心点的随机选择而导致聚类结果的不稳定性问题进行了改进,提出了一种基于动态平均距离的改进的D-K-means算法。并利用多个数据集进行实验对比,结果显示改进的算法更稳定,更精确。2.针对一些重迭度比较大的,样本点之间有很大密度差异的数据集,传统的CVIs在聚类的过程中可能处理不当而导致聚类结果不稳定,本文利用最大最小生技术提出了一种基于层次聚类算法的新聚类有效性指标-NCVI。并与其他6个常用的CVI指标在4个模拟数据将和2个UCI真实数据集上做实验对比,结果表明本文提出的指标更稳定,在给定的数据集上划分聚类结果更精确。3.针对传统的CVIs在划分聚类时,由于指标的波动性而导致聚类结果不稳定,并且对于形状不规则的非凸型数据集,NCVI指标可能有一些比较差的聚类效果,因此,基于以上不足本文通过簇内紧凑和簇间分离的线性组合提出了另一种基于改进K-means算法的新聚类有效性指标-DCVI。该指标是通过动态距离的方式寻找所有簇之间样本点的动态平均值,这样做的日的是防止产生多个极大值与极小值点,不仅提高了指标的稳定性,还拓展了适应数据集的广泛性。4.将改进的K-means算法和新提出的指标相结合设计了一种新的快速确定最佳聚类数的K值优化算法(KVOA)。传统的聚类算法在聚类开始时会设置最佳聚类划分的值(Kopt),不同的Kopt会对聚类的分区结果产生很大的影响。因此本文设计一种基于新提出的指标的K值优化算法目的在于更精确的确定聚类的最佳分区。5.针对每个聚类算法的不同特性,有的算法执行速度快(分区算法),而有的则结果更稳定(层次算法),本文提出了一种基于不同聚类算法的拓展的K值优化算法(EKVOA)。该算法不仅能够处理常规的数据集,对于很多维数比较高的UCI机器学习数据集(Haberman,Heart,Energy_efficiency等)也能够很好的处理。最后,利用多个模拟数据集和多个UCI机器学习真实数据集来对本文提出的改进算法和两个新的聚类有效性指标(DCVI和NCVI)进行测试。实验结果表明,改进的D-K-means算法比传统的K-means算法具有更高的精确度和稳定性。新提出的DCVI指标在稳定性上和适用范围上明显优于其他传统的6个CVI指标。(本文来源于《安徽大学》期刊2019-03-01)

王俊智,杜朋召,牛兆轩[8](2018)在《基于K-means聚类方法和Ⅰ Index聚类有效性检验指标的岩体结构面自动分组及应用》一文中研究指出岩体结构面产状数据的统计分组是工程地质、水文地质工作中基础但十分重要的环节。常用的倾向、走向玫瑰花图和极点等密度图人为主观因素大,需借助合适的数学手段对结构面产状数据进行客观划分。基于Kmeans聚类方法和Ⅰ Index聚类有效性检验指标,提出了一种岩体结构面自动分组方法,并开发了岩体结构面自动分组程序RDAP。通过与经典文献进行对比,验证了所提分组方法的可靠性。最后,以某工程为例,使用RDAP对实测涌水裂隙资料进行了预处理,初步计算了灌浆钻孔的最佳方位,为工程涌水的防治提供了依据。(本文来源于《长江科学院院报》期刊2018年09期)

杨虎,付宇,范丹[9](2018)在《噪音特征对聚类内部有效性的影响》一文中研究指出聚类内部有效性指标是在未知样本真实分类情况下用于评价聚类结果优劣、寻找最佳聚类个数的指标,是聚类分析研究中的重要内容。虽然已有大量的研究分析了聚类内部有效性指标的性能,且有研究结论表明某些内部有效性指标的性能良好,能够辅助聚类算法找到最佳聚类个数,但这些研究未考虑真实数据中的噪音特征对内部有效性指标的影响,研究结论可能会误导内部有效性指标的选取和应用。为此,选取了10种常用的内部有效性指标来研究噪音特征对内部有效性特征选择和聚类结果的影响。结果表明,数据中的噪音特征会影响内部有效性指标的性能,除KL指标、CH指标和CCC指标对噪音特征的反应相对不敏感外,其他内部有效性指标均对噪音特征敏感,且聚类结果的准确性会随着噪音的增强而降低。(本文来源于《计算机科学》期刊2018年07期)

高锦[10](2018)在《基于有效性评价的加权聚类集成算法研究》一文中研究指出聚类分析作为数据挖掘技术的重要分支,在图像处理、机器学习、Web搜索等众多领域得到了广泛应用。近年来,研究者根据不同的数据类型提出很多聚类算法,但这些算法无法处理分布类型复杂、数据量庞大、含有噪声等特性的数据集。然而,目前提出的聚类集成算法与单一聚类算法相比具有更强的健壮性、适应性并且对噪声不敏感等特性,并在各个领域的数据集中都取得了良好的集成效果。因此,聚类集成算法的研究引起了研究者的广泛关注。本文针对聚类集成算法中存在的一些问题进行了研究,如集成的聚类结果很容易受低质量聚类成员的影响,而大多数聚类集成算法把基聚类结果进行了同等处理。基于以上分析,提出了基于聚类有效性函数的加权聚类集成算法。论文主要研究成果如下。(1)提出了基于单一聚类有效性函数的加权聚类集成算法。该算法将现有聚类有效性指标和聚类差异性指标融合构建了一个新的评价指标,基于该指标设计了新的加权聚类集成算法。并将提出的新算法与现有的集成聚类算法,在UCI数据集上进行了相关实验比较,实验结果表明新算法通过加权的方式减少了基聚类对集成结果的影响,可以提高集成结果的聚类有效性。(2)提出了基于多个聚类有效性函数加权的聚类集成算法。该算法将多个聚类有效性指标对基聚类质量的评估结果进行加权融合,设计了二次加权聚类集成算法。在UCI数据集上的实验分析表明,新方法相比单一有效性函数的加权聚类集成算法,能够更加有效的评估基聚类的质量,提高了聚类集成的精度。总之,本文从聚类有效性的角度进行了聚类集成算法研究,通过大量的实验在数据集上验证了新提出算法的有效性。本文的研究为数据分析提供了新的方法,在数据挖掘等领域有着较好的实用价值。(本文来源于《山西大学》期刊2018-06-01)

聚类有效性论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

现有的聚类有效性指标大都是基于欧氏距离而设计.虽然对超球型数据效果较好,但对非超球型数据效果并不理想.基于此,提出一种基于多目标进化算法的多距离聚类有效性指标(MoMDVI).首先使用两种距离设计两个聚类目标,并使用类代表点代替类中心点;其次使用一组实数设计染色体,该组实数可解码成代表点序号的形式;然后使用基于正则化的分布估计算法(RMMEDA)对两个目标进行优化.在进化算子中,加入差分进化算子对RMMEDA算法进行改进,以提高算法的收敛速度.将MoMDVI与现有算法在不同结构的数据上对比可知,MoMDVI不仅可以自动检测超球型数据聚类数目,也可以自动检测非超球型数据聚类数目.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

聚类有效性论文参考文献

[1].徐汉青,王思茗,孙熊兰,滕广青.知识群落在文献资源动态主题聚类中的有效性[J].图书馆理论与实践.2019

[2].刘丛,陈倩倩,陈应霞.多距离聚类有效性指标研究[J].小型微型计算机系统.2019

[3].耿嘉艺.模糊聚类有效性研究[D].江南大学.2019

[4].傅立伟,武森.基于属性值集中度的分类数据聚类有效性内部评价指标[J].工程科学学报.2019

[5].温鹏.聚类分析中的改进K-means算法和新聚类有效性指标的研究[D].安徽大学.2019

[6].王雪.聚类分析中面向重迭数据集的新型聚类有效性指标的研究[D].安徽大学.2019

[7].朱斌斌.基于改进聚类算法的新聚类有效性指标的研究[D].安徽大学.2019

[8].王俊智,杜朋召,牛兆轩.基于K-means聚类方法和ⅠIndex聚类有效性检验指标的岩体结构面自动分组及应用[J].长江科学院院报.2018

[9].杨虎,付宇,范丹.噪音特征对聚类内部有效性的影响[J].计算机科学.2018

[10].高锦.基于有效性评价的加权聚类集成算法研究[D].山西大学.2018

论文知识图

本文研究思路方法的伪码描述聚类有效性评价结果纹理图像模糊加权指数与聚类有效性数据集上各聚类有效性指标...模糊聚类有效性指标XB在数据集...

标签:;  ;  ;  ;  ;  ;  ;  

聚类有效性论文_徐汉青,王思茗,孙熊兰,滕广青
下载Doc文档

猜你喜欢