导读:本文包含了层次聚类算法论文开题报告文献综述、选题提纲参考文献,主要关键词:层次,数据,距离,矩阵,算法,函数,静力。
层次聚类算法论文文献综述写法
王鹏宇,王国宇,贾贞,曹晓晓,王泉斌[1](2019)在《一种基于局部特征的层次聚类算法》一文中研究指出聚类算法在数据挖掘中起到十分重要的作用,其中CHAMELEON算法因具有发现任意形状簇类的能力,成为一种常用算法。本文针对CHAMELEON算法在簇类内部密度存在变化时聚类效果不佳等问题,采用自适应生成近邻图、基于局部特征分割近邻图、聚合子簇等方法,提出了一种基于局部特征与网格结构的层次聚类算法,并使用二维数据集,与不同的聚类算法进行了测试和对比分析。实验结果表明,本文算法在数据分布复杂的情况下,能够得到较理想的聚类效果。(本文来源于《中国海洋大学学报(自然科学版)》期刊2019年S2期)
张振宇,林杰,苗润生[2](2019)在《犹豫模糊语言凝聚式层次聚类算法与应用》一文中研究指出聚类算法作为一种重要的处理数据信息的工具被广泛运用。文章基于犹豫模糊语言集的定义、距离测度函数、集成函数等,结合凝聚式层次聚类算法,提出一种犹豫模糊语言凝聚式聚类算法。通过汽车口碑聚类为例,基于汽车之家论坛在线评论信息,对汽车口碑进行聚类,验证了该算法的可行性。(本文来源于《统计与决策》期刊2019年21期)
代翔,黄细凤,唐瑞,蒋梦婷,陈兴蜀[3](2019)在《基于层次聚类的子话题检测算法》一文中研究指出使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上的分层现象;LDA建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数K的设定通常根据人的经验.这些将造成建模结果出现包含多个子话题的混合话题情况.针对上述问题,文中基于层次聚类算法,使用一种文档特征词序列对LDA模型分类结果粒度过粗、热点话题检测结果泛化所导致的舆情监控价值较低的情况进行子话题检测.首先对LDA模型建模结果进行优化,对话题-单词分布与文档-单词分布两个矩阵进行过滤;然后对重迭话题进行检测与合并,采用文档间紧密度度量方式发现泛话题与混合话题;最后通过层次聚类算法对话题下的文本进行二次聚类,得到话题下的子话题.实验结果表明:该算法对子话题的检测能够在更深层次上体现出热点话题的特性,便于舆情监控分析;与Single-Pass算法和K-均值聚类算法相比,该算法获得的结果更具有有效性;K的选取策略对基于层次聚类的子话题检测算法具有鲁棒性.(本文来源于《华南理工大学学报(自然科学版)》期刊2019年08期)
李春忠,靖稳峰,徐健[4](2019)在《基于多尺度信息融合的层次聚类算法》一文中研究指出在体绘制领域和图像分割中,数据集通常具有流形结构,各部分边界连接紧密且伴随局部噪声,给传统聚类算法的应用带来了较大的困难.本文根据非参数密度估计方法提出了一种基于多尺度信息融合的层次聚类算法.新算法通过整合密度差异和边界信息构造了一种多尺度结构信息融合的相似性度量,通过水平集的图连接策略推导出一种层次化的类结构剖析过程以获取稳定的聚类结果.新算法不受数据集形状、密度类型的限制,无需对数据集进行假设,可自动识别数据集常见的聚类结构特征.同时聚类结果较为稳定,算法对噪声具有较强的鲁棒性.从人工数据集和真实数据集以及应用试验的测试结果可以看出新算法的优越性能.(本文来源于《工程数学学报》期刊2019年03期)
邱敏,宋友建,丛璐,梅年峰,王闫超[5](2019)在《基于层次聚类算法的孔压静力触探土体分类方法及试验研究》一文中研究指出划分土层、辨别土类是孔压静力触探(CPTU)成果应用的基础。常规的人工分层效果差强人意,而土体行为分类法尽管可靠性高,但无法起到分层效果。引用层次聚类算法,通过对变量的选择、数据的标准化、距离矩阵的生成和类数目的确定,得到了基于层次聚类算法的CPTU数据聚类流程图;结合Robertson和Campanella分类图,提出了基于CPTU测试数据的土层划分与命名规则。采用自主研制的静力触探-钻探一体机,在宁波市轨道交通4号线上展开试验,将土层划分与命名结果与钻孔柱状图展开对比,结果表明:以锥尖阻力q_t、摩阻比R_f和孔隙水压力u_2作为初始聚类参数的分层图对8个主层的划分与钻孔柱状图几乎一致。其中,以q_t-R_f为初始聚类参数的分层图能够识别出单靠q_t曲线无法识别的2个薄夹层,体现了R_f的作用;以q_t-u_2为初始聚类参数的分层图对砂类土划分得过于细致,对黏土划分得过于粗糙,表明u_2对砂性土变化过于敏感,对黏性土变化不敏感;以q_t-R_f-u_2为初始聚类参数的分层图既保留了q_t的主要特征,又适当地融入了R_f和u_2对土层划分的影响,分层效果最佳。钻孔剖面黏性土的不排水抗剪强度曲线总体上符合土体性质与土层深度的变化规律,从侧面反映了聚类分层图的准确性。(本文来源于《水文地质工程地质》期刊2019年03期)
李飞[6](2019)在《基于层次聚类的生物数据特征选择算法的研究与实现》一文中研究指出随着医疗技术,计算机技术以及高通量数据存储技术的飞速发展,生物医疗数据每年都会大量的产生,在疾病研究领域内,如何从海量的疾病数据中找到有价值的信息一直都是数据挖掘和机器学习领域内的热点研究问题。随着微芯片技术的成熟,人们可以方便的提取到生物样本中所有基因的表达量,即基因表达谱数据,基因表达谱数据中蕴含着大量的基因相关信息,如果能从中找到与所研究疾病有重要联系的生物标志物,不仅能促进相关疾病研究的发展,并且有可能为相关疾病的诊治提供新的思路。而这些生物标志物,往往在疾病样本和对照组样本中存在差异表达,通过结合数据挖掘和机器学习中的学习器,学习样本特征,并进行预测分析,是寻找这些有生物医学价值的生物标志物的一种有效且重要的途径。人体有成千上万个基因,从系统生物学的角度来看,表达模式相似的基因,功能也相似,这些功能相似的基因一起协同工作,构成了一个基因功能子系统,并且在功能子系统中,少数基因起关键调控作用,大部分基因起协助作用。这些起关键调控作用的基因是具有重要研究价值的生物标志物中的一种,但是怎么有效的使用机器学习和数据挖掘的技术去挖掘出这些在疾病病理过程中起关键作用的基因仍然是一个挑战。另一方面,基因表达谱数据中有些特定疾病类别的样本收集起来可能比较困难,这很容易造成类别不均衡问题;而且基因表达谱数据的样本数往往远小于基因数,这将导致“小n大p”问题。这些因素,导致在应用机器学习分类器时,分类器的性能遇到了较大的干扰。相较于类别均衡的数据,类别不均衡的数据想要学习出性能好的分类器更加困难。如果在特征不加以筛选降维的情况下而直接用于模型训练,不仅会导致模型复杂度过高,性能低下,而且还会导致过拟合问题。而特征选择技术则是这些问题的一种重要解决途径之一。特征选择算法可以对特征集合中的特征进行甄别,过滤掉无用特征和冗余特征,在降低特征维度的同时,提升预测模型的性能。针对以上这些问题,本文提出了一种结合了系统生物学的观点,使用层次聚类将表达模式相近的基因归类,并通过动态剪枝挑选出合适的簇,依据与类别的相关性排名来挑选初始特征子集,能极大的降低特征维度,同时针对初始特征子集进行同簇特征替换,递归特征消除,在内嵌分类器的协助下能筛选出性能相对不错的特征子集。实验结果显示,该算法能使用较少的特征达到相对不错的分类性能,并且通过与同类算法对比发现,该算法有相对不错的稳定性。该算法在银屑病上获取的特征中,一部分特征被已有文献证实与银屑病有紧密的联系,而另外一些暂时没有相关文献证实的特征,很可能对相关医学研究具有重要的参考价值。(本文来源于《吉林大学》期刊2019-05-01)
占斌[7](2019)在《基于层次聚类算法的商业数据分析》一文中研究指出2018年,随着IT行业的发展,移动互联网突破创新,全球的信息数据及数据的种类量呈快速且稳定的增长,大数据的到来为电子商务及各个行业提供了更高效便捷的领导重要,并为其开拓了更广阔的发展及领导领域。随着大数据发展时代的在我们的生活中的日益普遍,大数据时代大大拓展了互联网的发展和应用领域,这个时代的我们正处在一个数据爆炸性增长的“大数据”时代,大数据在社会经济、军事、文化,人们生活等方面产生不可或缺的角色,大数据的来临与电子商务发展的结合是社会发展中必然的结果,它将带领我们进入一个新的创新发展局面。随着时间的推移,网络上的数据信息量越来越巨大,而消费者对信息的处理能力却是非常有限的,消费者很难对大量的数据信息进行正确的筛选和分析。这时电商可通过对网络数据的采集分析,根据用户的消费特征,将用户细分为不同的消费群体,为用户的消费及喜好提供个性化的服务。本文对当今网页中的常用的网页数据格式进行了简单的介绍及解析此数据格式的方法进行了对比研究。并结合国内流行的数据采集器对本论文要进行数据分析的实际存在的商业数据进行了采集。接着对聚类分析算法中比较经典的基于划分的聚类算法,如K-Means算法,K-Medians算法;基于层次的聚类算法,如CRUE算法,BITCH算法;基于密度的聚类算法,如DBSCAN算法,OPTIC算法进行了论述,再将该叁类聚类分析算法与该论文的数据特征进行了衡量,并选取了最佳的分析算法,接着通过一个简单的例子论述了本论文要研究的基于层次的聚类算法的过程。最后通过国外流行的Kissmetric数据分析工具及基于层次的聚类分析算法对采集的数据运用了欧式距离公式计算数据点之间的相似度并对结果进行了分析,得出的结果与实际的情况进行对比,两者对比相似度高,为实际的商业应用提供了一定的参考价值。目前该研究的方法已经在某企业的商品销售中投入使用,取得的成绩非常理想,大大的增加了商品的销售量,并给该企业带来非常可观的收益。(本文来源于《沈阳师范大学》期刊2019-03-01)
常津铭,王红蕾[8](2019)在《基于层次聚类和贝叶斯的室内定位算法》一文中研究指出针对目前基于WiFi的位置指纹室内定位算法精度不高,计算消耗时间过长,实时性差的问题,提出一种改进的室内定位算法。首先利用层次聚类的算法进行预匹配,缩小定位区域,达到降低匹配数据,提高实时性的目的,然后利用贝叶斯算法进行定位。实验结果表明,所提出的定位算法在精度和定位实时性方面都有了很大的改善。(本文来源于《计算机时代》期刊2019年02期)
陶洋,邓行,杨飞跃,潘蕾娜[9](2019)在《基于DTW距离度量的层次聚类算法》一文中研究指出针对传统聚类算法直接应用于分段时间序列聚类效果不佳,提出一种基于DTW距离度量的层次聚类算法。在计算距离矩阵时,运用DTW计算分段之间的距离取代传统的欧氏距离度量方式,提高相似性度量算法精度;在更新距离矩阵的方式上,对计算得到的距离矩阵根据距离值进行排序,保存到结构体数组中,层次聚类合并簇时直接通过数组顺序进行合并,提高算法性能,减小算法的时间复杂度。整个算法的目的是实现较好聚类效果的同时降低算法的计算量,以便处理大规模时间序列数据。通过Matlab仿真分析验证了该改进模型的有效性。(本文来源于《计算机工程与设计》期刊2019年01期)
周珍娟,刁联旺[10](2018)在《基于动态层次聚类分析的多传感器一致性融合算法》一文中研究指出为了提高集中式多传感器一致性数据融合的精度,在数据融合过程中,必须考虑从各传感器获得的数据可信度.为了克服现有一致性数据融合算法中定义的距离矩阵和关系矩阵存在的不对称性和主观性等缺点,本文定义了概率距离矩阵和基于统计置信度的关系矩阵,然后讨论了多正态分布共同均值的极大似然估计的统计性质和递推特性,并根据估计量的方差统计性质提出了一种基于动态层次聚类的多传感器一致性数据融合处理的方法,数据实验的计算结果表明,该算法优于现有的多传感器一致性数据融合方法.(本文来源于《南京师大学报(自然科学版)》期刊2018年04期)
层次聚类算法论文开题报告范文
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
聚类算法作为一种重要的处理数据信息的工具被广泛运用。文章基于犹豫模糊语言集的定义、距离测度函数、集成函数等,结合凝聚式层次聚类算法,提出一种犹豫模糊语言凝聚式聚类算法。通过汽车口碑聚类为例,基于汽车之家论坛在线评论信息,对汽车口碑进行聚类,验证了该算法的可行性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
层次聚类算法论文参考文献
[1].王鹏宇,王国宇,贾贞,曹晓晓,王泉斌.一种基于局部特征的层次聚类算法[J].中国海洋大学学报(自然科学版).2019
[2].张振宇,林杰,苗润生.犹豫模糊语言凝聚式层次聚类算法与应用[J].统计与决策.2019
[3].代翔,黄细凤,唐瑞,蒋梦婷,陈兴蜀.基于层次聚类的子话题检测算法[J].华南理工大学学报(自然科学版).2019
[4].李春忠,靖稳峰,徐健.基于多尺度信息融合的层次聚类算法[J].工程数学学报.2019
[5].邱敏,宋友建,丛璐,梅年峰,王闫超.基于层次聚类算法的孔压静力触探土体分类方法及试验研究[J].水文地质工程地质.2019
[6].李飞.基于层次聚类的生物数据特征选择算法的研究与实现[D].吉林大学.2019
[7].占斌.基于层次聚类算法的商业数据分析[D].沈阳师范大学.2019
[8].常津铭,王红蕾.基于层次聚类和贝叶斯的室内定位算法[J].计算机时代.2019
[9].陶洋,邓行,杨飞跃,潘蕾娜.基于DTW距离度量的层次聚类算法[J].计算机工程与设计.2019
[10].周珍娟,刁联旺.基于动态层次聚类分析的多传感器一致性融合算法[J].南京师大学报(自然科学版).2018