聚类分析是数据挖掘与分析最重要的方法之一.它把相似的数据对象归类到一个簇,把不同的数据对象尽可能分到不同的簇.其中k-means聚类算法,由于其简单性和高效性,被广泛运用于解决各种现实问题,例如文本演化分析、图像聚类、社区发现等.然而在聚类过程中,大部分现有的类k-means算法主要考虑簇内距离,而忽略了簇间距离的作用.本文结合特征加权方法,提出了一种新的集成簇内和簇间距离的加权k-means方法(a weighting k-means clustering approach by integrating Intra-Cluster and Inter-Cluster distances,KICIC)来解决高维数据聚类问题.虽然现有少数类k-means算法通过最大化簇中心与全局中心距离来融入簇间信息,但不同于这类方法,KICIC通过在子空间内最大化簇中心与其他簇数据对象的距离来融合簇内和簇间距离进行聚类.基于此思路,本文首先为KICIC算法设计了一个目标函数,然后通过优化求解目标函数得到算法参数的更新迭代公式,并在此基础上设计了KICIC算法.最后,在6个真实数据集上的实验结果表明,对比现有类k-means算法,KICIC算法在大部分情况下都有获得更好的聚类结果.
类型: 期刊论文
作者: 黄晓辉,王成,熊李艳,曾辉
关键词: 聚类分析,特征加权,熵调整,数据挖掘
来源: 计算机学报 2019年12期
年度: 2019
分类: 信息科技
专业: 计算机软件及计算机应用
单位: 华东交通大学信息工程学院
基金: 国家自然科学基金(61562027),江西省社会科学“十二五”(2015年)规划项目(15XW12),江西省自然科学基金项目(20181BAB202024,20192ACBL21006),江西省教育厅项目(GJJ170413,GG170379)资助~~
分类号: TP311.13
页码: 2836-2848
总页数: 13
文件大小: 3083K
下载量: 777
本文来源: https://www.lunwen90.cn/article/85ce6ec782244221ca77c7b6.html