论文摘要
聚类是数据挖掘和机器学习中的基本任务之一.传统聚类方法由于其设计中对簇结构假设的限制,导致算法在不符合其假设的数据集上,尤其是大型高维数据集上的聚类效果较差.本文引入了最大平均熵率的概念,设计了一种基于图的关联聚类算法.该算法将关联聚类问题分解为多个独立的单类优化问题,并利用邻域消除了关联聚类对大数据的限制.算法实现通过启发式邻域搜索和类生成简化了对最优邻域和关联聚类的求解过程,并且设计了适应分布式计算平台的图迭代方法.与其他聚类算法相比,该算法在提高计算效率的同时,对簇结构假设相对灵活,可适用于多种分布数据.在聚类实验中,算法的f1-measure和purity指数均好于其他6种聚类算法,而且对于高维大数据集,算法的运行时间远远低于其他聚类算法.
论文目录
文章来源
类型: 期刊论文
作者: 张俪文,王涛,罗坚,杨树森,徐宗本
关键词: 聚类,相关聚类,熵率,图聚类,大数据
来源: 中国科学:信息科学 2019年12期
年度: 2019
分类: 信息科技
专业: 计算机软件及计算机应用
单位: 西安交通大学电子与信息学部,西安交通大学数学与统计学院
基金: 国家自然科学基金(批准号:61772410,61802298,11690011,U1811461),国家重点研发计划(批准号:2017YFB1010004)资助项目
分类号: TP311.13
页码: 1572-1585
总页数: 14
文件大小: 8748K
下载量: 131