基于最大平均熵率的大数据关联聚类算法

基于最大平均熵率的大数据关联聚类算法

论文摘要

聚类是数据挖掘和机器学习中的基本任务之一.传统聚类方法由于其设计中对簇结构假设的限制,导致算法在不符合其假设的数据集上,尤其是大型高维数据集上的聚类效果较差.本文引入了最大平均熵率的概念,设计了一种基于图的关联聚类算法.该算法将关联聚类问题分解为多个独立的单类优化问题,并利用邻域消除了关联聚类对大数据的限制.算法实现通过启发式邻域搜索和类生成简化了对最优邻域和关联聚类的求解过程,并且设计了适应分布式计算平台的图迭代方法.与其他聚类算法相比,该算法在提高计算效率的同时,对簇结构假设相对灵活,可适用于多种分布数据.在聚类实验中,算法的f1-measure和purity指数均好于其他6种聚类算法,而且对于高维大数据集,算法的运行时间远远低于其他聚类算法.

论文目录

  • 1 引言
  • 2 相关工作
  •   2.1 关联聚类
  •   2.2 已有关联聚类的求解方法
  •   2.3 关联算法的大数据的限制
  • 3 基于最大平均熵率的关联聚类算法
  •   3.1 关联聚类目标函数分解
  •   3.2 基于最大平均熵率的邻域图
  • 4 优化求解与算法流程
  •   4.1 最大平均熵率邻域求解方案
  •   4.2 单一类求解方案
  •   4.3 面向大数据的关联聚类算法
  • 5 实验与分析
  •   5.1 单机实验配置
  •   5.2 单机实验结果与分析
  •   5.3 大数据实验配置
  •   5.4 大数据实验结果分析
  • 6 结论
  • 文章来源

    类型: 期刊论文

    作者: 张俪文,王涛,罗坚,杨树森,徐宗本

    关键词: 聚类,相关聚类,熵率,图聚类,大数据

    来源: 中国科学:信息科学 2019年12期

    年度: 2019

    分类: 信息科技

    专业: 计算机软件及计算机应用

    单位: 西安交通大学电子与信息学部,西安交通大学数学与统计学院

    基金: 国家自然科学基金(批准号:61772410,61802298,11690011,U1811461),国家重点研发计划(批准号:2017YFB1010004)资助项目

    分类号: TP311.13

    页码: 1572-1585

    总页数: 14

    文件大小: 8748K

    下载量: 131

    相关论文文献

    标签:;  ;  ;  ;  ;  

    基于最大平均熵率的大数据关联聚类算法
    下载Doc文档

    猜你喜欢