Print

基于加权马氏距离的改进深度嵌入聚类算法

论文摘要

针对深度嵌入聚类(DEC)算法在数据降维后的特征空间中采用欧氏距离度量嵌入点之间的距离,容易忽视各特征不同量纲以及不同重要性的问题,提出了基于加权马氏距离的改进DEC算法,并同时给出基于加权马氏距离的间隔统计量(GS)方法判断最佳聚类数。该算法使用信息熵加权的马氏距离作为距离度量,规范化了欧氏距离的计算,并利用信息熵加大了对聚类重要的特征的权重。实证表明,基于加权马氏距离的改进DEC算法准确率优于原DEC算法,在UCI的路透社新闻等文本数据集上的聚类效果有明显的提升。利用改进的GS方法判断的最佳聚类数也有很大的可行性。

论文目录

  • 0 引言
  • 1 DEC模型
  •   1.1 自动编码器
  •   1.2 聚类层
  •     1.2.1 软分配度
  •     1.2.2 KL散度最小化
  •   1.3 优化模型
  • 2 相关概念
  •   2.1 欧氏距离和马氏距离
  •     2.1.1 欧氏距离
  •     2.1.2 马氏距离
  •   2.2 信息熵赋权法
  • 3 改进DEC算法
  •   3.1 加权马氏距离
  •   3.2 改进DEC算法的具体步骤
  • 4 实例分析
  •   4.1 数据集
  •     1)路透社新闻数据集(REUTERS-10k)[10]:
  •     2)土耳其文本分类数据集(Tuekish Text Categorization, TTC-3600)[11]:
  •     3)今日头条中文新闻(Toutiao):
  •   4.2 参数设置
  •   4.3 评价标准
  •   4.4 拓展实验
  •   4.5 模型改进代价
  • 5 最佳聚类数
  •   5.1 间隔统计量
  •   5.2 标准化互信息
  •   5.3 讨论
  • 6 结语
  • 文章来源

    类型: 期刊论文

    作者: 颜子寒,张正军,王雅萍,金亚洲,严涛

    关键词: 深度嵌入聚类模型,信息熵,加权马氏距离,无监督学习,间隔统计量

    来源: 计算机应用 2019年S2期

    年度: 2019

    分类: 信息科技,基础科学

    专业: 数学,自动化技术

    单位: 南京理工大学理学院

    基金: 国家自然科学基金资助项目(61773014,11671205)

    分类号: TP18;O212.4

    页码: 122-126

    总页数: 5

    文件大小: 326K

    下载量: 234

    相关论文文献

    本文来源: https://www.lunwen90.cn/article/5172d3a4872ed3e921b2f5e0.html