论文摘要
针对深度嵌入聚类(DEC)算法在数据降维后的特征空间中采用欧氏距离度量嵌入点之间的距离,容易忽视各特征不同量纲以及不同重要性的问题,提出了基于加权马氏距离的改进DEC算法,并同时给出基于加权马氏距离的间隔统计量(GS)方法判断最佳聚类数。该算法使用信息熵加权的马氏距离作为距离度量,规范化了欧氏距离的计算,并利用信息熵加大了对聚类重要的特征的权重。实证表明,基于加权马氏距离的改进DEC算法准确率优于原DEC算法,在UCI的路透社新闻等文本数据集上的聚类效果有明显的提升。利用改进的GS方法判断的最佳聚类数也有很大的可行性。
论文目录
文章来源
类型: 期刊论文
作者: 颜子寒,张正军,王雅萍,金亚洲,严涛
关键词: 深度嵌入聚类模型,信息熵,加权马氏距离,无监督学习,间隔统计量
来源: 计算机应用 2019年S2期
年度: 2019
分类: 信息科技,基础科学
专业: 数学,自动化技术
单位: 南京理工大学理学院
基金: 国家自然科学基金资助项目(61773014,11671205)
分类号: TP18;O212.4
页码: 122-126
总页数: 5
文件大小: 326K
下载量: 234
相关论文文献
标签:深度嵌入聚类模型论文; 信息熵论文; 加权马氏距离论文; 无监督学习论文; 间隔统计量论文;