基于Eps参数自适应估计的DBSCAN算法改进及其在离群点检测中应用

基于Eps参数自适应估计的DBSCAN算法改进及其在离群点检测中应用

论文摘要

21世纪,是一个科学技术与数据爆发的时代,数据的规模越来越大,如何有效的从大规模数据中发掘出具有价值的信息成为一个重要的问题。聚类算法作为数据挖掘领域中一个重要研究方向,已逐渐发展成为一个非常活跃的研究课题,广泛被应用于生物信息学、医学、商业和营销、社交网络分析、计算机科学等信息分析领域。基于密度的聚类算法具有众多良好的性质,其中有一种非常重要的算法,DBSCAN(Density-based spatial clustering of applications with noise),该算法由Martin Ester,Hans-Peter Kriegel等人于1996年提出的,该算法可以在噪声数据中找到孤立的数据点或各种形状和大小的簇。2014年,该算法在数据挖掘领域最高质量的会议(KDD)上获得了时间测试奖(一项对理论和实践上备受关注的算法的奖励)。由于DBSCAN算法需要输入Eps和minPts两个参数,而这两个参数通常需要人的主观意识来判定赋予,导致聚类精度直接被用户的先验知识所决定,且采用的是全局统一的参数,其在非均匀密度集中的聚类效果不理想,本文针对该算法的缺陷,提出了一种新的解决思路和方法。首先,本文利用核密度估计方法计算数据点的核概率密度估计值,并通过核概率密度估计值与Eps值之间的正相关关系,自适应地计算并为每个数据点匹配合适的Eps邻域搜索半径。为了评估改进算法的效果,本文采用了多种不同类型的数据集分别进行了对比实验分析,结果表明,本文方法具有良好的聚类效果,有效提升了聚类精度。最后,由于DBSCAN算法将聚类簇以外的数据点识别为噪声点,因此本文利用该算法特性于离群点检测,为了评估离群点检测的有效性,本文使用真实数据集和模拟数据集进行多次实验验证,通过比较当前常用的几种离群点检测算法,本文算法在离群点检测上具有良好的效果。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  •   1.1 研究背景和意义
  •     1.1.1 分类
  •     1.1.2 聚类
  •     1.1.3 异常检测
  •   1.2 国内外研究现状
  •     1.2.1 DBSCAN研究现状
  •     1.2.2 离群点检测算法研究现状
  •       (1) 基于统计的离群点检测方法
  •       (2) 基于聚类的离群点检测
  •       (3) 基于距离的离群点检测
  •       (4) 基于密度的离群点检测算法
  •   1.3 本文主要研究内容和结构安排
  •     1.3.1 主要研究内容
  •     1.3.2 组织框架
  •   1.4 本章小结
  • 第二章 DBSCAN聚类与离群点检测方法分析
  •   2.1 DBSCAN算法简介
  •   2.2 DBSCAN相关概念
  •   2.3 DBSCAN算法原理及伪代码
  •     2.3.1 DBSCAN算法原理
  •     2.3.2 DBSCAN算法伪代码描述
  •   2.4 DBSCAN算法优缺点
  •     2.4.1 算法优点
  •     2.4.2 算法缺点
  •   2.5 离群点检测概念
  •   2.6 离群点产生的原因
  •   2.7 离群点检测算法介绍
  •     2.7.1 基于密度的LOF算法
  •     2.7.2 LOF算法步骤描述
  •     2.7.3 孤立森林Isolation Forest
  •     2.7.4 算法伪代码
  •   2.8 本章小结
  • 第三章 改进的DBSCAN聚类算法
  •   3.1 改进算法基本思想
  •   3.2 相关理论
  •     3.2.1 高斯核概率密度
  •     3.2.2 核函数带宽选择
  •   3.3 参数MINPTS选择
  •   3.4 EPS的优化选择
  •   3.5 改进算法分析
  •     3.5.1 改进算法伪代码指数
  •     3.5.2 算法复杂度分析
  •   3.6 实验结果对比及分析
  •     3.6.1 实验评价指数
  •     3.6.2 实验结果
  •     3.6.3 实验结果总结
  •   3.7 本章小结
  • 第四章 改进的DBSCAN离群点检测算法
  •   4.1 基本思想
  •   4.2 改进离群点算法流程图
  •   4.3 改进离群点算法分析
  •     4.3.1 改进离群点检测算法伪代码
  •     4.3.2 算法复杂度分析
  •   4.4 离群点检测质量评估方法
  •   4.5 实验结果分析
  •   4.6 实验数据集及结果分析
  •     4.6.1 实验1
  •     4.6.2 实验2
  •   4.7 本章小结
  • 第五章 总结与展望
  •   5.1 总结
  •   5.2 展望
  • 参考文献
  • 攻读硕士学位在校期间取得的研究成果
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 朱露

    导师: 孔兵

    关键词: 算法,参数,高斯核概率,离群点检测

    来源: 云南大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 数学,计算机软件及计算机应用

    单位: 云南大学

    分类号: TP311.13;O212.1

    总页数: 53

    文件大小: 3177K

    下载量: 63

    相关论文文献

    • [1].基于改进DBSCAN算法的智能照明控制系统[J]. 苏州科技大学学报(工程技术版) 2017(04)
    • [2].基于改进DBSCAN算法的风机故障诊断研究[J]. 现代电子技术 2018(21)
    • [3].基于DBSCAN算法的电缆局部放电分类方法[J]. 通信电源技术 2017(06)
    • [4].基于DBSCAN算法的大学生课程兴趣度分析[J]. 电子技术与软件工程 2018(07)
    • [5].大规模数据集下基于DBSCAN算法的增量并行化快速聚类[J]. 计算机应用与软件 2018(04)
    • [6].无源定位系统中基于DBSCAN算法的渔船雷达信号编批方法[J]. 电子信息对抗技术 2018(04)
    • [7].基于动态分段和DBSCAN算法的交通事故黑点路段鉴别方法[J]. 长安大学学报(自然科学版) 2018(05)
    • [8].基于DBSCAN算法的测试用例优化方法[J]. 计算机系统应用 2018(03)
    • [9].DBSCAN算法在城市科教文化设施集群识别中的应用研究——以贵阳市中心城区为例[J]. 创新科技 2019(02)
    • [10].基于大数据技术的瓦斯预测方法研究[J]. 福建电脑 2018(11)
    • [11].基于乘客需求数据的定制商务班车站点选址方法[J]. 山东科学 2019(01)
    • [12].改进的基于密度方法的态势聚类显示算法[J]. 计算机工程 2010(18)
    • [13].数据挖掘中几种聚类算法的分析比较[J]. 信息与电脑(理论版) 2018(24)
    • [14].结合RGB三维直方图和DBSCAN算法的图像分割[J]. 计算机工程与应用 2018(21)
    • [15].基于时空密度的船载AIS数据聚类分析方法研究[J]. 重庆交通大学学报(自然科学版) 2018(10)
    • [16].基于激光雷达的舞蹈机器人室内行人跟踪方法[J]. 计算机工程 2017(06)
    • [17].室内位置轨迹的聚类与可视化[J]. 测绘通报 2019(05)
    • [18].基于密度聚类的能耗数据采集网关设计[J]. 电子技术应用 2018(06)
    • [19].基于聚类的KNN算法改进[J]. 电脑知识与技术 2011(35)
    • [20].分类算法及其在电信客户保持的应用[J]. 计算机系统应用 2012(10)
    • [21].长江干线水上交通事故黑点分析[J]. 中国航海 2016(04)
    • [22].基于密度的聚类算法研究[J]. 泉州师范学院学报 2009(02)
    • [23].云计算环境下的光网络异常特征提取方法[J]. 激光杂志 2019(09)
    • [24].基于DCNDA算法的数据异常检测[J]. 计算机工程与设计 2018(11)
    • [25].基于AIS数据约束聚类的海上交通特征分析[J]. 船海工程 2018(01)
    • [26].一种改进的基于密度的聚类算法[J]. 电子技术应用 2009(09)
    • [27].出租车载客热点精细提取的改进DBSCAN算法[J]. 地理空间信息 2017(10)
    • [28].一种基于改进的DBSCAN的面向海量船舶位置数据码头挖掘算法[J]. 计算机工程与科学 2015(11)
    • [29].—种树木聚集分布格局模拟方法[J]. 微型机与应用 2015(15)
    • [30].一种密度聚类的染色精子医学图像识别算法[J]. 烟台大学学报(自然科学与工程版) 2014(04)

    标签:;  ;  ;  ;  

    基于Eps参数自适应估计的DBSCAN算法改进及其在离群点检测中应用
    下载Doc文档

    猜你喜欢