不平衡数据挖掘方法综述

不平衡数据挖掘方法综述

论文摘要

近些年,分类算法取得了长足的发展。但是随着数据来源的不断扩大,人们获得的数据绝大部分是不平衡数据。而这些分类算法通常对不平衡数据敏感,因此对不平衡数据的分类变得十分困难。目前对不平衡数据挖掘方法主要分为两大方面,分别是针对不平衡数据的预处理方法和挖掘算法。就这两大方面对近些年出现的方法进行总结,并从数据预处理、算法和性能评估方法等方面进行多维度梳理。从不同的应用领域入手,讲述了存在的各种不平衡问题,以及不同学者在其领域中的研究和解决方法。最后分析了不平衡数据挖掘领域目前存在的问题,并对未来研究方向进行展望。

论文目录

  • 1 引言
  • 2 针对不平衡数据的预处理方法
  •   2.1 采样法
  •     2.1.1 上采样
  •     2.1.2 下采样
  •     2.1.3 混合采样
  •   2.2 特征选择和特征提取
  •     2.2.1 特征选择
  •     2.2.2 特征提取
  • 3 针对不平衡数据的挖掘算法
  •   3.1 基于聚类的挖掘算法
  •   3.2 基于Boosting的挖掘算法
  •   3.3 代价敏感的挖掘算法
  •   3.4 基于核的挖掘算法
  •   3.5 其他算法
  • 4 不平衡数据挖掘方法的评价指标
  •   4.1 单一评价指标
  •   4.2 组合评价指标
  •     4.2.1 P-R曲线
  •     4.2.4 ROC曲线和AUC
  •     4.2.5 代价曲线
  • 5 不平衡数据挖掘的应用领域
  •   5.1 医疗大数据
  •   5.2 电商大数据
  •   5.3 金融大数据
  •   5.4 通信大数据
  •   5.5 生物信息大数据
  • 6 结束语
  • 7 面临的问题以及研究展望
  •   7.1 噪声问题
  •   7.2 评价指标问题
  •   7.3 GAN在文本数据中的问题
  •   7.4 基于不平衡数据流的增量学习
  • 文章来源

    类型: 期刊论文

    作者: 向鸿鑫,杨云

    关键词: 不平衡数据,采样,聚类方法,集成方法,代价敏感,性能评估

    来源: 计算机工程与应用 2019年04期

    年度: 2019

    分类: 信息科技

    专业: 计算机软件及计算机应用

    单位: 云南大学软件学院,昆明市数据科学与智能计算重点实验室

    基金: 国家自然科学基金(No.61663046,No.61876166),云南省应用基础研究计划项目(No.2016FB104),云南省中青年学术技术带头人后备人才项目(No.2017HB005),云南省创新团队项目(No.2017HC012)

    分类号: TP311.13

    页码: 1-16

    总页数: 16

    文件大小: 1890K

    下载量: 1444

    相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    不平衡数据挖掘方法综述
    下载Doc文档

    猜你喜欢