随着信息技术的快速发展,各领域的数据正以前所未有的速度产生并被广泛收集和存储,如何实现数据的智能化处理从而利用数据中蕴含的有价值信息已成为理论和应用的研究热点.数据分类作为一种基础的数据处理方法,已广泛应用于数据的智能化处理.传统分类方法通常假设数据类别分布均衡且错分代价相等,然而,现实中的数据通常具有不平衡特性,即某一类的样本数量要小于其他类的样本数量,且少数类具有更高错分代价.当利用传统的分类算法处理不平衡数据时,由于多数类和少数类在数量上的倾斜,以总体分类精度最大为目标会使得分类模型偏向于多数类而忽略少数类,造成少数类的分类精度较低.如何针对不平衡数据分类问题设计分类算法,同时保证不平衡数据中多数类与少数类的分类精度,已成为机器学习领域的研究热点,并相继出现了一系列优秀的不平衡数据分类方法.鉴于此,对现有的不平衡数据分类方法给出较为全面的梳理,从数据预处理层面、特征层面和分类算法层面总结和比较现有的不平衡数据分类方法,并结合当下机器学习的研究热点,探讨不平衡数据分类方法存在的挑战.最后展望不平衡数据分类未来的研究方向.
类型: 期刊论文
作者: 李艳霞,柴毅,胡友强,尹宏鹏
关键词: 不平衡数据,机器学习,分类,深度学习
来源: 控制与决策 2019年04期
年度: 2019
分类: 信息科技
专业: 自动化技术
单位: 复杂系统安全与控制教育部重点实验室,重庆大学自动化学院
基金: 国家自然科学基金项目(61633005,61773080),重庆大学科研后备拔尖人才计划项目(cqu2018CDHB1B04)
分类号: TP181
DOI: 10.13195/j.kzyjc.2018.0865
页码: 673-688
总页数: 16
文件大小: 1239K
下载量: 2511
本文来源: https://www.lunwen90.cn/article/132068b131691d8c5f0c5cd8.html