基于Boosting的基因表达数据分类

基于Boosting的基因表达数据分类

论文摘要

基因表达水平可以通过DNA微阵列技术进行测量,由此产生了基因表达数据。通过分析研究基因表达数据可以挖掘有效信息,有助于病理分析与疾病诊断,利用基因表达数据进行癌症分类诊断是一种重要的癌症检测方法。但由于基因表达数据具有维数高、样本少的特点,使得传统的模式识别方法容易陷入“维数灾难”。Boosting是一种集成学习算法,它可以将任意分类算法作为基分类算法进行集成,进而提高基分类算法的分类正确率。堆栈自动编码器是一种深度学习方法,它通过大量训练样本可以学习到数据中的高层次特征,使其在诸多模式识别问题上具有良好的分类性能。由于基因表达数据样本数较少,使用深度学习方法对基因表达数据分类易出现分类精度不高的问题。Boosting是一种迭代算法,每轮学习使用的训练样本都不同,可以一定程度上弥补样本数不足的问题。因此本文提出一种基于堆栈自动编码器与Boosting相结合的方法对基因表达数据分类,本算法首先采用主成分分析对基因表达数据降维,然后将堆栈自动编码器作为Boosting的基分类算法进行学习训练,最后组合多个堆栈自动编码器进行决策。通过在9组真实基因表达数据上实验发现本算法将堆栈自动编码器的分类正确率提升了5%~10%,并且相比于支持向量机、随机森林等算法具有更高的分类正确率,说明本算法可以显著提高堆栈自动编码器的分类精度,具有良好的分类性能。对于同一训练样本,不同算法的适应度以及学习性能不同,如何使用多个算法模型生成基分类器得到较优的基分类器组合是Boosting进行集成时的关键问题。由于多样性和正确率是影响Boosting算法的主要因素,于是可以以多样性以及正确率作为基分类器的选取标准,动态生成基分类器。因此本文提出一种基于多模型的动态生成基分类器Boosting方法,在Boosting的每一轮训练时,通过不同的学习算法生成多个分类器模型,然后计算多样性以及正确率,选取其中多样性大且正确率较高的分类器作为该轮的基分类器,使得最终组合的分类器多样性大,可以提高集成系统的分类正确率。支持向量机以及决策树简单且高效,因此该方法使用的不同学习算法为支持向量机以及决策树,通过在9组真实基因表达数据上实验表明,该方法可以提高支持向量机以及决策树的分类正确率,且分类正确率整体上优于支持向量机同质集成以及决策树同质集成。

论文目录

  • 摘要
  • ABSTRACT
  • 符号对照表
  • 缩略语对照表
  • 第一章 绪论
  •   1.1 基因表达数据简介
  •     1.1.1 基因表达数据产生背景
  •     1.1.2 基因表达数据形式
  •     1.1.3 基因表达数据特点
  •   1.2 基因表达数据分类研究意义
  •   1.3 基因表达数据分类研究现状
  •   1.4 本文组织结构与研究内容
  • 第二章 Boosting算法基础研究及降维方法简介
  •   2.1 Boosting算法简介
  •     2.1.1 Boosting算法基础理论
  •     2.1.2 AdaBoost算法模型
  •     2.1.3 AdaBoost算法误差分析
  •   2.2 影响Boosting算法性能的因素
  •     2.2.1 多样性
  •     2.2.2 基学习算法
  •     2.2.3 基分类器对特定数据分布的学习方式
  •     2.2.4 基分类器组合决策方式
  •   2.3 降维方法简介
  •     2.3.1 数据降维概念
  •     2.3.2 特征提取
  •     2.3.3 特征选择
  •   2.4 本章小结
  • 第三章 基于堆栈自动编码器与Boosting相结合对基因表达数据分类
  •   3.1 引言
  •   3.2 堆栈自动编码器简介
  •     3.2.1 自动编码器
  •     3.2.2 堆栈自动编码器
  •     3.2.3 softmax分类器
  •   3.3 堆栈自动编码器与Boosting相结合的集成学习方法
  •     3.3.1 降维必要性以及降维方法选择
  •     3.3.2 基学习算法的选择
  •     3.3.3 算法流程
  •   3.4 实验与分析
  •     3.4.1 数据简介
  •     3.4.2 交叉验证
  •     3.4.3 实验结果与分析
  •   3.5 本章小结
  • 第四章 基于多模型的动态生成基分类器Boosting方法
  •   4.1 基础理论
  •     4.1.1 决策树简介
  •     4.1.2 支持向量机简介
  •   4.2 基于多模型的动态生成基分类器Boosting方法
  •     4.2.1 动态生成基分类器
  •     4.2.2 算法流程
  •   4.3 实验与分析
  •     4.3.1 多模型算法的选取
  •     4.3.2 实验结果
  •   4.4 本章小结
  • 第五章 总结与展望
  •   5.1 本文研究工作总结
  •   5.2 前景与展望
  • 参考文献
  • 致谢
  • 作者简介
  • 文章来源

    类型: 硕士论文

    作者: 梁壮

    导师: 王文俊

    关键词: 基因表达数据,堆栈自动编码器,多样性

    来源: 西安电子科技大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 西安电子科技大学

    分类号: Q811.4;TP18

    DOI: 10.27389/d.cnki.gxadu.2019.002388

    总页数: 83

    文件大小: 3015K

    下载量: 76

    相关论文文献

    • [1].针对非平衡警情数据改进的K-Means-Boosting-BP模型[J]. 中国图象图形学报 2017(09)
    • [2].Successful Application of Hydrocracking Technology Aimed at Prodigiously Boosting Jet Fuel Yield[J]. China Petroleum Processing & Petrochemical Technology 2016(04)
    • [3].矩优化Boosting算法[J]. 模式识别与人工智能 2015(12)
    • [4].Boosting算法理论与应用研究[J]. 中国科学技术大学学报 2016(03)
    • [5].Boosting Rural Development through Industrial Prosperity[J]. China Today 2020(09)
    • [6].比例优势boosting算法在高维有序多分类数据分析中的应用[J]. 中国卫生统计 2018(03)
    • [7].Technology Relating to Catalyst for Boosting Gasoline Yield Developed by RIPP Passed Appraisal[J]. China Petroleum Processing & Petrochemical Technology 2017(01)
    • [8].Thickness Measurement of Insulation Coating by NIR Spectrometry Based on Boosting-KPLS[J]. 光谱学与光谱分析 2011(08)
    • [9].基于改进On-line Boosting算法的视频目标跟踪[J]. 电视技术 2015(16)
    • [10].基于统计分析Boosting的复杂场景目标识别方法研究[J]. 仪器仪表学报 2010(08)
    • [11].Short-term wind power forecasting using hybrid method based on enhanced boosting algorithm[J]. Journal of Modern Power Systems and Clean Energy 2017(01)
    • [12].Overview of boosting options for future downsized engines[J]. Science China Technological Sciences 2011(02)
    • [13].基于多类在线Boosting的图像识别算法[J]. 计算机辅助设计与图形学学报 2011(07)
    • [14].Boosting Cultural Industry[J]. China's Foreign Trade 2009(21)
    • [15].具有动态级联结构的在线Boosting算法[J]. 东南大学学报(自然科学版) 2009(S1)
    • [16].基于Boosting框架的推荐系统架构与优化[J]. 现代电子技术 2020(08)
    • [17].基于并行Boosting算法的雷达目标跟踪检测系统设计[J]. 计算机测量与控制 2020(11)
    • [18].Catalyst RCGP-1 for Boosting Gasoline Yield Passed SINOPEC's Appraisal[J]. China Petroleum Processing & Petrochemical Technology 2017(02)
    • [19].基于在线多核boosting的鲁棒视觉跟踪[J]. 光电子·激光 2016(05)
    • [20].一种基于Boosting的目标识别方法[J]. 电气自动化 2013(05)
    • [21].Snapshot boosting: a fast ensemble framework for deep neural networks[J]. Science China(Information Sciences) 2020(01)
    • [22].线性回归模型的Boosting变量选择方法[J]. 工程数学学报 2015(05)
    • [23].基于Boosting的网络异常流量检测算法研究[J]. 淮阴工学院学报 2011(05)
    • [24].两分类不平衡数据的Boosting算法[J]. 统计与决策 2010(10)
    • [25].基于组合Boosting回归的软测量建模[J]. 计算机工程与应用 2010(25)
    • [26].基于改进的Boosting算法的仓库监控区域目标跟踪研究[J]. 微型电脑应用 2020(05)
    • [27].Systematic Advancement[J]. Beijing Review 2020(24)
    • [28].Boosting算法研究[J]. 电脑知识与技术 2008(36)
    • [29].基于Boosting模糊分类的入侵检测[J]. 计算机工程 2008(05)
    • [30].一种自适应的多类Boosting分类算法[J]. 计算机科学 2017(07)

    标签:;  ;  ;  

    基于Boosting的基因表达数据分类
    下载Doc文档

    猜你喜欢