膜蛋白类型预测中降维算法与不平衡问题的研究

膜蛋白类型预测中降维算法与不平衡问题的研究

论文摘要

膜蛋白的类型对于了解其结构和功能具有重要意义。随着后基因组时代的到来,传统的通过生物实验进行膜蛋白类型预测的方法逐渐不再适用。基于机器学习的方法因其高效率、低成本,成为替代传统生物实验的一种新方法。鉴于机器学习方法在膜蛋白类型预测中存在着多种优势,本文将对其进行深入研究,具体包括以下几个方面:1.氨基酸组成信息、物化信息和进化信息是蛋白质序列的三种基本信息,本文从这些信息出发,构建了丰富有效的特征表达方法。主要有局部氨基酸组成(LAAC)、局部二肽组成(LDC)、三肽组成(TC)、物化指数和(SPPI)、自相关函数(ACF)、削减位置特异性评分矩阵(RPSSM)、进化差异位置特异性评分矩阵(EDP)和伪位置特异性评分矩阵(PsePSSM)。其中,物化指数和(SPPI)是本文基于AA index数据库提出的一种新的特征表达方法。2.经过特征表达过程后会出现两个问题:高维特征问题和特征异质性问题。当处理高维特征问题时,本文提出了基于最大信息系数和遗传算法的两阶段特征选择算法(MIC-GA)。MIC-GA能够同时得到对分类最为有效的特征子集和对应的最优分类器参数。实验结果证实了 MIC-GA算法在去除冗余特征和提高分类器性能方面的有效性。当处理特征异质性问题时,本文将特征异质性问题转化为分类器异质性问题。利用Stacking集成方法能够很好地处理分类器异质性问题的特点,间接地解决了特征异质性问题。3.膜蛋白数据集经常存在着严重的不平衡问题,这会导致少数类别的样本在预测过程中精度偏低。本文通过采用SMOTE过采样与Tomek Link欠采样相结合的重采样技术,在训练前对数据进行预处理。由于SMOTE方法是在数据维度较高时,会产生大量的噪音数据。因此,本文在数据重采样前,通过改进原始的ReleifF算法,基于模糊隶属度提出了FReliefF特征选择算法(Fuzzy-ReleifF),对数据的特征进行维度约减。实验结果说明了本方法的有效性。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 引言
  •   1.2 研究背景及意义
  •   1.3 国内外研究现状
  •   1.4 本文的研究内容和创新点
  •   1.5 本文的组织结构
  • 第二章 膜蛋白类型预测中常用的特征表达与分类算法
  •   2.1 引言
  •   2.2 膜蛋白类型预测中的特征表达方法
  •     2.2.1 基于氨基酸组成(AAC)的特征表达方法
  •     2.2.2 基于二肽组成(DipC)的特征表达方法
  •     2.2.3 基于伪氨基酸组成(PseAAC)的特征表达方法
  •     2.2.4 基于蛋白质进化信息的特征表达方法
  •   2.3 膜蛋白类型预测的分类算法
  •   2.4 膜蛋白类型预测模型的检验方法与性能评估指标
  •     2.4.1 分类模型的检验方法
  •     2.4.2 分类模型的性能评估方法
  •   2.5 本章小结
  • 第三章 基于多种信息的特征表达方法与两阶段特征选择的膜蛋白类型预测
  •   3.1 引言
  •   3.2 基于多种信息的特征表达方法
  •     3.2.1 基于氨基酸组成的特征表达方法
  •     3.2.2 基于物化性质的特征表达方法
  •     3.2.3 基于进化信息的特征表达方法
  •   3.3 两阶段的特征选择方法
  •     3.3.1 最大信息系数
  •     3.3.2 基于遗传算法的特征选择
  •     3.3.3 基于最大信息系数和遗传算法的特征选择
  •   3.4 实验结果及分析
  •     3.4.1 数据集
  •     3.4.2 比较特征表达方法的效率
  •     3.4.3 MIC-GA特征选择方法的性能分析
  •     3.4.4 分析MIC-GA特征选择后的特征
  •     3.4.5 MIC-GA与其他特征选择方法的比较
  •   3.5 本章小结
  • 第四章 基于Stacking集成学习的特征融合
  •   4.1 引言
  •   4.2 Stacking集成方法
  •   4.3 基于Stacking集成方法的特征融合
  •     4.3.1 基分类器—随机森林(RF)
  •     4.3.2 元分类器—神经网络(NN)
  •   4.4 实验结果及分析
  •     4.4.1 实验环境
  •     4.4.2 数据集
  •     4.4.3 Stacking算法的融合效率
  •     4.4.4 与前人的比较
  •   4.5 本章小结
  • 第五章 基于数据重采样的膜蛋白类型预测
  •   5.1 引言
  •   5.2 特征表达方法
  •   5.3 FReliefF算法
  •   5.4 SMOTE过采样与Tomek Link欠采样相结合的数据重采样技术
  •   5.5 实验结果及分析
  •     5.5.1 FReliefF算法与ReliefF算法的性能比较
  •     5.5.2 FReliefF算法与其他特征选择算法的比较
  • TOMEK方法的有效性'>    5.5.3 SMOTETOMEK方法的有效性
  •   5.6 本章小结
  • 第六章 总结
  •   6.1 全文工作总结
  •   6.2 未来的工作与展望
  • 参考文献
  • 攻读硕士学位期间发表的学术论文与参与的科研项目
  •   发表的学术论文
  •   主持和参与的科研项目
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 郭磊

    导师: 王顺芳

    关键词: 膜蛋白类型预测,特征表达,特征选择算法,集成学习,数据不平衡

    来源: 云南大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 云南大学

    分类号: Q51;TP18

    总页数: 68

    文件大小: 3840K

    下载量: 44

    相关论文文献

    • [1].栈式自编码器特征表达能力研究[J]. 电信快报 2019(03)
    • [2].医学图像模态特征表达及其比较研究[J]. 情报学报 2016(12)
    • [3].基于监督学习自动编码器图像重构[J]. 江苏科技信息 2017(28)
    • [4].基于判别力分析和结构约束的Logo检测方法[J]. 智能计算机与应用 2013(04)
    • [5].产品的特征功能表达模型及其基因编码[J]. 同济大学学报(自然科学版) 2009(06)
    • [6].一种基于光谱增强的遥感影像地面特征表达评价方法[J]. 铁道勘察 2010(03)
    • [7].车辆再识别技术综述[J]. 智能科学与技术学报 2020(01)
    • [8].基于跨视角判别词典嵌入的行人再识别[J]. 计算机研究与发展 2019(11)
    • [9].深度学习及其在图像物体分类与检测中的应用综述[J]. 计算机科学 2016(12)
    • [10].基于主题模型的多示例多标记学习方法[J]. 计算机应用 2015(08)
    • [11].城市生态(绿地)景观地域特征表达研究——以上海海湾国家森林公园为例[J]. 中国园艺文摘 2014(12)
    • [12].基于等高线的图像特征表达[J]. 西安交通大学学报 2008(04)
    • [13].技术创新涌现性的特征表达及其认知演化基础[J]. 自然辩证法研究 2020(03)
    • [14].基于提升方法的多度量行人再识别[J]. 现代电子技术 2020(05)
    • [15].基于三维加工特征的工艺优化设计系统[J]. 机械设计与制造 2009(06)
    • [16].行人步态的特征表达及识别综述[J]. 模式识别与人工智能 2012(01)
    • [17].图像物体分类与检测算法综述[J]. 计算机学报 2014(06)
    • [18].交叉口机动车运动轨迹特征提取与标定[J]. 西南交通大学学报 2012(05)

    标签:;  ;  ;  ;  ;  

    膜蛋白类型预测中降维算法与不平衡问题的研究
    下载Doc文档

    猜你喜欢