论文摘要
膜蛋白的类型对于了解其结构和功能具有重要意义。随着后基因组时代的到来,传统的通过生物实验进行膜蛋白类型预测的方法逐渐不再适用。基于机器学习的方法因其高效率、低成本,成为替代传统生物实验的一种新方法。鉴于机器学习方法在膜蛋白类型预测中存在着多种优势,本文将对其进行深入研究,具体包括以下几个方面:1.氨基酸组成信息、物化信息和进化信息是蛋白质序列的三种基本信息,本文从这些信息出发,构建了丰富有效的特征表达方法。主要有局部氨基酸组成(LAAC)、局部二肽组成(LDC)、三肽组成(TC)、物化指数和(SPPI)、自相关函数(ACF)、削减位置特异性评分矩阵(RPSSM)、进化差异位置特异性评分矩阵(EDP)和伪位置特异性评分矩阵(PsePSSM)。其中,物化指数和(SPPI)是本文基于AA index数据库提出的一种新的特征表达方法。2.经过特征表达过程后会出现两个问题:高维特征问题和特征异质性问题。当处理高维特征问题时,本文提出了基于最大信息系数和遗传算法的两阶段特征选择算法(MIC-GA)。MIC-GA能够同时得到对分类最为有效的特征子集和对应的最优分类器参数。实验结果证实了 MIC-GA算法在去除冗余特征和提高分类器性能方面的有效性。当处理特征异质性问题时,本文将特征异质性问题转化为分类器异质性问题。利用Stacking集成方法能够很好地处理分类器异质性问题的特点,间接地解决了特征异质性问题。3.膜蛋白数据集经常存在着严重的不平衡问题,这会导致少数类别的样本在预测过程中精度偏低。本文通过采用SMOTE过采样与Tomek Link欠采样相结合的重采样技术,在训练前对数据进行预处理。由于SMOTE方法是在数据维度较高时,会产生大量的噪音数据。因此,本文在数据重采样前,通过改进原始的ReleifF算法,基于模糊隶属度提出了FReliefF特征选择算法(Fuzzy-ReleifF),对数据的特征进行维度约减。实验结果说明了本方法的有效性。
论文目录
文章来源
类型: 硕士论文
作者: 郭磊
导师: 王顺芳
关键词: 膜蛋白类型预测,特征表达,特征选择算法,集成学习,数据不平衡
来源: 云南大学
年度: 2019
分类: 基础科学,信息科技
专业: 生物学,自动化技术
单位: 云南大学
分类号: Q51;TP18
总页数: 68
文件大小: 3840K
下载量: 44
相关论文文献
- [1].栈式自编码器特征表达能力研究[J]. 电信快报 2019(03)
- [2].医学图像模态特征表达及其比较研究[J]. 情报学报 2016(12)
- [3].基于监督学习自动编码器图像重构[J]. 江苏科技信息 2017(28)
- [4].基于判别力分析和结构约束的Logo检测方法[J]. 智能计算机与应用 2013(04)
- [5].产品的特征功能表达模型及其基因编码[J]. 同济大学学报(自然科学版) 2009(06)
- [6].一种基于光谱增强的遥感影像地面特征表达评价方法[J]. 铁道勘察 2010(03)
- [7].车辆再识别技术综述[J]. 智能科学与技术学报 2020(01)
- [8].基于跨视角判别词典嵌入的行人再识别[J]. 计算机研究与发展 2019(11)
- [9].深度学习及其在图像物体分类与检测中的应用综述[J]. 计算机科学 2016(12)
- [10].基于主题模型的多示例多标记学习方法[J]. 计算机应用 2015(08)
- [11].城市生态(绿地)景观地域特征表达研究——以上海海湾国家森林公园为例[J]. 中国园艺文摘 2014(12)
- [12].基于等高线的图像特征表达[J]. 西安交通大学学报 2008(04)
- [13].技术创新涌现性的特征表达及其认知演化基础[J]. 自然辩证法研究 2020(03)
- [14].基于提升方法的多度量行人再识别[J]. 现代电子技术 2020(05)
- [15].基于三维加工特征的工艺优化设计系统[J]. 机械设计与制造 2009(06)
- [16].行人步态的特征表达及识别综述[J]. 模式识别与人工智能 2012(01)
- [17].图像物体分类与检测算法综述[J]. 计算机学报 2014(06)
- [18].交叉口机动车运动轨迹特征提取与标定[J]. 西南交通大学学报 2012(05)