论文摘要
随着人类基因组计划的实施,以及更多生物基因组测序计划的完成,生物学数据呈爆炸性增长,传统的生化试验方法已经远远不能满足需求。智能算法在生物信息领域有其独特的优势。已有研究表明,智能算法能成功解决生物信息学的这些问题。但是在蛋白质靶向预测上仍然面临着诸多问题和挑战。比如真核生物中末端锚定蛋白质(tail-anchored proteins,TA蛋白)靶向预测尚未有智能算法应用的实现。TA蛋白靶向与CpG岛的低甲基化存在相关性,因此,CpG岛的低甲基化可以作为TA蛋白靶向的相关特征因素。针对上述问题,本文做了大量的调研工作,对CpG岛识别及TA蛋白靶向预测进行深入的研究。大量的研究表明,已有的经典算法识别和分类准确率相对偏低,无法满足CpG岛序列识别和TA蛋白靶向预测等研究所要求的准确率。针对上述问题,本文以CpG岛序列识别为作为研究的切入点,TA蛋白靶向预测作为后续研究。采用智能算法可以很好的解决以上问题,同时提高了识别和预测的准确率。在CpG岛序列识别和TA蛋白靶向预测的研究中取得了不错的成果。本文的主要工作及创新点概括如下:1.本文提出了一种用遗传算法和隐马尔可夫模型结合的CpG岛序列识别方法。该方法通过遗传算法优化隐马尔科夫模型参数,得出的模型可以更好的用于CpG岛序列识别。2.本文通过严格筛选,我们获得了428个真核生物TA蛋白的数据,用于TA蛋白靶向定位预测;采用7种TA蛋白序列特征提取方法;并且增加了疏水性和电荷量这两类特征训练模型,可以有效的提高模型的分类准确率。3.本文构建了一种朴素贝叶斯的特征提取方法来提取TA蛋白序列特征。采用mRMR算法对蛋白质数据进行特征选择;最后,采用支持向量机去训练模型。在训练过程中基于网格方式对参数?和惩罚系数C进行优化,并对实验结果进行分析。4.本文分别训练并比较了5种机器学习模型在TA蛋白靶向预测的结果。即:随机森林(RF)、逻辑回归(LR)、朴素贝叶斯(NB)、K-最近邻(KNN)和梯度提升树(GBDT)。最后,本文利用遗传算法全局搜索的能力,对HMM参数进行优化。将其改进方案应用到CpG岛序列识别中,可以提高CpG岛序列识别的准确率。对于TA蛋靶向预测,构建了一种朴素贝叶斯特征提取方案,采用SVM可以实现对TA蛋白靶向预测。后续研究中,本文采用了七种特征提取方法来提取蛋白质序列特征,通过集成五种智能算法的分类结果,可以更好的预测TA蛋白在亚细胞器的靶向,预测精度达到84%。
论文目录
文章来源
类型: 硕士论文
作者: 何演林
导师: 刘弘
关键词: 遗传算法,隐马尔可夫模型,末端锚定蛋白,特征提取,模型融合
来源: 山东师范大学
年度: 2019
分类: 基础科学,信息科技
专业: 生物学,自动化技术
单位: 山东师范大学
分类号: Q811.4;TP18
总页数: 44
文件大小: 3068K
下载量: 71