利用多信息融合方法预测蛋白质亚核定位

利用多信息融合方法预测蛋白质亚核定位

论文摘要

细胞核是真核细胞内最重要的细胞器,它是基因复制、RNA转录的中心,是细胞活动的控制中心。蛋白质的功能与蛋白质在细胞内的位置密切相关,因此,如何从大量蛋白质中精确地识别出核定位蛋白,并且进一步预测亚核定位非常重要。本文基于最新更新的UniProtKB/Swiss-Prot数据库,构建了相似性小于等于25%的核定位蛋白和非核定位蛋白数据集,选取氨基酸序列N端单肽组分信息、蛋白质骨架二肽组分信息、氨基酸指数信息、蛋白质相互作用信息及基因本体注释信息为特征信息,利用支持向量机算法对构建的数据集进行预测。单特征信息中,基因本体注释信息与蛋白质相互作用信息两种特征信息的总预测成功率较好,且总预测成功率都达到了 80%以上,对特征信息进行筛选融合,在5折交叉检验下总预测成功率达到89.11%。本文进一步构建了相似性小于等于25%蛋白质亚核定位数据集N1127和N1044。并选取4种特征信息:氨基酸组分信息、蛋白质骨架二肽组分信息、基因本体注释信息和蛋白质相互作用信息,利用支持向量机算法对构建的数据集进行预测。单特征信息中,基因本体注释信息与蛋白质相互作用信息两种特征信息的总预测成功率较好,将特征信息进行融合,筛选出最优参数组合,发现当四种特征信息融合时达到最好的预测效果,在5折交叉检验下的总预测成功率分别达到69.40%和74.46%。说明通过选择适当的特征信息,并将特征信息进行融合,采用有效的算法,可以得到较好的预测结果。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  •   1.1 研究背景和意义
  •   1.2 蛋白质亚核定位预测的国内外研究进展
  •   1.3 细胞核的结构与功能简介
  •   1.4 论文研究内容及安排
  • 2 特征信息提取与分类预测算法
  •   2.1 引言
  •   2.2 特征提取
  •     2.2.1 氨基酸n肽组分信息
  •     2.2.2 氨基酸序列N端组分信息
  •     2.2.3 蛋白质骨架信息
  •     2.2.4 氨基酸指数信息
  •     2.2.5 基因本体信息
  •     2.2.6 蛋白质相互作用信息
  •   2.3 预测算法
  •     2.3.1 支持向量机算法
  •     2.3.2 随机森林算法
  •   2.4 算法检验与评价
  •     2.4.1 检验方法
  •     2.4.2 评价指标
  •   2.5 小结
  • 3 核定位蛋白的识别
  •   3.1 引言
  •   3.2 数据集
  •   3.3 特征参数对预测结果的影响
  •     3.3.1 氨基酸序列N端组分信息对预测结果的影响
  •     3.3.2 蛋白质骨架信息对预测结果的影响
  •     3.3.3 氨基酸指数信息对预测结果的影响
  •     3.3.4 蛋白质相互作用信息的预测结果
  •     3.3.5 基因本体信息的预测结果
  •   3.4 结果与讨论
  •     3.4.1 单特征参数的预测结果和讨论
  •     3.4.2 融合特征参数的预测结果和讨论
  •   3.5 小结
  • 4 核定位蛋白的亚核定位预测研究
  •   4.1 引言
  •   4.2 数据集
  •   4.3 特征参数的选取
  •   4.4 亚核定位蛋白的预测结果和讨论
  •     4.4.1 支持向量机算法的预测结果
  •     4.4.2 随机森林算法的预测结果
  •   4.5 小结
  • 5 总结与展望
  •   5.1 工作总结
  •   5.2 工作展望
  • 致谢
  • 参考文献
  • 附录
  • 作者简介
  • 文章来源

    类型: 硕士论文

    作者: 李明俊

    导师: 李凤敏

    关键词: 核定位蛋白,蛋白质骨架,基因本体,蛋白质相互作用,支持向量机

    来源: 内蒙古农业大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 内蒙古农业大学

    基金: 国家自然科学基金项目(31360206)

    分类号: TP181;Q51

    DOI: 10.27229/d.cnki.gnmnu.2019.000115

    总页数: 55

    文件大小: 3026K

    下载量: 36

    相关论文文献

    • [1].基于蛋白质骨架的人工水解酶的理性设计[J]. 化学进展 2015(08)
    • [2].黄酒类黑精的提取、成分及光谱特性研究[J]. 河南工业大学学报(自然科学版) 2016(04)
    • [3].一种蛋白质点突变计算机预测的并行模型[J]. 小型微型计算机系统 2012(05)
    • [4].基于多信息融合识别核定位蛋白[J]. 内蒙古农业大学学报(自然科学版) 2020(01)
    • [5].猪流行性腹泻病毒的分离鉴定及其M蛋白截段基因编码氨基酸的生物学分析[J]. 中国兽医学报 2013(02)

    标签:;  ;  ;  ;  ;  

    利用多信息融合方法预测蛋白质亚核定位
    下载Doc文档

    猜你喜欢