基于GBM算法识别蛋白质中金属离子配体的结合残基

基于GBM算法识别蛋白质中金属离子配体的结合残基

论文摘要

蛋白质是生命的物质基础,在不同的生命过程中实现了不同的特殊功能。然而,许多蛋白质功能的实现需要结合特定的配体,超过三分之一的蛋白质需要与金属离子配体结合,因此金属离子配体对蛋白质功能的实现起着重要作用,正确识别蛋白质中金属离子配体的结合残基对人体健康及分子药物设计有重要意义。通过实验识别金属离子配体的结合残基费时耗材,且不能批量处理数据,所以利用理论计算的方法准确识别蛋白质中金属离子配体的结合残基显得尤为重要。此外,不是所有的蛋白质都有三维结构信息,因此本文从蛋白质的序列信息出发,对金属离子配体的结合残基进行了统计分析和预测,主要工作如下:(1)以10种金属离子配体Zn2+、Cu2+、Fe2+、Fe3+、Co2+、Ca2+、Mg2+、Mn2+、Na+和K+的结合残基为研究对象,根据前人的研究及蛋白质的生物学背景知识,选取了氨基酸残基、亲疏水、极化电荷、预测的二级结构以及相对溶剂可及性信息作为特征参数,通过对相对溶剂可及性信息进行统计分析,将相对溶剂可及性进行了重新分类,得到了4种不同的分类(SA2、SAV、SAP、SA4)。(2)以位点氨基酸、位点亲疏水、位点电荷、位点二级结构和位点相对溶剂可及性保守信息为基础特征,利用位置权重矩阵分别得到了2L维特征参数;将相对溶剂可及性4种不同分类分别对应的5*2L维特征参数输入梯度提升算法(GBM)对10种金属离子配体结合残基进行识别,根据最优的预测结果,我们得到了10种金属离子配体相对应的相对溶剂可及性的最优分类;5交叉检验下得到的最优预测结果好于前人的预测结果,预测总精度(Acc)和马氏相关系数(MCC)均高于77.9%和0.558。而且以降维之后的特征子集为特征参数,也得到了好于前人的预测结果,说明构建的预测模型稳定性较好。为了检验预测模型的实用性,对金属离子配体的预测模型进行了独立检验,得到了较好的预测结果。实验结果说明本文构建的预测模型对金属离子配体结合残基有较好的识别能力。(3)利用离散增量算法和位置权重矩阵打分算法分别对氨基酸、亲疏水、极化电荷、二级结构和相对溶剂可及性的组分信息和位点保守信息进行降维处理,得到了20维组合信息。以组合信息为特征参数,基于算法参数优化设置的GBM算法,给出了10种金属离子配体分别对应的最优算法参数以及最优预测结果。同时计算了以5*2L维位点保守信息为特征参数,GBM在算法参数优化设置下10种金属离子配体结合残基的预测结果,预测结果进一步说明GBM中算法参数的优化设置是很重要的。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 课题研究的背景和意义
  •   1.2 国内外研究进展
  •   1.3 论文的结构安排
  • 第二章 数据的统计分析和算法的介绍
  •   2.1 数据集的选取
  •   2.2 氨基酸组分及位点氨基酸保守信息的统计分析
  •     2.2.1 氨基酸组分信息的统计分析
  •     2.2.2 位点氨基酸保守信息的统计分析
  •   2.3 算法
  •     2.3.1 梯度提升(GBM)算法
  •     2.3.2 位置权重矩阵打分算法
  •     2.3.3 离散增量算法
  •   2.4 检验方法及评价指标
  •   2.5 本章小结
  • 第三章 基于重分类的相对溶剂可及性预测金属离子配体结合残基
  •   3.1 特征参数的选取
  •     3.1.1 预测的二级结构和相对溶剂可及性
  •     3.1.2 氨基酸的物理化学性质
  •   3.2 特征参数的提取
  •   3.3 计算结果与讨论
  •     3.3.1 相对溶剂可及性的重分类
  •     3.3.2 基于重分类的预测结果
  •     3.3.3 与前人结果的比较
  •     3.3.4 降维之后的预测结果
  •     3.3.5 独立检验下的预测结果
  •   3.4 本章小结
  • 第四章 基于优化算法参数的GBM识别金属离子配体结合残基
  •   4.1 特征参数的提取
  •   4.2 计算结果与讨论
  •     4.2.1 最优算法参数的确定
  •     4.2.2 金属离子配体结合残基的预测结果
  •     4.2.3 预测结果的比较
  •     4.2.4 独立检验下的预测结果
  •   4.3 本章小结
  • 第五章 总结和展望
  •   5.1 工作总结
  •   5.2 课题展望
  • 参考文献
  • 附录
  •   附录 A:金属离子配体正负集片段中氨基酸的组分信息
  •   附录 B:金属离子配体正负集片段中氨基酸的位点保守性
  •   附录 C:金属离子配体相对溶剂可及性信息的统计分布
  •   附录 D:相对溶剂可及性的分类区间
  •   附录 E:金属离子配体最优算法参数下的ROC曲线
  • 致谢
  • 在研期间获得的科研成果
  • 文章来源

    类型: 硕士论文

    作者: 张晓瑾

    导师: 胡秀珍

    关键词: 金属离子配体,结合残基,算法,相对溶剂可及性,组合信息,最优算法参数

    来源: 内蒙古工业大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,计算机软件及计算机应用

    单位: 内蒙古工业大学

    分类号: Q51;TP301.6

    总页数: 59

    文件大小: 2244K

    下载量: 23

    相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    基于GBM算法识别蛋白质中金属离子配体的结合残基
    下载Doc文档

    猜你喜欢