论文摘要
蛋白质是生命的物质基础,在不同的生命过程中实现了不同的特殊功能。然而,许多蛋白质功能的实现需要结合特定的配体,超过三分之一的蛋白质需要与金属离子配体结合,因此金属离子配体对蛋白质功能的实现起着重要作用,正确识别蛋白质中金属离子配体的结合残基对人体健康及分子药物设计有重要意义。通过实验识别金属离子配体的结合残基费时耗材,且不能批量处理数据,所以利用理论计算的方法准确识别蛋白质中金属离子配体的结合残基显得尤为重要。此外,不是所有的蛋白质都有三维结构信息,因此本文从蛋白质的序列信息出发,对金属离子配体的结合残基进行了统计分析和预测,主要工作如下:(1)以10种金属离子配体Zn2+、Cu2+、Fe2+、Fe3+、Co2+、Ca2+、Mg2+、Mn2+、Na+和K+的结合残基为研究对象,根据前人的研究及蛋白质的生物学背景知识,选取了氨基酸残基、亲疏水、极化电荷、预测的二级结构以及相对溶剂可及性信息作为特征参数,通过对相对溶剂可及性信息进行统计分析,将相对溶剂可及性进行了重新分类,得到了4种不同的分类(SA2、SAV、SAP、SA4)。(2)以位点氨基酸、位点亲疏水、位点电荷、位点二级结构和位点相对溶剂可及性保守信息为基础特征,利用位置权重矩阵分别得到了2L维特征参数;将相对溶剂可及性4种不同分类分别对应的5*2L维特征参数输入梯度提升算法(GBM)对10种金属离子配体结合残基进行识别,根据最优的预测结果,我们得到了10种金属离子配体相对应的相对溶剂可及性的最优分类;5交叉检验下得到的最优预测结果好于前人的预测结果,预测总精度(Acc)和马氏相关系数(MCC)均高于77.9%和0.558。而且以降维之后的特征子集为特征参数,也得到了好于前人的预测结果,说明构建的预测模型稳定性较好。为了检验预测模型的实用性,对金属离子配体的预测模型进行了独立检验,得到了较好的预测结果。实验结果说明本文构建的预测模型对金属离子配体结合残基有较好的识别能力。(3)利用离散增量算法和位置权重矩阵打分算法分别对氨基酸、亲疏水、极化电荷、二级结构和相对溶剂可及性的组分信息和位点保守信息进行降维处理,得到了20维组合信息。以组合信息为特征参数,基于算法参数优化设置的GBM算法,给出了10种金属离子配体分别对应的最优算法参数以及最优预测结果。同时计算了以5*2L维位点保守信息为特征参数,GBM在算法参数优化设置下10种金属离子配体结合残基的预测结果,预测结果进一步说明GBM中算法参数的优化设置是很重要的。
论文目录
文章来源
类型: 硕士论文
作者: 张晓瑾
导师: 胡秀珍
关键词: 金属离子配体,结合残基,算法,相对溶剂可及性,组合信息,最优算法参数
来源: 内蒙古工业大学
年度: 2019
分类: 基础科学,信息科技
专业: 生物学,计算机软件及计算机应用
单位: 内蒙古工业大学
分类号: Q51;TP301.6
总页数: 59
文件大小: 2244K
下载量: 23