蛋白质编码及蛋白质相互作用预测模型的研究

蛋白质编码及蛋白质相互作用预测模型的研究

论文摘要

细胞凋亡、免疫应答和代谢途径等一系列重要生命活动,均是通过蛋白质之间的相互作用来实现的。蛋白质相互作用有利于阐明生命活动的分子机制,对疾病治疗和新药开发也具有一定的指导意义。随着后蛋白质组时代的到来,积累了海量蛋白质序列数据,如何处理这些海量的数据,如何从大量的蛋白质序列数据中挖掘出蛋白质之间内在的关系,以及如何构建蛋白质之间的相互作用网络,成为当前蛋白质组学研究中亟待解决的问题。因此,本文以蛋白质相互作用为研究目标,围绕蛋白质序列的编码方法和基于氨基酸序列的蛋白质相互作用预测模型构建及模型优化等问题开展研究工作。论文主要研究内容及结果如下:(1)为了改进蛋白质相互作用的预测性能,基于深度神经网络(Deep Neural Network,DNN)结合联合三元组(Conjoint Triads,CT)、自协方差(Auto-Covariance,AC)、局部描述符(Local Descriptor,LD)三种蛋白质编码方法,构建了 DNN-CT、DNN-AC和DNN-LD三种蛋白质相互作用预测模型,并采用dropout对三种模型的预测性能进行优化。实验结果发现:dropout将DNN-CT、DNN-AC和DNN-LD 的准确率分别从 97.11%、96.84%和 95.30%提高到 98.12%、98.17%和95.60%,将 DNN-CT、DNN-AC 和 DNN-LD 的损失率分别从 27.47%、65.91%和36.23%降至14.96%、17.82%和15.34%。这些结果表明,dropout可以提高预测模型的准确率同时降低预测模型的损失率,为蛋白质相互作用预测模型的优化提供了一个可行的解决方案。(2)基于CT和AC,提出了一种新的特征编码方法:联合三元组自协方差法(Conjoint Triad Auto Covariance,CTAC)。该方法将CTAC编码方法与深度神经网络、支持向量机、自适应提升算法和随机森林等机器学习算法相结合,构建不同的蛋白质相互作用预测模型。实验结果表明,基于CTAC编码方法的蛋白质相互作用预测模型不仅在Benchmark数据集获得较好的预测性能,在四个外部数据集上也分别获得较好的预测结果,和现有方法相比,优于现有的蛋白质序列编码方法。(3)针对现有蛋白质序列编码方法CT、AC和LD没有考虑整条氨基酸序列先后顺序关系这一缺点,提出一种基于序列矩阵(Matrix of Sequence,MOS)的蛋白质序列编码方法,该方法一方面考虑了整条氨基酸序列先后顺序关系,另一方面降低了向量空间的维数,减少了计算量,提高了训练速度。基于DNN和MOS构建了蛋白质相互作用预测模型DNN-MOS,实验结果表明DNN-MOS的预测性能优于大部分现有预测方法,给蛋白质相互作用预测的研究提供了一个新的解决思路。本文针对现有编码方法存在的问题,提出了两种新的编码方法,基于深度学习和传统机器学习结合多种编码方法构建了多个蛋白质相互作用预测模型,并采用dropout对模型进行了优化,为蛋白质相互作用预测提供了技术支持。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  •   1.1 选题的背景和意义
  •   1.2 国内外研究现状
  •     1.2.1 实验检测方法
  •     1.2.2 计算预测方法
  •     1.2.3 存在的问题
  •   1.3 研究内容与创新点
  •     1.3.1 主要研究内容
  •     1.3.2 技术路线
  •     1.3.3 主要创新点
  •   1.4 论文结构安排
  • 第2章 蛋白质相互作用预测相关技术
  •   2.1 蛋白质相互作用的分子生物学基础
  •     2.1.1 蛋白质相互作用类型
  •     2.1.2 蛋白质相互作用原理
  •   2.2 蛋白质相互作用的计算预测方法
  •     2.2.1 基于基因组信息的方法
  •     2.2.2 基于进化信息的方法
  •     2.2.3 基于蛋白质结构信息的方法
  •     2.2.4 基于氨基酸序列的方法
  •   2.3 机器学习算法
  •     2.3.1 深度神经网络
  •     2.3.2 支持向量机
  •     2.3.3 K近邻
  •     2.3.4 随机森林
  •     2.3.5 决策树
  •     2.3.6 自适应提升算法
  •   2.4 本章小结
  • 第3章 基于深度神经网络联合多种编码方法的蛋白质相互作用预测模型
  •   3.1 引言
  •   3.2 数据集
  •     3.2.1 Benchmark数据集
  •     3.2.2 外部数据集
  •   3.3 评价指标
  •   3.4 蛋白质编码方法
  •     3.4.1 联合三元组
  •     3.4.2 自协方差
  •     3.4.3 局部描述符
  •   3.5 分类器
  •     3.5.1 深度神经网络
  •     3.5.2 深度神经网络优化技术
  •   3.6 实验设计
  •   3.7 实验结果
  •     3.7.1 超参数的选择
  •     3.7.2 在Benchmark数据集上的预测性能
  •     3.7.3 在外部数据集预测性能
  •     3.7.4 和现有方法的比较
  •     3.7.5 讨论
  •   3.8 本章小结
  • 第4章 基于联合三元组自协方差的蛋白质编码方法
  •   4.1 引言
  •   4.2 数据集
  •   4.3 评价指标
  •   4.4 CTAC蛋白质编码方法
  •   4.5 分类器
  •   4.6 实验设计
  •   4.7 实验结果
  •     4.7.1 超参数的调整
  •     4.7.2 CTAC的预测性能
  •     4.7.3 CTAC在不同分类器上的预测性能
  •     4.7.4 CTAC在外部数据集预测性能
  •     4.7.5 CTAC在水稻数据集预测性能
  •     4.7.6 和现有方法的比较
  •   4.8 本章小结
  • 第5章 基于序列矩阵的蛋白质编码方法
  •   5.1 引言
  •   5.2 数据集
  •     5.2.1 Benchmark数据集
  •     5.2.2 非冗余数据集
  •   5.3 评价指标
  •   5.4 序列矩阵蛋白质编码方法
  •   5.5 分类器
  •   5.6 实验设计
  •   5.7 实验结果
  •     5.7.1 超参数的选择
  •     5.7.2 MOS在Benchmark数据集上的预测性能
  •     5.7.3 MOS在非冗余数据集上的预测性能
  •     5.7.4 MOS在不同分类器上的预测性能
  •     5.7.5 和现有方法的比较
  •   5.8 本章小结
  • 第6章 总结与展望
  •   6.1 总结
  •   6.2 展望
  • 参考文献
  • 致谢
  • 在读期间发表的学术论文与取得的其他研究成果
  • 文章来源

    类型: 博士论文

    作者: 王雪

    导师: 吴跃进,宋良图

    关键词: 蛋白质相互作用,氨基酸序列,深度神经网络,联合三元组自协方差,序列矩阵

    来源: 中国科学技术大学

    年度: 2019

    分类: 基础科学

    专业: 生物学

    单位: 中国科学技术大学

    分类号: Q51

    DOI: 10.27517/d.cnki.gzkju.2019.000034

    总页数: 127

    文件大小: 7398K

    下载量: 332

    相关论文文献

    • [1].皂苷-蛋白质相互作用的研究进展[J]. 中国食品学报 2020(04)
    • [2].蛋白质相互作用数据库[J]. 中国生物化学与分子生物学报 2017(08)
    • [3].基于多特征融合预测蛋白质相互作用界面[J]. 中南民族大学学报(自然科学版) 2017(03)
    • [4].基于蛋白质相互作用网络分析右归丸治疗肾阳虚证的疗效机制[J]. 中国中医药信息杂志 2016(02)
    • [5].基于蛋白质相互作用“热点”区域的小分子药物设计研究进展[J]. 生物物理学报 2015(02)
    • [6].蛋白质相互作用的研究方法及进展分析[J]. 文理导航(中旬) 2018(01)
    • [7].大规模蛋白质相互作用组实验技术及其应用[J]. 生命的化学 2013(05)
    • [8].茶多酚-蛋白质相互作用的研究进展[J]. 食品工业科技 2019(08)
    • [9].蛋白质相互作用时序网络模型及动态性质分析[J]. 湖南理工学院学报(自然科学版) 2018(01)
    • [10].水稻组织特异性蛋白质相互作用网络构建方法[J]. 哈尔滨工业大学学报 2018(11)
    • [11].基于空间映射的蛋白质相互作用网络链接预测算法[J]. 计算机科学 2016(S1)
    • [12].动态加权蛋白质相互作用网络构建及其应用研究[J]. 自动化学报 2015(11)
    • [13].双分子荧光互补在蛋白质相互作用中的应用[J]. 湖北医药学院学报 2014(02)
    • [14].蛋白质相互作用网络演化模型研究进展[J]. 计算机应用 2013(03)
    • [15].通过液质联用鉴定蛋白质相互作用方法的建立[J]. 首都医科大学学报 2013(03)
    • [16].基于组合特征集成的蛋白质相互作用位点预测[J]. 济南大学学报(自然科学版) 2012(01)
    • [17].蛋白质相互作用网络分析的图聚类方法研究进展[J]. 计算机工程与科学 2012(01)
    • [18].荧光共振能量转移动态检测蛋白质相互作用的研究进展[J]. 济宁医学院学报 2012(01)
    • [19].糖-蛋白质相互作用在酶固定及蛋白质识别与分离中的应用[J]. 中国生物工程杂志 2012(04)
    • [20].蛋白质相互作用网络研究的引文分析[J]. 中华医学图书情报杂志 2012(04)
    • [21].蛋白质相互作用预测方法研究进展[J]. 计算机光盘软件与应用 2012(18)
    • [22].蛋白质相互作用研究进展[J]. 生物学通报 2012(11)
    • [23].基于图聚类的蛋白质相互作用网络功能模块探测[J]. 食品与生物技术学报 2011(01)
    • [24].随机抽样对蛋白质相互作用网络度分布的影响[J]. 生物信息学 2011(03)
    • [25].蛋白质相互作用网络的相似子网搜索问题研究[J]. 计算机工程与应用 2010(03)
    • [26].一类蛋白质相互作用网络比对的线性规划算法[J]. 生物物理学报 2010(01)
    • [27].基于多窗口不同特征的蛋白质相互作用位点预测[J]. 安徽大学学报(自然科学版) 2010(05)
    • [28].数据来源对蛋白质相互作用网络度分布的影响[J]. 生物数学学报 2010(04)
    • [29].蛋白质相互作用网络进化分析研究进展[J]. 生物化学与生物物理进展 2009(01)
    • [30].蛋白质相互作用网络的几种聚类方法综述[J]. 国防科技大学学报 2009(04)

    标签:;  ;  ;  ;  ;  

    蛋白质编码及蛋白质相互作用预测模型的研究
    下载Doc文档

    猜你喜欢