蛋白质序列的深度建模及其应用

蛋白质序列的深度建模及其应用

论文摘要

蛋白质的生物功能由蛋白质的三维结构决定,而三维结构是由蛋白质序列决定的。在三维结构未知的情况下,分析预测蛋白质分子结构,可帮助人们快速认识蛋白质功能、研究生物病理原因、减少生物实验量等。深度学习方法已在多个领域成功应用,本课题用深度学习方法,从蛋白质一级序列出发,建立深度学习模型,对蛋白质结构相关的典型属性:溶剂可及性、二级结构、骨架二面角和相互作用位点开展预测研究。本文主要工作如下:1.蛋白质溶剂可及性预测。提出一个两阶段的单模型策略:先训练回归模型,预测相对可及表面积;再根据指定阈值,对预测结果再进行分类划分。在双向递归神经网络节点信息融合时,提出了双向节点的融合算子,提升了信息融合能力。实验表明使用三个不同融合算子的SDBRNN模型提高了溶剂可及性预测性能。2.蛋白质二级结构识别。结合递归神经网络长范围特征提取优势和卷积神经网络局部特征提取特点,面向多分类问题,设计深度学习模型CRRNN,捕获序列隐含的局部特性和长程特性。为了解决残差网络跨层合并输入带来模型参数激增的问题,用一维一卷积步的卷积神经网络转换降维。本文中还训练了 10个独立训练的单模型,组合成多模型集成学习。3.蛋白质相互作用位点预测。蛋白质链上作用位点残基稀少,针对该不平衡分类问题,本文提出了三个改进策略来调整不平衡性:面向蛋白质链整体选择的策略来调整训练集;结合代价敏感性学习在分类函数中增加惩罚因子;联合溶剂可及性预测进行共同学习。对LSTM模型进行简化,提出轻量级的SLSTM网络作为双向递归网络计算节点,改善训练样本偏少问题。DLPred模型在平衡性指标F-measure提升的同时,提升了预测准确率。4.蛋白质溶剂可及性、二级结构、骨架二面角的多任务联合学习。基于上述研究基础,提出了一个双通道策略的深度学习模型CRRNN2,多任务联合学习,同时预测溶剂可及性、二级结构、骨架二面角等多个结构属性。用简化的GRU网络,作为双向递归神经网络的网络节点,用DenseNet结构搭建三层的双向递归神经网络通道,用改进的Google Inception搭建卷积神经网络通道。本文的主要贡献在于面向蛋白质序列建立深度学习模型,针对结构属性预测需要,面向计算问题,建立了回归模型、分类模型、不平衡数据下的深度学习模型、多任务学习模型等。在建模过程中,提出了面向双向递归神经网络的融合算子,融合算子成功应用在本文多个深度学习模型中;基于模型泛化能力和参数规模的考量,设计出改进的SLSTM网络和GRU2网络,并改进了残差网络的连接方式;验证了集成学习在深度学习中的有效性。这些方法的研究和所取得的成果有助于深度学习在蛋白质结构方面进一步研究,对今后基于深度学习的生物信息学问题的建模同样具有重要的参考价值。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 研究背景
  •   1.2 蛋白质结构属性
  •     1.2.1 蛋白质
  •     1.2.2 蛋白质结构
  •     1.2.3 蛋白质骨架二面角
  •     1.2.4 残基溶剂可及性
  •     1.2.5 相互作用位点
  •   1.3 研究现状分析
  •     1.3.1 计算问题描述和输入输出
  •     1.3.2 残基溶剂可及性研究现状
  •     1.3.3 蛋白质二级结构预测研究现状
  •     1.3.4 蛋白质相互作用位点预测研究现状
  •     1.3.5 蛋白质多结构属性预测研究现状
  •     1.3.6 深度学习在蛋白质组学中的应用
  •   1.4 研究内容
  •   1.5 本文结构
  • 第二章 基于蛋白质序列的溶剂可及性预测
  •   2.1 引言
  •   2.2 SDBRNN模型结构
  •     2.2.1 融合算子
  •     2.2.2 模型设计
  •     2.2.3 超参数设置
  •   2.3 实验数据
  •     2.3.1 实验数据集构建
  •     2.3.2 输入特征属性和输出标签
  •   2.4 实验结果与分析
  •     2.4.1 评价标准
  •     2.4.2 不同输入特征对模型性能分析
  •     2.4.3 不同融合算子对结果的影响
  •     2.4.4 rASA预测结果对比
  •     2.4.5 二分类预测结果对比
  •   2.5 本章小结
  • 第三章 基于蛋白质序列的二级结构预测
  •   3.1 引言
  •   3.2 CRRNN模型结构
  •     3.2.1 局部块
  •     3.2.2 BRNN模块
  •   3.3 实验数据
  •     3.3.1 实验数据集构建
  •     3.3.2 输入输出
  •   3.4 实验结果与分析
  •     3.4.1 评价指标
  •     3.4.2 训练数据集对泛化性能的影响
  •     3.4.3 模型结构分析
  •     3.4.4 八状态预测结果
  •     3.4.5 三状态预测结果
  •     3.4.6 集成学习
  •     3.4.7 个案分析
  •   3.5 本章小结
  • 第四章 基于蛋白质序列的相互作用位点预测
  •   4.1 引言
  •   4.2 轻量级LSTM网络
  •     4.2.1 长短期记忆网络
  •     4.2.2 LSTM改进模型
  •     4.2.3 SLSTM
  •   4.3 DLPred模型结构
  •     4.3.1 DLPred模型
  •     4.3.2 算法层面的不平衡分类处理策略
  •   4.4 实验数据
  •     4.4.1 面向训练集的不平衡处理
  •     4.4.2 测试集
  •     4.4.3 输入属性和输出标签
  •   4.5 实验结果与分析
  •     4.5.1 模型结构分析
  •     4.5.2 不平衡分类处理策略对泛化性能的影响
  •     4.5.3 独立测试集上性能对比
  •     4.5.4 集成学习模型性能
  •     4.5.5 在线服务
  •   4.6 本章小结
  • 第五章 基于蛋白质序列的多结构属性联合学习
  •   5.1 引言
  •   5.2 双通道深度模型的多任务学习
  •   5.3 实验数据
  •     5.3.1 实验数据集构建
  •     5.3.2 输入和输出
  •   5.4 实验结果与分析
  •     5.4.1 不同RNN结构性能分析
  •     5.4.2 不同属性特征对性能的影响
  •     5.4.3 不同损失函数对RSA预测影响
  •     5.4.4 和现有方法对比
  •   5.5 本章小结
  • 第六章 总结与展望
  •   6.1 工作总结
  •   6.2 研究展望
  • 参考文献
  • 发表文章目录及科研项目
  • 致谢
  • 文章来源

    类型: 博士论文

    作者: 张步忠

    导师: 吕强

    关键词: 深度学习,溶剂可及性,二级结构,骨架二面角,不平衡分类,多任务学习,递归神经网络

    来源: 苏州大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 苏州大学

    分类号: TP18;Q51

    DOI: 10.27351/d.cnki.gszhu.2019.000525

    总页数: 111

    文件大小: 6380K

    下载量: 116

    相关论文文献

    • [1].基于小波分析的蛋白质序列分形研究[J]. 科技信息 2009(33)
    • [2].基于数据挖掘的蛋白质序列分析研究[J]. 信息技术与信息化 2017(06)
    • [3].利用蛋白质序列模式识别改善谷氨酸棒杆菌基因组注释[J]. 工业微生物 2014(03)
    • [4].一种新的蛋白质序列二维图形表示方法及应用[J]. 绥化学院学报 2013(11)
    • [5].蛋白质序列基于k-字的数值刻画及应用[J]. 浙江农业学报 2014(06)
    • [6].粒计算理论下的进化树建模与应用探讨[J]. 白城师范学院学报 2019(10)
    • [7].蛋白质序列的矩阵图谱表达[J]. 生命科学研究 2011(02)
    • [8].对称蛋白质序列与结构关系研究[J]. 生命科学 2010(11)
    • [9].蛋白质序列的一类新的图形表示[J]. 黑龙江生态工程职业学院学报 2008(06)
    • [10].甲型流感病毒蛋白质序列的长记忆模型[J]. 江南大学学报(自然科学版) 2012(06)
    • [11].蛋白质序列的特征周期研究[J]. 生物物理学报 2008(02)
    • [12].基于功率谱的蛋白质序列特征提取新方法[J]. 食品与生物技术学报 2018(11)
    • [13].AI背景下蛋白质序列音乐研究[J]. 艺术教育 2019(06)
    • [14].基于矩阵图谱表达法的蛋白质序列的相似性分析[J]. 计算机工程与应用 2011(07)
    • [15].DNA和蛋白质序列数据分析工具(第三版)[J]. 新疆农业科学 2012(07)
    • [16].甲型流感病毒HA蛋白质序列的预测[J]. 食品与生物技术学报 2013(08)
    • [17].P53基因蛋白质序列的相似性及其聚类分析[J]. 计算机与应用化学 2013(09)
    • [18].蛋白质序列在频率域上的一种特征提取方法[J]. 南京工业大学学报(自然科学版) 2013(06)
    • [19].基于加权决策树的蛋白质序列分类算法研究[J]. 计算机与数字工程 2012(05)
    • [20].蛋白质序列的图形表示及相似性分析[J]. 浙江农业学报 2010(05)
    • [21].一种新的蛋白质结构类预测方法[J]. 生物信息学 2012(04)
    • [22].荣昌猪SLA-DQB基因β1结构域突变分析及蛋白质序列模式预测[J]. 畜牧兽医学报 2012(08)
    • [23].基于TIGA_S4VM改进算法的蛋白质序列识别方法[J]. 山东大学学报(工学版) 2014(01)
    • [24].不同特征描述下H1N1病毒血凝素蛋白序列的比较分析[J]. 生命科学研究 2016(02)
    • [25].基于一种新的伪氨酸组成预测蛋白质折叠速率[J]. 大连交通大学学报 2015(03)
    • [26].基于极限学习机的蛋白质相互作用预测[J]. 枣庄学院学报 2017(05)
    • [27].一种基于最优局部信息融合的蛋白质亚细胞定位预测方法[J]. 中山大学学报(自然科学版) 2008(06)
    • [28].一种新的蛋白质序列的向量表示方法及其应用[J]. 基因组学与应用生物学 2020(03)
    • [29].科学出版社新书[J]. 中国生物工程杂志 2012(07)
    • [30].残基相关性及其在系统发育分析中的应用[J]. 黑龙江生态工程职业学院学报 2011(01)

    标签:;  ;  ;  ;  ;  ;  ;  

    蛋白质序列的深度建模及其应用
    下载Doc文档

    猜你喜欢