基于深度学习的诱饵序列库构建方法研究

基于深度学习的诱饵序列库构建方法研究

论文摘要

基于串联质谱和数据库搜索算法是目前高通量鉴定蛋白质的主流方法,但其存在的主要问题是,直接搜索蛋白质组理论序列库的可信度不高;另一方面,基于目标-诱饵序列库搜索策略的质量控制方法能够估计鉴定结果中的假阳性率,可以有效弥补理论库搜索算法的局限性。而在后一种方法中,诱饵序列库的质量成为了蛋白质鉴定结果可信度高低的关键性因素。同时,人类蛋白质组计划不断发展,积累了海量的蛋白质氨基酸残基序列,为我们使用深度学习等数据驱动的方法来构建高质量的诱饵序列库提供了可能性。在上述背景下,本文引入深度学习中的序列建模方法到诱饵序列库构建流程中,以期提高蛋白质序列鉴定效果。本文通过分析UniProt数据库中7个物种的蛋白质序列各个属性以及不同方法构建诱饵序列库的特性,最终构建比较完备的训练集。本文采用深度学习中的编码-解码策略,处理这类序列到序列的生成问题。神经网络输入的蛋白质氨基酸残基序列使用Word2Vec方法进行向量化嵌入(embedding);神经网络编码部分采用2层Bi-LSTM,为了提高2层Bi-LSTM效果,我们使用融入了加法器的2层Bi-LSTM。解码部分则采用LSTM网络;在编码-解码框架之间,由于目标序列库与诱饵序列库等长的特性,引入局部注意力机制,实验结果显示可以节约时间。为验证本文所提出方法的有效性,通过该模型构建人和小鼠的蛋白质序列诱饵库,在公开发表质谱数据集进行相同的数据库搜索鉴定和质控,最后与同样用于诱饵库构建的反转法和随机法在不同层次进行鉴定结果对比。实验结果表明,基于本文方法构建的诱饵序列库,能满足理想诱饵序列库的各项特征要求,并且通过在不同大小实验数据集上测试,结果显示,该生成库在谱图、肽段、蛋白三个层面上具有较好的灵敏性,因而更优于传统方法。高通量蛋白质测序技术的不断发展以及海量质谱数据的积累,既对我们的数据处理方法提出了新挑战,也为我们引入深度学习等数据驱动的方法提供了机遇。我们相信,随着本文方法的改进,我们一定能够有效应对挑战。

论文目录

  • 摘要
  • abstract
  • 注释表
  • 第1章 绪论
  •   1.1 研究背景与意义
  •   1.2 研究现状
  •     1.2.1 构建诱饵序列库方法
  •     1.2.2 深度学习生成模型
  •   1.3 论文主要工作
  •   1.4 论文组织安排
  • 第2章 基于目标-诱饵序列库搜索策略
  •   2.1 引言
  •   2.2 基于目标-诱饵序列库搜索策略的质量控制方法
  •     2.2.1 蛋白质序列库
  •     2.2.2 数据库搜索引擎搜库鉴定
  •     2.2.3 鉴定结果的质量控制
  •   2.3 目标-诱饵序列库搜索策略
  •   2.4 本章小结
  • 第3章 深度学习相关理论基础
  •   3.1 引言
  •   3.2 长短期记忆神经网络
  •   3.3 损失函数和代价函数
  •   3.4 深度学习中的注意力机制思想
  •   3.5 词向量与Word2Vec模型
  •   3.6 本章小结
  • 第4章 基于深度学习生成模型构建诱饵序列库
  •   4.1 引言
  •   4.2 蛋白质氨基酸残基序列编码
  •     4.2.1 实验数据集预处理
  •     4.2.2 蛋白质序列向量化
  •   4.3 诱饵序列库生成模型框架
  •     4.3.1 编码阶段
  •     4.3.2 解码阶段
  •   4.4 计算机实验环境
  •   4.5 实验及结果分析
  •   4.6 本章小结
  • 第5章 不同诱饵序列库构建方法的评估
  •   5.1 引言
  •   5.2 数据和方法
  •     5.2.1 实验数据集
  •     5.2.3 基于序列数据库搜索鉴定
  •   5.3 评价指标
  •   5.4 结果与讨论
  •     5.4.1 诱饵序列库与目标序列库组成特性比较
  •     5.4.2 不同大小数据集评估谱图、肽段和蛋白水平质控灵敏性
  •     5.4.3 其它物种质谱数据集评估质控灵敏性
  •   5.5 本章小结
  • 第6章 总结与展望
  •   6.1 工作总结
  •   6.2 工作展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间从事的科研工作及取得的成果
  • 文章来源

    类型: 硕士论文

    作者: 曾祥利

    导师: 舒坤贤,朱云平

    关键词: 蛋白质鉴定,目标诱饵序列库,深度学习,双向长短期记忆神经网,注意力机制

    来源: 重庆邮电大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 重庆邮电大学

    分类号: Q811.4;TP18

    DOI: 10.27675/d.cnki.gcydx.2019.000917

    总页数: 64

    文件大小: 4903K

    下载量: 32

    相关论文文献

    • [1].“蛋白质鉴定实验”后的再探究[J]. 生物技术世界 2014(10)
    • [2].糖类脂肪蛋白质鉴定实验考点剖析[J]. 学苑教育 2016(21)
    • [3].CUDA-TP:基于GPU的自顶向下完整蛋白质鉴定并行算法[J]. 计算机研究与发展 2018(07)
    • [4].一种基于信息论的蛋白质数据库搜索鉴定算法[J]. 东北大学学报(自然科学版) 2009(01)
    • [5].小蛋白质鉴定研究进展[J]. 中国科学:生命科学 2018(03)
    • [6].肽段反相色谱保留时间预测算法及其在蛋白质鉴定中的应用[J]. 色谱 2010(06)
    • [7].蛋白质组分析技术研究进展[J]. 动物医学进展 2008(01)
    • [8].基于谱图库的蛋白质鉴定策略研究进展[J]. 生物工程学报 2018(04)
    • [9].鸟枪法蛋白质鉴定质量控制方法研究进展[J]. 生物化学与生物物理进展 2009(06)
    • [10].应用于Bottom-up蛋白质鉴定的质谱数据采集策略研究进展[J]. 分析化学 2013(07)
    • [11].基于亲和探针的药物靶点鉴定技术研究进展[J]. 药学进展 2017(01)
    • [12].胃腺癌组织分化相关蛋白质的鉴定筛选[J]. 中国卫生标准管理 2015(04)
    • [13].蛋白质组学研究的相关技术进展[J]. 生物学教学 2010(03)
    • [14].基于试剂技术对蛋白质鉴定方法的研究进展[J]. 吉林师范大学学报(自然科学版) 2017(03)
    • [15].差异蛋白质组学的分离鉴定技术[J]. 科技信息(学术研究) 2008(34)
    • [16].液质联用技术中不同蛋白质鉴定策略的比较[J]. 质谱学报 2008(04)
    • [17].蛋白质组串联谱图De novo测序软件的比较与评估[J]. 基因组学与应用生物学 2020(08)
    • [18].生物组织中糖类、脂肪、蛋白质鉴定实验的改进[J]. 中学教学参考 2013(29)
    • [19].规模化蛋白质鉴定中母离子的准确检测技术研究[J]. 生物化学与生物物理进展 2013(01)
    • [20].串联质谱谱库搜索鉴定技术综述[J]. 计算机工程 2012(07)

    标签:;  ;  ;  ;  ;  

    基于深度学习的诱饵序列库构建方法研究
    下载Doc文档

    猜你喜欢