新型生物酶的挖掘算法研究

新型生物酶的挖掘算法研究

论文摘要

卤醇脱卤酶是一类重要的蛋白质,它不仅能通过开环反应催化有毒污染物的降解,还能作为亲核试剂促进高价值药物中间体的生成。卤醇脱卤酶在自然界中的分布极为稀少,目前仅在少数菌株中发现过卤醇脱卤酶酶活性的表达。已有的生成卤醇脱卤酶的生物实验虽然可行,但存在成本高昂且效率过低的问题。因此,根据已测定的卤醇脱卤酶序列高效挖掘更多的新卤醇脱卤酶序列,丰富已有的卤醇脱卤酶数据集的需求显得尤为迫切。另一方面,深度生成模型在图像处理、语音识别和文本生成领域都取得了令人惊喜的成果,但在生物序列方面的应用仍然存在较大的空白。综合考虑以上两个因素,本文提出了一种新的研究思路——将深度生成模型应用于新型卤醇脱卤酶序列挖掘研究之中。为实现新卤醇脱卤酶序列的挖掘,本文首先根据已有相关的序列知识构建卤醇脱卤酶数据集,然后识别卤醇脱卤酶序列中的模体,再使用深度生成模型生成新卤醇脱卤酶序列,最后建立分类模型对生成的序列进行挖掘预测。本文主要内容及创新点如下:1)提出了将模体的判别能力考虑在内的模体识别算法。使用已有的MEME算法识别卤醇脱卤酶正样本包含的模体后,计算模体的判别式评分特征(MSC、MOR和MRE),并据此筛选过滤在卤醇脱卤酶正负样本中分布差异过小的模体。2)将深度生成模型应用于卤醇脱卤酶序列生成任务。本文首先使用LSTM网络生成卤醇脱卤酶序列,因为LSTM生成的卤醇脱卤酶序列的多样性差、序列长度过短,因此改用在文本生成领域取得了显著成就的SeqGAN模型进行序列生成,并在传统的SeqGAN模型中加入一个反馈回路以指导判别器的训练。SeqGAN模型生成的序列在序列多样性方面较LSTM有一定的改进,但其序列长度仍存在着均值过低、标准差过大的问题;为解决这一问题,本文使用在长文本生成领域有出色表现的LeakGAN模型作为序列生成模型,在传统模型的基础上为其加入了一个反馈回路以提高生成的序列的质量,实验结果表明改进后的LeakGAN模型能够高效生成具有生物学意义的卤醇脱卤酶序列。3)提出了一个可对生成的卤醇脱卤酶序列实行高效分类的判别模型。首先建立g-gap特征树确定需要提取的特征,再将从序列信息中提取出来的特征进行选择及离散化,最后使用多项式朴素贝叶斯模型对带反馈回路的LeakGAN模型生成的卤醇脱卤酶序列进行功能预测。

论文目录

  • 摘要
  • abstract
  • 第一章 绪论
  •   1.1 研究背景与意义
  •   1.2 国内外研究现状
  •     1.2.1 卤醇脱卤酶研究现状
  •     1.2.2 生物序列信息研究现状
  •     1.2.3 合成生物学研究现状
  •     1.2.4 生成模型研究现状
  •   1.3 本文主要工作与创新
  •   1.4 本文的结构安排
  •   1.5 本章小结
  • 第二章 相关理论概述
  •   2.1 蛋白质基础知识简介
  •     2.1.1 蛋白质基本组成
  •     2.1.2 氨基酸理化性质
  •   2.2 基准数据集构建
  •   2.3 蛋白质序列模体识别
  •     2.3.1 模体表示方法
  •       2.3.1.1 一致序列模型表示法
  •       2.3.1.2 位置权重矩阵模型表示法
  •       2.3.1.3 可视化logo表示法
  •     2.3.2 模体识别算法
  •       2.3.2.1 CONSENSUS算法
  •       2.3.2.2 MEME算法
  •       2.3.2.3 AlignACE算法
  •   2.4 卷积神经网络
  •   2.5 循环神经网络
  •   2.6 生成式对抗网络
  •     2.6.1 理论及模型结构
  •     2.6.2 GAN在序列生成中的应用
  •   2.7 强化学习
  •     2.7.1 原理
  •     2.7.2 蒙特卡洛搜索
  •     2.7.3 策略梯度法
  •   2.8 蛋白质序列生成
  •   2.9 蛋白质功能预测
  •   2.10 本章小结
  • 第三章 蛋白质模体识别
  •   3.1 问题描述及符号定义
  •   3.2 模体识别算法设计
  •     3.2.1 MEME算法识别模体
  •     3.2.2 判别式评分计算
  •   3.3 实验结果及分析
  •     3.3.1 MEME模体查找结果
  •     3.3.2 判别式特征计算结果
  •   3.4 本章小结
  • 第四章 蛋白质序列生成
  •   4.1 问题描述
  •   4.2 基于LSTM的蛋白质序列生成
  •   4.3 基于SeqGAN的蛋白质序列生成
  •     4.3.1 SeqGAN基本原理
  •     4.3.2 模型设计
  •   4.4 基于LeakGAN的蛋白质序列生成
  •     4.4.1 LeakGAN基本原理
  •     4.4.2 模型设计
  •       4.4.2.1 生成器设计
  •       4.4.2.2 判别器设计
  •   4.5 实验结果与分析
  •     4.5.1 新酶质量评估
  •     4.5.2 基于LSTM的序列生成结果
  •     4.5.3 基于SeqGAN的序列生成结果
  •     4.5.4 基于LeakGAN的序列生成结果
  •   4.6 本章小结
  • 第五章 卤醇脱卤酶序列挖掘
  •   5.1 问题描述
  •   5.2 算法设计与实现
  •     5.2.1 g-gap特征树
  •     5.2.2 特征提取与选择
  •       5.2.2.1 特征提取
  •       5.2.2.2 特征选择
  •       5.2.2.3 特征离散化
  •     5.2.3 分类模型
  •   5.3 实验结果及分析
  •     5.3.1 模型评价指标
  •     5.3.2 特征分析
  •     5.3.3 模型分析
  •   5.4 卤醇脱卤酶挖掘
  •   5.5 本章小结
  • 第六章 全文总结与展望
  •   6.1 概述总结
  •   6.2 未来工作展望
  • 致谢
  • 参考文献
  • 攻读硕士学位期间取得的成果
  • 文章来源

    类型: 硕士论文

    作者: 潘彦园

    导师: 高辉

    关键词: 卤醇脱卤酶,模体识别,序列生成,序列预测

    来源: 电子科技大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,计算机软件及计算机应用

    单位: 电子科技大学

    分类号: Q55;TP311.13

    总页数: 84

    文件大小: 4536K

    下载量: 40

    相关论文文献

    • [1].英汉多义词模体的计量特征[J]. 湖南科技大学学报(社会科学版) 2020(01)
    • [2].位置重复性对射波刀模体绝对剂量验证的影响[J]. 中国医学物理学杂志 2020(09)
    • [3].线性短模体:介导蛋白质相互作用的新模块[J]. 生物化学与生物物理进展 2017(02)
    • [4].机械结构网络模体探究[J]. 轻工机械 2015(02)
    • [5].基于笔形束散射核的非均匀模体透射平面散射线分析[J]. 中国医学物理学杂志 2020(01)
    • [6].基于多模体特征的科学家合作预测[J]. 电子科技大学学报 2020(05)
    • [7].基于网络模体特征攻击的网络抗毁性研究[J]. 复杂系统与复杂性科学 2017(04)
    • [8].生物网络模体发现算法研究综述[J]. 电子学报 2009(10)
    • [9].基于组合的序列特征识别蛋白质复杂超二级结构βαβ模体[J]. 内蒙古工业大学学报(自然科学版) 2015(03)
    • [10].结合最大团求精的随机投影模体发现算法[J]. 中国科技论文 2013(04)
    • [11].蛋白质中五类超二级结构模体的统计分析[J]. 安徽农业科学 2012(26)
    • [12].一种长度可调水模体的研制[J]. 医疗卫生装备 2011(03)
    • [13].蛋白质作用网络中模体识别技术研究[J]. 计算机技术与发展 2010(08)
    • [14].基于显露子串挖掘的基因序列模体识别算法[J]. 现代电子技术 2017(12)
    • [15].基于优化特征参量的蛋白质βαβ模体识别分析[J]. 江苏农业科学 2015(02)
    • [16].3D虚拟模体设计软件的开发[J]. 生物医学工程学杂志 2014(01)
    • [17].富脯氨酸模体研究进展[J]. 生命科学研究 2008(04)
    • [18].γ辐照加工用新型工作模体设计研究[J]. 原子能科学技术 2020(11)
    • [19].一种新型SPECT性能检测模体的研制[J]. 中国医学装备 2014(05)
    • [20].非树型网络模体发现算法[J]. 电子学报 2009(11)
    • [21].镶块模模体脆性断裂原因分析与预防[J]. 金属加工(热加工) 2013(13)
    • [22].基于统计特征的酶蛋白质中特殊模体βαβ的预测[J]. 生物物理学报 2013(09)
    • [23].基于位置相互关系的模体识别算法[J]. 电子科技 2010(01)
    • [24].有向动态网络中基于模体演化的链路预测方法[J]. 计算机应用研究 2019(05)
    • [25].离散时间序列的网络模体分析[J]. 物理学报 2010(03)
    • [26].蛋白质βαβ模体序列的统计分析及其识别[J]. 昆明理工大学学报(理工版) 2010(05)
    • [27].简易型模拟剂量验证模体的设计及应用[J]. 医疗装备 2009(02)
    • [28].用二次判别方法识别蛋白质β-发夹模体[J]. 生物物理学报 2009(04)
    • [29].锻锤用圆模体使用寿命的影响因素及提高方法[J]. 模具工业 2013(06)
    • [30].基于模体压缩的生物学模型简化研究[J]. 荆楚理工学院学报 2016(06)

    标签:;  ;  ;  ;  

    新型生物酶的挖掘算法研究
    下载Doc文档

    猜你喜欢