真核生物基因组序列对中DNA模体对的识别

真核生物基因组序列对中DNA模体对的识别

论文摘要

生物信息学是一门融合生物学、应用数学、计算机科学以及信息学等学科的新兴交又学科。在最近十几年里,伴随着测序技术的发展以及人类基因组计划的实施,产生了大量的生物基因组序列和蛋白质序列数据,为我们进一步地认识和研究生物信息学提供了大量的数据支持,我们在分析这些海量数据的同时,也面临着众多挑战。其中,生物信息学领域的一个核心难题是调控模体预测问题。本文主要的研究问题是如何结合图论中二部图模型来分析和预测真核生物中的调控模体对。基因表达指的是基因指导下的蛋白质合成过程,其中关键的一步是基因的转录,同时也是调控基因表达的关键阶段。在高等真核生物基因表达调控中,顺势作用元件如增强子、启动子等之间的协同作用对相关基因的时空表达具有重要的调控作用。准确地认识和预测染色质的长程相互作用区域上调控模体之间的相互作用,将有助于我们进一步研究转录因子的性质,最终可以将其运用在疾病研究和制药等方面。在本篇论文中,首先我们介绍了染色质的长程相互作用区域上调控模体对预测问题的研究背景及意义,然后简要的介绍了现有的调控模体预测算法,接着详细阐述了Ka-Chun Wong等人提出的两种基于概率模型的在染色质长程相互作用区域上调控模体对识别算法:从头测序模体对识别算法和MotifHyades算法。对CHIP-seq数据的研究和Hi-C技术的应用,更多的证据表明基因的共表达、蛋白质-DNA相互作用与染色质的长程相互作用区域上DNA模体对有关,同时GEO、ENCODE等数据库为我们提供了大量的染色质的长程相互作用区域上的DNA序列对数据,结合这些数据我们设计了一种将二部图思想和调控模体对预测问题相结合的算法。该算法主要包含调控模体对二部图的构建和稠密子图的查找两个过程。我们提供了在Windows平台上运行的程序,然后通过结合K562细胞系基因组序列对数据,预测出染色质的长程相互作用区域上的模体对。通过程序运行结果的分析和比较,我们发现该算法能够较快的预测染色质的长程相互作用区域上的模体对,且具有一定的准确度。该算法的创新点在于用高阶马尔可夫模型表现碱基之间的依赖关系,巧妙地创建了l-mer之间二部图,并运用改进的DBSCAN聚类算法完成了DNA序列对数据中模体对预测问题,从而构建了有效的模体对预测模型。

论文目录

  • 中文摘要
  • abstract
  • 第一章 绪论
  •   §1.1 生物信息学简介
  •   §1.2 研究背景及意义
  •   §1.3 基因的表达和转录调控机制
  •   §1.4 调控模体的表示方法
  •   §1.5 论文的内容和创新点
  • 第二章 调控模体对预测算法简介
  •   §2.1 模体预测问题
  •   §2.2 模体预测的方法
  •   §2.3 基于共调控基因的调控序列的算法
  •   §2.4 基于概率模型的两种模体对预测算法
  •   §2.5 本章小结
  • 第三章 一种新的真核生物DNA序列对上的模体对预测算法
  •   §3.1 数据的收集和预处理
  •   §3.2 算法设计
  •   §3.3 结果分析和对比
  •   §3.4 本章小结
  • 第四章 总结与展望
  •   §4.1 总结
  •   §4.2 展望
  • 参考文献
  • 致谢
  • 学位论文评阅及答辩情况表
  • 文章来源

    类型: 硕士论文

    作者: 邢飞

    导师: 李国君

    关键词: 生物信息学,转录因子结合位点,染色质相互作用,模体预测,模体对,启动子,增强子,高阶马尔可夫模型,聚类算法

    来源: 山东大学

    年度: 2019

    分类: 基础科学

    专业: 生物学

    单位: 山东大学

    分类号: Q811.4

    总页数: 51

    文件大小: 3439K

    下载量: 78

    相关论文文献

    • [1].英汉多义词模体的计量特征[J]. 湖南科技大学学报(社会科学版) 2020(01)
    • [2].位置重复性对射波刀模体绝对剂量验证的影响[J]. 中国医学物理学杂志 2020(09)
    • [3].线性短模体:介导蛋白质相互作用的新模块[J]. 生物化学与生物物理进展 2017(02)
    • [4].机械结构网络模体探究[J]. 轻工机械 2015(02)
    • [5].基于笔形束散射核的非均匀模体透射平面散射线分析[J]. 中国医学物理学杂志 2020(01)
    • [6].基于多模体特征的科学家合作预测[J]. 电子科技大学学报 2020(05)
    • [7].基于网络模体特征攻击的网络抗毁性研究[J]. 复杂系统与复杂性科学 2017(04)
    • [8].生物网络模体发现算法研究综述[J]. 电子学报 2009(10)
    • [9].基于组合的序列特征识别蛋白质复杂超二级结构βαβ模体[J]. 内蒙古工业大学学报(自然科学版) 2015(03)
    • [10].结合最大团求精的随机投影模体发现算法[J]. 中国科技论文 2013(04)
    • [11].蛋白质中五类超二级结构模体的统计分析[J]. 安徽农业科学 2012(26)
    • [12].一种长度可调水模体的研制[J]. 医疗卫生装备 2011(03)
    • [13].蛋白质作用网络中模体识别技术研究[J]. 计算机技术与发展 2010(08)
    • [14].基于显露子串挖掘的基因序列模体识别算法[J]. 现代电子技术 2017(12)
    • [15].基于优化特征参量的蛋白质βαβ模体识别分析[J]. 江苏农业科学 2015(02)
    • [16].3D虚拟模体设计软件的开发[J]. 生物医学工程学杂志 2014(01)
    • [17].富脯氨酸模体研究进展[J]. 生命科学研究 2008(04)
    • [18].γ辐照加工用新型工作模体设计研究[J]. 原子能科学技术 2020(11)
    • [19].一种新型SPECT性能检测模体的研制[J]. 中国医学装备 2014(05)
    • [20].非树型网络模体发现算法[J]. 电子学报 2009(11)
    • [21].镶块模模体脆性断裂原因分析与预防[J]. 金属加工(热加工) 2013(13)
    • [22].基于统计特征的酶蛋白质中特殊模体βαβ的预测[J]. 生物物理学报 2013(09)
    • [23].基于位置相互关系的模体识别算法[J]. 电子科技 2010(01)
    • [24].有向动态网络中基于模体演化的链路预测方法[J]. 计算机应用研究 2019(05)
    • [25].离散时间序列的网络模体分析[J]. 物理学报 2010(03)
    • [26].蛋白质βαβ模体序列的统计分析及其识别[J]. 昆明理工大学学报(理工版) 2010(05)
    • [27].简易型模拟剂量验证模体的设计及应用[J]. 医疗装备 2009(02)
    • [28].用二次判别方法识别蛋白质β-发夹模体[J]. 生物物理学报 2009(04)
    • [29].锻锤用圆模体使用寿命的影响因素及提高方法[J]. 模具工业 2013(06)
    • [30].基于模体压缩的生物学模型简化研究[J]. 荆楚理工学院学报 2016(06)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

    真核生物基因组序列对中DNA模体对的识别
    下载Doc文档

    猜你喜欢