基因组调控元件的识别与注释

基因组调控元件的识别与注释

论文摘要

测序技术的高速发展为生物学研究带来了革命性的变化。新一代测序技术的应用首先使得研究者能够以更低的成本进行大批量测序,高速廉价的对全基因组进行高通量测序。这也极大地改变了研究者的研究方法和研究手段,推动了多组学研究的跨越式发展。此外,多种针对特定基因组信息的测序方法的出现也使得很多高精度的分析研究成为了可能。单细胞测序的产生使得研究者能够在单个细胞的层面上对其特征进行研究,同时也使得针对生殖细胞的深入研究成为了可能。基于测序技术的高速发展,多个重要的科研项目得以成为现实。DNA百科全书技术主要聚焦在多个物种的基因组元件的识别与注释,提供了大量标准的样本和可靠的实验数据,涵盖了多种基因组中的重要元件和表征。表观路线图计划针对人类基因组的表观组在多个不同组织、细胞系和阶段的样本中对数十种表观信号进行了测序,对人类基因组中表观组的特异性和共同性提供了详实的资料。癌症和肿瘤图谱计划收集了大量的癌症和肿瘤患者的样本进行测序,涵盖了三十余种癌症类型。癌症和肿瘤图谱计划除了进行了大规模测序以外,同时也产生了包括表达量、突变位点等大量的分析数据,为癌症相关的研究者提供了海量的分析数据。庞大的多组学数据和对应的大规模数据计划使得多组学整合分析成为了可能。多组学整合分析的覆盖面越来越广,对于复杂关系的描绘也越来越详尽。通过多组学分析,从系统水平上对生物学问题和医学问题的探索和解密正逐渐变得可行。庞大而多样的多组学数据的产生同样也对生物信息学提出了新的挑战。首当其冲的问题是如何有效的利用好这些海量数据。多组学数据内含的潜在联系与相互作用同样也是生物信息学所面临的新问题。在生物信息学领域,急切的需要全新的方法来帮助研究者从整合的层面对多组学的分析进行整合分析。同时,各种不同性质的组学数据,也需要生物信息学的研究者开发出新的方法来对其特性进行刻画。本文从生物信息学方法开发为始,基于多组学数据和基因组调控元件相关分析中常见的问题,提出了多种分析方法和手段,并且依托于多组学数据整合分析手段,分别在公共大数据上和针对性设计的实验数据上进行了多组学关联分析。首先,本文开发了针对转录因子相关分析中常见的转录因子结合位点识别问题的全新方法和软件。之后本文在公共大数据上应用了多组学整合分析方法,对一类特殊的基因组调控元件增强子RNA的性质和功能进行了刻画和预测。通过将多组学关联整合分析方法进一步拓展,针对长链非编码RNA的潜在功能和作用产生了大量的数据,并依此建立了两个可靠的长链非编码RNA相互作用关系数据库,帮助研究者针对长链非编码RNA在癌症和其他疾病中的潜在作用和可能的机理进行针对性研究。在建立了成熟的多组学整合分析方法后,这一方法在多个针对性设计的实验数据上得到了应用。通过在小鼠早期胚胎的实验数据上加以应用,分别针对母源性肥胖引起的小鼠早期胚胎发育缺陷表型背后的影响机制和小鼠早期胚胎中等位基因表达不平衡背后的调控机理的进行了研究,成功对其机理进行了刻画。从方法学而言,本文利用多种不同的方法和手段对基因组中调控元件的识别和注释这一问题展开了研究。既包括了特定调控元件的识别方法的开发和实现,也包括了多组学数据的整合分析流程的建立和应用。本文的研究工作具体包括以下几个方面:首先,开发了一种新的转录因子结合位点识别算法。这项研究为了在转录因子结合位点识别算法上做出突破,通过对已有的五种转录因子结合位点识别算法进行了源码级别的整合和重构,从而实现了更高的准确性和敏感性。这项研究开发的识别方法iForm充分利用了已有研究的坚实基础,基于位置权重矩阵对基因组序列上的转录因子结合位点进行识别。通过利用卡方检验对五种已有方法的识别结果进行整合,我们得到了一个更加准确和敏感的识别指标。通过多种检测指标对我们的预测方法在金标集上进行检测,我们发现该方法和已有的五种方法相比,在准确性和敏感性上均能超过这些方法。此外,我们还利用iForm方法,在多种组织和细胞系中识别出了了新的金标集,为后续的研究提供了数据基础。其次,基于海量数据的多组学分析,识别并刻画了增强子RNA在多种组织和细胞系中的性质,并且基于其独特性质对其作为潜在调控元件的调控功能进行了预测。基于表观路线图计划的组蛋白数据和RNA-seq数据,该项研究在多达50个不同的组织和细胞系中识别了对应的增强子RNA。之后,对这些增强子RNA的多种性质进行了刻画,发现了其与其他基因组元件显著不同的特性。该项研究之后,对增强子RNA的功能进行了预测。基于二级结构对于RNA分子功能的重要性,该项研究对增强子的潜在调控能力进行了预测。通过进一步将增强子RNA的二级结构改变与致病基因突变联系起来,本项研究实现了对增强子RNA在多种免疫疾病中的潜在调控作用的预测。最后,通过对已有结果的汇总与挖掘,该项研究提出了增强子RNA对于基因组其他调控元件的调控作用模型。接着,通过进一步拓展多组学整合分析方法的应用场景,实现了对长链非编码RNA的调控作用的注释和预测,并且将相关结果进行汇总整编,上线了两个主要关注与长链非编码RNA与其他基因组元件在多种癌症和其他疾病中的相互作用和调控关系的数据库。通过利用多种量化分析方法,本项研究成功的对长链非编码RNA与其他基因组调控元件的相互作用关系进行了定量的评估。本项研究分别关注了长链非编码RNA的二级结构与致病基因组突变的关系,RNA序列与蛋白质结合的关系,以及其表达量与其他基因的共表达调控关系。通过对这三种关系进行定量评估并且将结果汇总,开发并发布了数据库Lnc2Catlas。进一步,为了满足研究者对于实验验证的长链非编码RNA相互作用关系的可靠性的需求,本项研究进一步结合分词系统和手工标注,对现有的长链非编码RNA相互作用关系相关的发表文献进行了标注和分类。通过这种方法,推出了包含大量实验验证的长链非编码RNA相互作用关系的数据库LIVE。之后,通过对小鼠早期胚胎中的甲基化调控变化和蛋白质水平变化的分析,找出了母源肥胖造成的小鼠早期胚胎发育缺陷背后的调控基因和相关机理。通过对肥胖小鼠早期胚胎中的蛋白质组的差异进行分析,本项研究鉴定了一系列候选基因。通过结合早期胚胎中的甲基化组差异分析,从一系列候选基因中得到了Stella蛋白。针对Stella蛋白的进一步研究,揭示了其对小鼠早期胚胎中的去甲基化过程的保护作用是保证小鼠胚胎早期发育的重要因素之一。由于肥胖母鼠引起的小鼠早期胚胎中的Stella缺失是导致小鼠早期胚胎发育出现缺陷表型的直接原因。进一步通过构建Stella缺失小鼠的模型,本项研究深入研究了Stella蛋白对于小鼠卵母细胞到早期胚胎过程中的甲基化水平变化的过程。通过多组学的整合分析,该项研究对肥胖母鼠导致的小鼠早期胚胎缺陷背后的机理做出了探索,并对人类肥胖造成的胎儿缺陷的相关研究和治疗做出了重要贡献。最后,应用多组学整合分析方法,对小鼠早期胚胎中的等位基因不平衡现象进行了分析,并且探究了其背后的主要调控机制和调控元件的作用。基于正反交杂交品系小鼠的模型,本项研究对小鼠早期胚胎中的等位基因不平衡进行了识别和刻画。同时,通过对正反交中等位基因不平衡的偏向性的比较,本项研究揭示等位基因不平衡动态变化规律背后的主要调控因素的变迁过程,指出了其主要调控因素从母源性因素转移到了随机因素。通过与转录调控网络分析的结合,发现了多种与等位基因不平衡性及表达规律一致的转录因子。最后通过对已有结果进行汇总整合,提出了一个描述小鼠早期胚胎中等位基因不平衡动态变化规律和其背后调控因素变迁的模型。

论文目录

  • 缩略语表
  • 摘要
  • Abstract
  • 前言
  •   0.1 论文的研究背景
  •     0.1.1 测序技术的发展对生物学研究的影响
  •     0.1.2 转录因子在细胞生命周期中具有重要作用
  •     0.1.3 增强子RNA具有潜在的调控作用和生物学功能
  •     0.1.4 甲基化在哺乳动物的发育过程中扮演重要角色
  •     0.1.5 长链非编码RNA的多重功能
  •   0.2 论文的组织结构
  • 第一章 转录因子结合位点识别算法i Form
  •   1.1 摘要
  •   1.2 引言
  •   1.3 材料与方法
  •     1.3.1 数据集
  •     1.3.2 算法基础
  •     1.3.3 金标集的生成
  •     1.3.4 iForm的性能评测
  •   1.4 结果
  •     1.4.1 iForm的实现流程
  •     1.4.2 使用金标集的iForm性能检验
  •     1.4.3 使用相关性分析的性能比较
  •     1.4.4 iForm在多种细胞系和组织中的应用
  •   1.5 讨论与总结
  • 第二章 增强子RNA的识别,刻画与功能研究
  •   2.1 摘要
  •   2.2 引言
  •   2.3 结果
  •     2.3.1 增强子RNA的识别与性质刻画
  •     2.3.2 识别多种细胞系和组织中的增强子RNA区间
  •     2.3.3 已知结构非编码RNA的识别
  •     2.3.4 长链非编码RNA的识别
  •     2.3.5 识别riboSNitches
  •     2.3.6 riboSNitches范例
  •   2.4 材料与方法
  •     2.4.1 数据集
  •     2.4.2 数据处理
  •     2.4.3 识别增强子RNA区间
  •     2.4.4 增强子RNA区间的性质刻画
  •     2.4.5 识别已知和未知的结构非编码RNA
  •     2.4.6 长链非编码RNA的识别
  •     2.4.7 SNP对于结构非编码RNA的影响的预测
  •   2.5 讨论与总结
  • 第三章 长链非编码RNA相互作用关系数据库
  •   3.1 摘要
  •   3.2 引言
  •   3.3 数据库界面
  •   3.4 数据特点
  •     3.4.1 二级结构改变
  •     3.4.2 长链非编码RNA蛋白质相互作用关系
  •     3.4.3 共表达网络
  •   3.5 应用实例
  •     3.5.1 Lnc2Catlas应用实例
  •     3.5.2 LIVE应用实例
  •   3.6 数据和方法
  •     3.6.1 长链非编码RNA,SNP和蛋白
  •     3.6.2 量化长链非编码RNA与癌症之间的关系
  •     3.6.3 实验验证的参考文献搜集
  •     3.6.4 数据库开发
  •   3.7 讨论与总结
  • 第四章 母源性肥胖导致的胚胎发育缺陷
  •   4.1 摘要
  •   4.2 引言
  •   4.3 结果
  •     4.3.1 来自高脂肪食谱培养的母鼠的胚胎的表型研究
  •     4.3.2 HFD小鼠的着床前胚胎出现发育潜力受损
  •     4.3.3 HFD小鼠中的胎生长迟缓
  •     4.3.4 来自肥胖母鼠的卵母细胞中出现Stella蛋白的缺失
  •     4.3.5 来自肥胖小鼠的受精卵中出现表观不对称性的建立过程受损
  •     4.3.6 HFD受精卵中母源性的TET3-双加氧酶依赖性5hmC和γ-H2AX积累导致早期胚胎的发育缺陷
  •     4.3.7 来自HFD小鼠的受精卵存在全局的低甲基化
  •     4.3.8 卵母细胞中的Stella过表达能够改善母源性肥胖相关的胚胎发育缺陷
  •     4.3.9 Stella导致从卵母细胞到受精卵过程中的甲基化变化规律被破坏
  •   4.4 生物信息学分析方法
  •     4.4.1 受精卵中的甲基化组分析
  •   4.5 讨论与总结
  • 第五章 小鼠早期胚胎中等位基因不平衡的溯源
  •   5.1 摘要
  •   5.2 引言
  •   5.3 结果
  •     5.3.1 识别正反交杂交品系中的等位基因不平衡性的工作流程
  •     5.3.2 早期胚胎中的单等位基因表达
  •     5.3.3 早期胚胎中的等位基因表达
  •     5.3.4 从母源到受精卵转移过程中的等位基因不平衡
  •     5.3.5 从母源到受精卵转移过程中的转录调控
  •   5.4 材料与方法
  •     5.4.1 测序数据比对与分割
  •     5.4.2 定义等位基因不平衡基因
  •     5.4.3 等位基因不平衡基因的分类
  •     5.4.4 顺式调控基因的GSEA分析
  •     5.4.5 母源基因,次要ZGA基因,主要ZGA基因,MGA基因的刻画
  •     5.4.6 从母源到受精卵转移过程中的调控转录因子识别
  •     5.4.7 转录因子调控网络的构建
  •   5.5 讨论与总结
  • 第六章 结论与展望
  • 参考文献
  • 作者在学期间取得的学术成果
  • 主要简历
  • 致谢
  • 文章来源

    类型: 博士论文

    作者: 任超

    导师: 伯晓晨

    关键词: 多组学整合分析,基因组调控元件,甲基化,转录因子,长链非编码,增强子,等位基因不平衡

    来源: 军事科学院

    年度: 2019

    分类: 基础科学

    专业: 生物学

    单位: 军事科学院

    分类号: Q78

    总页数: 189

    文件大小: 14522K

    下载量: 228

    相关论文文献

    • [1].马铃薯糖转运蛋白系统进化关系分析和顺式调控元件鉴定[J]. 江苏农业科学 2020(08)
    • [2].动态调控元件及其在微生物代谢工程中的应用[J]. 化工学报 2018(01)
    • [3].一种识别基因调控元件的新型优化算法[J]. 计算机应用与软件 2013(01)
    • [4].细菌信号传导调控元件的合成生物学研究进展[J]. 生物产业技术 2011(03)
    • [5].基因及其顺式调控元件在动物表型进化中的作用[J]. 遗传 2014(06)
    • [6].顺式调控元件对“头对头”基因对共表达的影响[J]. 中国科学(C辑:生命科学) 2008(11)
    • [7].肠道特异性基因表达调控元件研究进展[J]. 生物技术通报 2010(09)
    • [8].依泽替米贝通过上调甾醇调控元件结合蛋白2、低密度脂蛋白受体促进肝细胞摄取低密度脂蛋白胆固醇[J]. 中国动脉硬化杂志 2018(01)
    • [9].一个RNA剪接调控元件分类方法的研究[J]. 中国生物医学工程学报 2012(01)
    • [10].人类原钙粘蛋白基因簇调控元件的克隆及对其启动子活性的影响[J]. 生命科学研究 2014(02)
    • [11].用于检测转基因作物中调控元件的质粒标准分子的构建[J]. 江苏农业学报 2018(06)
    • [12].组织特异性表达基因PLUNC调控元件的生物信息学分析[J]. 热带医学杂志 2009(10)
    • [13].一种嵌合型调控元件在肿瘤靶向基因治疗中的应用[J]. 生物技术通报 2015(10)
    • [14].肌肉特异性基因启动子的上游转录调控元件研究进展[J]. 中国细胞生物学学报 2012(05)
    • [15].中国李pgip启动子的克隆及调控元件分析[J]. 园艺学报 2009(10)
    • [16].CDP参与凋亡过程中远程调控元件mbr对于凋亡相关基因的转录调控作用[J]. 实用临床医药杂志 2017(09)
    • [17].改造thrL前导调控元件获取不同灵敏度苏氨酸感应器[J]. 生物技术 2016(04)
    • [18].粉碎和膨化工艺对大豆转基因成分及调控元件的影响[J]. 粮油食品科技 2011(02)
    • [19].正调控元件拷贝数对黑曲霉PglaA启动子的影响[J]. 东北农业大学学报 2019(06)
    • [20].植物Ⅱ型启动子功能研究的常用方法及其进展[J]. 生命科学 2013(06)
    • [21].内皮细胞特异性表达血管内皮生长因子基因载体的构建及表达特性验证(英文)[J]. 中国现代医学杂志 2010(21)
    • [22].人ID4基因启动子及上游顺式表达调控元件的克隆及特征分析[J]. 解放军医学杂志 2010(02)
    • [23].本期重点推介[J]. 昆虫学报 2019(04)
    • [24].基于移动序列模式分析人基因组调控短序列[J]. 基因组学与应用生物学 2018(10)
    • [25].桃PG基因启动子克隆及序列分析[J]. 华北农学报 2014(06)
    • [26].调控进化与形态多样性[J]. 生物多样性 2014(01)
    • [27].两个玉米新CIPK基因的鉴定[J]. 山东农业科学 2011(11)
    • [28].巴西橡胶HbWRKY55启动子的克隆及功能初步分析[J]. 分子植物育种 2018(09)
    • [29].基因编辑[J]. 中国科技术语 2018(05)
    • [30].生物钟在粗糙脉孢菌中的运行机制[J]. 生命科学 2015(11)

    标签:;  ;  ;  ;  ;  ;  ;  

    基因组调控元件的识别与注释
    下载Doc文档

    猜你喜欢