基于转录组数据挖掘的肿瘤异质性与肿瘤免疫微环境研究

基于转录组数据挖掘的肿瘤异质性与肿瘤免疫微环境研究

论文摘要

肿瘤是威胁人类健康的主要疾病之一。全球每年有数千万人被诊断为恶性肿瘤。在中国,恶性肿瘤的发病率和死亡率一直居高不下。近些年来,随着中国人口老龄化的加剧以及自然环境的污染恶化,这两项指标更是呈现持续增长的趋势。肿瘤是机体在各种致癌因素,如自身遗传变异、肿瘤微环境以及外界环境等长期相互作用下导致的,它会使患者身体部分细胞出现结构、功能和代谢的异常以及不受控制的增殖。肿瘤是一种高度复杂、高度异质的疾病,它的致病机理、分子机制以及演化过程仍是亟待破解的科学问题。随着各种高通量组学技术,例如基因芯片、第二代测序、蛋白质组学技术等的不断发展和广泛应用,研究人员对于肿瘤的研究已经从传统的单分子单基因层面转向大规模多组学数据的整合研究。这些研究取得了很多重要的进展,例如,肿瘤的分子分型为深入研究肿瘤异质性提供了重要的参考;肿瘤诊断及预后分子标志物的发现成为了肿瘤早期诊断和精准治疗的重要基础。除此之外,这些研究也使得人们对于肿瘤的认知进入到了更深入、更广泛的分子层面。伴随着高通量技术的广泛应用以及数据共享机制的不断成熟,Gene Expression Omnibus(GEO)、The Cancer Genome Atlas(TCGA)、International Cancer Genome Consortium(ICGC)等国际公共数据库中积累了前所未有的大规模多组学肿瘤数据,肿瘤研究进入“大数据”时代。在肿瘤研究“大数据”时代背景下,数据驱动型(Data-driven)研究逐渐成为肿瘤生物信息学研究的重要模式之一。对于肿瘤“大数据”的重新挖掘、整合利用,从中发现更多有价值的信息,能够为破解肿瘤异质性的成因、开发新的诊断和治疗手段提供重要的线索和依据。在本文中,作者以大规模肿瘤公共数据和相应的生物信息学技术为基础,以特定的肿瘤生物学问题为导向,开展了以下三个方面的研究工作:一、肿瘤内在异质性方面:基于TCGA转录组数据的肿瘤组织干性样细胞富集模式识别研究。肿瘤组织是由多种不同类型细胞组成的复杂整体。近些年的研究发现,肿瘤组织中存在着一部分特殊的细胞亚群——肿瘤干性样细胞,这群细胞具有自我更新、无限增殖和重建肿瘤的恶性生物学潜能。肿瘤干细胞是肿瘤内在异质性的重要表现,也被认为是肿瘤发生发展、侵袭转移以及复发的根源。因此,识别肿瘤组织中干性样细胞的富集模式、探索其潜在的调控机制有助于进一步揭示肿瘤内在异质性的成因、为开发针对性的治疗手段提供依据。在本研究中,为了探索肿瘤组织中干性样细胞对肿瘤患者的影响,我们首先构建了基于干性特征基因集合和肿瘤组织转录组数据的肿瘤干性样细胞含量评估模型。通过将该模型应用到TCGA大规模数据上,我们得到了32种肿瘤类型的9854个肿瘤样本以及696个癌旁正常组织样本中肿瘤干性样细胞相对富集评分,并发现,1)干性基因在不同类型肿瘤中的富集模式存在显著差别;2)在大多数肿瘤类型中肿瘤样本的干性基因富集评分要显著高于正常组织;3)干性基因的富集模式与肿瘤患者的病理分级以及预后密切相关。除此之外,我们进一步从多组学层面分析了可能与肿瘤组织中干性样细胞富集相关的分子调控机制。二、肿瘤患者间异质性方面:基于基因芯片数据的非小细胞肺癌长链非编码RNA预后组合分子标志物识别研究。近些年对转录组的深度测序研究发现,人类基因组的转录物只有大约五分之一为蛋白编码基因,转录组中存在着复杂的层级和调控关系。长链非编码RNA是近几年来发现的一类长度在200nt以上的非编码RNA。研究表明,长链非编码RNA参与调控众多生物学过程,并且与肿瘤的发生发展、侵袭转移密切相关。在本研究工作中,我们利用传统mRNA基因芯片部分探针匹配不准确的特性,从mRNA芯片数据中识别出长链非编码RNA的表达信息。为了探索长链非编码RNA作为非小细胞肺癌预后标志物的可行性,我们利用机器学习方法构建了基于长链非编码RNA的非小细胞肺癌预后判断模型,该模型在训练集和测试集样本中都取得了很好的预测效果。此外,我们进一步收集了三组独立验证集对该模型的可靠性进行了验证。COX多因素回归分析显示该模型的预测结果能够独立于各项临床指标对患者预后进行判断。这些结果揭示了长链非编码RNA作为非小细胞肺癌患者预后判断标志物的可行性以及该预后判断模型潜在的临床应用价值。三、肿瘤免疫微环境方面:基于RNA测序数据的肿瘤免疫浸润T细胞、B细胞受体互补决定区3序列识别及组装研究。免疫浸润细胞在很多种肿瘤中,如皮肤黑色素瘤、非小细胞肺癌和结肠癌中占有很高的比例,它们是肿瘤免疫治疗的关键。T细胞和B细胞受体的抗原抗体互补决定区对于它们识别肿瘤特异性抗原起决定性作用,因此研究肿瘤免疫浸润T细胞、B细胞表面受体的序列特征有助于解析肿瘤细胞与T细胞和B细胞之间的相互作用关系,进而开发新的肿瘤诊断和治疗手段。术后肿瘤组织中通常包含有一定量的免疫浸润细胞,这也导致了肿瘤组织RNA测序数据中混杂有肿瘤免疫微环境的各种信息。在本研究工作中,我们开发了一套可以从肿瘤组织RNA测序数据中识别并组装其浸润T细胞和B细胞受体互补决定区序列的算法。通过模拟仿真实验,我们证实了该算法在不同测序深度、不同测序读长的RNA测序数据上具有高可靠性。通过将其应用到大规模肿瘤数据中,我们识别出了大量的肿瘤免疫浸润T细胞和B细胞受体序列信息,这些结果能够为肿瘤早期诊断标志物发现,肿瘤免疫治疗结果预测等研究工作提供重要的基础。从海量数据中发掘出具有重要价值的信息一直是数据科学研究的重要内容。但是,由于不同数据的特性以及不同研究问题的内在需求,研究人员通常需要针对不同类型的数据以及不同的研究问题设计相应的计算和分析方法。现阶段的肿瘤样本高通量数据,尤其是基于基因芯片以及第二代测序技术等产生的基因组、转录组、表观组等数据,由于技术本身的局限性以及组织学样本的复杂性,通常包含有大量待发掘的信息。在本文介绍的三个研究工作中,作者正是基于肿瘤高通量数据的这些特性,通过开发相应的生物信息学算法以及整合分析方法,从大规模肿瘤样本中识别出了具有重要价值的信息。这些工作不仅仅通过数据量的提升增加了统计学效能,同时也实现了从“旧”数据到“新”价值的这一关键转换。此外,本研究中开发的相关工具能够为肿瘤转录组数据分析提供辅助和支撑。

论文目录

  • 摘要
  • Abstract
  • 第1章 前言
  •   1.1 论文研究背景
  •     1.1.1 肿瘤的现状
  •     1.1.2 肿瘤的异质性
  •     1.1.3 肿瘤免疫微环境
  •     1.1.4 肿瘤研究的重要“武器”——高通量分子检测技术
  •     1.1.5 肿瘤研究的重要资源——公共数据
  •   1.2 研究策略
  •   1.3 研究内容
  •     1.3.1 论文组织结构
  •   1.4 研究创新性
  • 第2章 基于TCGA转录组数据的肿瘤组织干性样细胞富集模式识别研究
  •   2.1 研究背景
  •     2.1.1 肿瘤干细胞模型
  •     2.1.2 肿瘤组织中干性样细胞的识别
  •   2.2 方法和结果
  •     2.2.1 数据收集和预处理
  •     2.2.2 预测模型构建
  •     2.2.3 模拟数据验证
  •     2.2.4 乳腺癌组织样本干性富集评分分析
  •     2.2.5 TCGA多肿瘤数据干性样细胞富集模式评估
  •     2.2.6 干性富集评分在肿瘤与癌旁正常组织之间的差异
  •     2.2.7 干性富集评分与肿瘤转移的关系
  •     2.2.8 干性富集评分与肿瘤病理分级的关系
  •     2.2.9 干性富集评分与肿瘤患者预后的关系
  •     2.2.10 多组学数据分析揭示肿瘤干性的潜在调控机制
  •     2.2.11 潜在肿瘤干性基因发现
  •     2.2.12 实验验证FAM64A参与乳腺癌肿瘤细胞干性调控
  •   2.3 小结与讨论
  • 第3章 基于基因芯片数据的非小细胞肺癌长链非编码RNA预后组合分子标志物识别研究
  •   3.1 研究背景
  •   3.2 技术路线
  •   3.3 方法和结果
  •     3.3.1 数据收集和整理
  •     3.3.2 Affymetrix HG U133 Plus2.0 基因芯片探针重定位
  •     3.3.3 特征选择与模型建立
  •     3.3.4 模型评估
  •     3.3.5 独立验证集测试
  •     3.3.6 COX多因素生存分析
  •     3.3.7 GO功能富集分析
  •   3.4 小结与讨论
  • 第4章 基于RNA测序数据的肿瘤免疫浸润T细胞B细胞受体互补决定区3 序列识别组装研究
  •   4.1 背景及意义
  •     4.1.1 T、B细胞在肿瘤免疫微环境中的作用
  •     4.1.2 T、B细胞受体结构与抗原识别
  •     4.1.3 T、B细胞受体多样性
  •   4.2 算法实现与应用
  •     4.2.1 算法流程
  •     4.2.2 算法特性
  •     4.2.3 模拟数据测试
  •     4.2.4 算法应用
  •   4.3 小结与讨论
  • 第5章 全文总结与展望
  •   5.1 全文总结
  •   5.2 未来工作展望
  • 参考文献
  • 附录 A 干性基因列表
  • 附录 B FAM64A稳定过表达细胞的构建及功能验证
  • 附件
  • 主要简历
  • 致谢
  • 文章来源

    类型: 博士论文

    作者: 张健

    导师: 李伍举,应晓敏

    关键词: 高通量数据挖掘,肿瘤异质性,肿瘤干细胞,长链非编码,肿瘤预后分子标志物,细胞受体

    来源: 军事科学院

    年度: 2019

    分类: 基础科学,医药卫生科技

    专业: 生物学,肿瘤学

    单位: 军事科学院

    分类号: Q811.4;R730.3

    总页数: 124

    文件大小: 9146K

    下载量: 1109

    相关论文文献

    • [1].胃癌与干细胞、肿瘤干细胞[J]. 滨州职业学院学报 2011(02)
    • [2].两种肿瘤干细胞球培养方法的比较[J]. 临床与实验病理学杂志 2017(11)
    • [3].血管内皮生长因子表达与肿瘤干细胞关系的研究进展[J]. 癌症进展 2018(04)
    • [4].肿瘤干细胞的研究进展[J]. 中华临床实验室管理电子杂志 2018(02)
    • [5].肿瘤干细胞研究进展[J]. 中国医药生物技术 2018(04)
    • [6].肿瘤干细胞可被药物逆转[J]. 实用肿瘤学杂志 2017(01)
    • [7].日本开发出恶性肿瘤干细胞检出技术[J]. 分析测试学报 2017(05)
    • [8].中医药调控肿瘤干细胞的研究现状[J]. 世界中医药 2017(10)
    • [9].肿瘤干细胞的分子机制和调控通路[J]. 转化医学电子杂志 2016(11)
    • [10].奚涛课题组在Journal of Hematology&Oncology发表最新研究成果[J]. 中国药科大学学报 2020(04)
    • [11].流式细胞术在肿瘤干细胞中的应用进展[J]. 海南医学 2019(08)
    • [12].肿瘤干细胞及肿瘤靶向治疗的研究进展[J]. 实用肿瘤学杂志 2017(06)
    • [13].表观遗传学对肿瘤干细胞及其耐药性的影响[J]. 中国医药生物技术 2018(04)
    • [14].循环肿瘤干细胞对肝细胞癌肝切除术后复发预测作用的前瞻性研究[J]. 中国肿瘤外科杂志 2011(05)
    • [15].肿瘤干细胞研究进展[J]. 山西医药杂志 2014(04)
    • [16].日本研究人员成功消灭肿瘤干细胞[J]. 岭南现代临床外科 2013(03)
    • [17].头颈部鳞状癌肿瘤干细胞的研究进展[J]. 医学研究杂志 2013(06)
    • [18].肿瘤干细胞:综述、前景及挑战[J]. 泌尿外科杂志(电子版) 2012(01)
    • [19].肿瘤干细胞的分选[J]. 中国组织工程研究 2012(41)
    • [20].肿瘤与肿瘤干细胞[J]. 中国组织工程研究 2012(45)
    • [21].肿瘤干细胞对传统肿瘤治疗理念提出新的挑战[J]. 中国肿瘤 2011(08)
    • [22].肿瘤干细胞研究进展及临床应用前景[J]. 生物技术通讯 2011(06)
    • [23].肿瘤干细胞靶向治疗研究进展[J]. 中国医药生物技术 2010(05)
    • [24].肿瘤干细胞研究的进展及启示[J]. 医学与哲学(临床决策论坛版) 2010(08)
    • [25].肿瘤干细胞表面标记物的研究进展[J]. 中华临床医师杂志(电子版) 2010(11)
    • [26].头颈部鳞状细胞癌肿瘤干细胞研究进展[J]. 中国耳鼻咽喉头颈外科 2009(01)
    • [27].肿瘤干细胞的研究进展[J]. 现代肿瘤医学 2009(04)
    • [28].肿瘤干细胞:当前的观点及抗肿瘤治疗新策略[J]. 中华老年多器官疾病杂志 2009(02)
    • [29].肿瘤干细胞的发现及研究进展[J]. 科技创新导报 2009(23)
    • [30].肿瘤干细胞的研究进展[J]. 中国小儿血液与肿瘤杂志 2009(05)

    标签:;  ;  ;  ;  ;  ;  

    基于转录组数据挖掘的肿瘤异质性与肿瘤免疫微环境研究
    下载Doc文档

    猜你喜欢