跨平台芯片数据整合分析挖掘胃癌潜在关键基因构建预后评估模型及其生物学功能研究

跨平台芯片数据整合分析挖掘胃癌潜在关键基因构建预后评估模型及其生物学功能研究

论文摘要

目的:胃癌现已被认为全球范围内最具攻击性的恶性肿瘤之一。大多数胃癌病人在诊断时已进入进展期阶段,甚至失去了手术切除的机会。由于复发和转移,进展期胃癌病人具有较低的五年总生存率。因此,胃癌的早期诊断以及预后评估显得尤为重要。随着基因组学领域的快速发展,基因芯片和RNA测序技术得到广泛地应用。同时在恶性肿瘤诊治等研究方面,上述两种技术方法也有着重要的研究意义。生物信息学的出现,让人们对恶性肿瘤的认识和理解上升了一个新高度。大数据时代下的肿瘤信息挖掘提升并加深了人们对于癌症病因学的分子机制深层理解。基于基因芯片和RNA测序的综合生物信息学分析方法的筛选差异表达基因(differentially expressed genes,DEGs)已经在目前的研究中被用于探索胃癌中潜在生物学标志物。然而,由于分析方法上的缺陷以及临床样本量不足问题,研究所获得的基因结果可能不准确。因此,寻找多水平、多层面上的因子作为胃癌重要诊断、预测、预后以及治疗等方向的分子生物学标志物显得尤为重要。然而,癌症是一个多分子参与的复杂疾病,单个基因或者分子即使可以作为潜在的预后标志物,仍然具有一定的局限性。随着近些年来,研究者们对于癌症基因大数据的不断理解和探索,利用Gene Expression Omnibus(GEO)数据库或者癌症基因组图谱计划(The Cancer Genome Atlas,TCGA)中的癌症基因检测数据,结合有效的生物信息学分析方法,发现了越来越多的基因组合,我们称之为基因模型。在这些模型中,包含了数个乃至数十个基因,而这些基因模型可以作为癌症病人诊断、预后和治疗效果的生物学标志物。本研究的目的是寻找具有胃癌预后价值的稳健DEGs和有效的预后评估基因模型。研究方法:在第一部分的研究中,我们首先利用GEO数据库下载了8套胃癌基因芯片表达数据集,分别为GSE19826、GSE33335、GSE63089、GSE27342、GSE56807、GSE54129、GSE26942以及GSE79973。接下来,采用limma分析方法分别在每一套数据集中筛选DEGs,之后利用稳健排序整合算法(Robust Rank Aggregation,RRA)整合上述所有数据集差异分析的结果并且筛选出稳健的DEGs。为了描述和理解这些DEGs的生物学功能和参与的信号通路,最后利用生物信息学分析手段对上述这些DEGs进行注释和富集分析,例如:基因本体论(Gene Ontology,GO)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析。在第二部分的分析中,通过蛋白网络数据挖掘以及Fisher精确检验等综合生物信息学分析筛选关键基因。接下来,利用TCGA数据库中的胃癌表达谱对关键基因的差异表达结果进行了验证。同时,基于逐步多因素COX比例风险回归分析方法,我们建立了具有预后价值的胃癌7基因评估模型。利用受试者工作特征曲线(receiver operating characteristic curve,ROC)下面积(AUC),预测5年病人生存率。Kaplan-Meier(K-M)曲线用来比较不同组之间的生存结果差异。最后利用GEO数据库中的外部数据集GSE62254对本模型进行预后评估价值的验证。在第三部分的分析中,基于上述分析得到的结果,针对PLAU基因进行了生物学功能的研究。首先,我们分析PLAU基因表达与胃癌病人临床病理资料之间的关系。接下来,在胃癌MGC-803和SGC-7901两种细胞系中,应用CCK-8实验分别检测敲减PLAU(si-PLAU)组及相应阴性对照(negative control,NC)组细胞的增殖能力。应用Transwell细胞迁移和侵袭实验分别检测si-PLAU组及NC组细胞迁移和侵袭能力。结果:在第一部分分析中,首先筛选并下载了总计8套GEO胃癌基因芯片表达数据集,采用limma分析方法后,在各自的数据集中得到相应的DEGs。采用RRA算法之后,我们总计得到了346个稳健的DEGs,其中包括了140个上调基因和206个下调基因。基于GO和KEGG富集分析,结果显示,表达上调的这些差异基因显著和细胞粘附、细胞骨架活动以及结合等生物学过程相关。同时,这些表达上调的基因显著富集于ECM受体相互作用、粘着斑、PI3K-Akt信号通路、细胞粘附分子、p53信号通路和紧密连接等生物学通路。表达下调的差异基因显著参与了能量代谢和结合等生物学功能。同时发现表达下调的基因显著富集于代谢途径、化学致癌作用、视黄醇代谢、胃酸分泌、糖酵解以及其他物质能量代谢途径。在第二部分的研究中,基于上述得到的346个稳健DEGs,利用HIPPIE蛋白互作网络数据库和Fisher精确检验算法,筛选得到11个关键基因。它们分别为:THBS1、SPARC、COL1A1、COL4A1、PLAU、COL1A2、MMP1、FBN1、ATP4A、COL2A1和MYOC。通路富集分析结果显示,上述基因显著富集到了ECM受体互作、黏着斑、PI3K-Akt信号通路以及癌症蛋白聚糖等与癌症发生、发展密切相关的信号通路。接下来,我们采用逐步多因素COX风险比例回归模型,基于上述11个关键基因的表达量以及病人的生存信息,筛选得到了总计7个基因(FBN1、MMP1、PLAU、SPARC、COL1A2、COL2A1和ATP4A),并且构建了胃癌7基因预后评估模型。发现该模型预测病人5年生存率的AUC为0.816。接下来,生存分析结果表明,与低危险组相比,高危险组病人的总体生存结果明显较差(log-rank test p-value<0.001)。上述结果说明该胃癌7基因预后评估模型具有良好的预后评判价值。最后,我们使用来自GEO数据库的胃癌独立数据集GSE62254来验证了此模型的预后评估价值。在第三部分的实验中,首先采用TCGA数据库中的胃癌病人表达谱和临床病理资料,我们发现PLAU基因表达水平与胃癌病人的年龄与pT分级具有相关性,并且其与病人生存之间存在着显著的相关性。接下来,分别在胃癌SGC-7901和MGC-803两种细胞系中,应用CCK-8实验发现si-PLAU组及NC组的细胞增殖能力无明显差异。应用Transwell细胞迁移实验发现相对于NC组细胞,si-PLAU组胃癌细胞的迁移能力下降。细胞侵袭实验同样揭示,相对于NC组细胞,si-PLAU组胃癌细胞的侵袭能力下降。结论:本研究利用RRA算法,鉴定到总计346个显著稳健的DEGs,其中包括了140显著上调和206显著下调的DEGs。基于一系列生物信息学分析方法,发现上调表达基因显著参与到了细胞粘附、黏着以及细胞骨架活动等生物学过程,而下调表达基因显著参与到了各种物质代谢和糖酵解途径。基于上述分析并筛选构建了胃癌7基因预后评估模型可有效对病人进行预后结果评估。PLAU基因表达水平与胃癌病人的年龄与pT分级具有相关性,并且其与病人生存之间存在着显著的相关性。在胃癌细胞中,下调PLAU基因表达可抑制细胞的迁移和侵袭能力,但对细胞的增殖能力未见显著影响。

论文目录

  • 摘要
  • Abstract
  • 英文缩略语
  • 第一部分 :基于GEO数据库及Robust Rank Aggregation算法挖掘胃癌中差异表达基因的研究
  •   1 前言
  •     1.1 胃癌
  •     1.2 生物学标志物
  •     1.3 基因芯片和RNA测序
  •     1.4 GEO数据库
  •     1.5 生物信息学
  •     1.6 稳健排序整合算法
  •   2 材料与方法
  •     2.1 实验材料
  •       2.1.1 GEO数据库中胃癌芯片表达数据集的选择
  •     2.2 实验方法
  •       2.2.1 本实验总体设计流程
  •       2.2.2 胃癌芯片表达谱数据预处理
  •       2.2.3 每一套数据集中的差异基因筛选
  •       2.2.4 Robust Rank Aggregation算法
  •       2.2.5 功能富集分析
  •       2.2.6 蛋白互作网络构建和可视化
  •       2.2.7 统计学分析
  •   3 结果
  •     3.1 胃癌GEO基因表达芯片数据集筛选
  •     3.2 数据预处理结果
  •     3.3 差异表达基因鉴定
  •     3.4 Robust Rank Aggregation算法筛选胃癌差异表达基因
  •     3.5 差异表达基因的功能和通路富集分析
  •       3.5.1 上调差异表达基因GO富集分析
  •       3.5.2 下调差异表达基因GO富集分析
  •       3.5.3 上调差异表达基因KEGG富集分析
  •       3.5.4 下调差异表达基因KEGG富集分析
  •     3.6 差异表达基因的蛋白互作网络构建
  •   4 讨论
  •   5 结论
  • 第二部分 :基于网络挖掘寻找胃癌关键基因及构建预后风险模型的研究
  •   1 前言
  •   2 材料与方法
  •     2.1 实验材料
  •       2.1.1 TCGA数据库胃癌基因表达谱
  •       2.1.2 GEO数据库胃癌基因表达谱
  •     2.2 实验方法
  •       2.2.1 分析流程
  •       2.2.2 蛋白互作网络挖掘
  •       2.2.3 Fisher精确检验筛选关键基因
  •       2.2.4 关键基因的KEGG富集分析
  •       2.2.5 TCGA数据库差异结果验证
  •       2.2.6 构建预后评估模型
  •       2.2.7 模型基因与临床分期的关系
  •       2.2.8 模型内基因的预后价值
  •       2.2.9 外部数据验证
  •       2.2.10 统计学分析
  •   3 结果
  •     3.1 基于HIPPIE蛋白互作数据库及Fisher精确检验挖掘关键基因
  •     3.2 关键基因KEGG富集分析
  •     3.3 TCGA数据库差异结果验证
  •     3.4 胃癌预后评估模型的构建
  •     3.5 模型基因与临床分期的关系
  •     3.6 模型内7个基因的预后价值
  •     3.7 模型外部数据验证
  •   4 讨论
  •   5 结论
  • 第三部分 :尿激酶-纤溶酶原激活剂PLAU基因在胃癌中生物学功能的研究
  •   1 前言
  •   2 材料与方法
  •     2.1 实验材料
  •       2.1.1 细胞来源
  •       2.1.2 主要试剂
  •       2.1.3 主要仪器设备
  •       2.1.4 引物序列
  •       2.1.5 si-PLAU序列
  •     2.2 实验方法
  •       2.2.1 PLAU基因与临床胃癌病人病理特征以及预后关联分析
  •       2.2.2 细胞培养
  •       2.2.3 细胞铺板及转染
  •       2.2.4 细胞总RNA提取
  •       2.2.5 RNA纯度的测定和RNA的定量
  •       2.2.6 反转录
  •       2.2.7 实时荧光定量聚合酶链式反应(Real-time PCR)
  •       2.2.8 Real-time PCR数据分析
  •       2.2.9 细胞增殖实验(CCK-8 实验)
  •       2.2.10 细胞迁移检测实验
  •       2.2.11 细胞侵袭检测实验
  •       2.2.12 统计分析
  •   3 结果
  •     3.1 PLAU基因与临床胃癌病人病理特征以及预后关联分析
  •     3.2 胃癌细胞系筛选
  •     3.3 胃癌细胞系敲减PLAU基因的表达鉴定
  •     3.4 PLAU基因对胃癌细胞增殖能力的影响
  •     3.5 PLAU基因促进了胃癌细胞的迁移能力
  •     3.6 PLAU基因促进了胃癌细胞的侵袭能力
  •   4 讨论
  •   5 结论
  • 本研究创新性自我评价
  • 参考文献
  • 综述
  •   参考文献
  • 攻读学位期间所取得的研究成果
  • 致谢
  • 个人简介
  • 文章来源

    类型: 博士论文

    作者: 王俊

    导师: 王振宁

    关键词: 胃癌,生物信息学,差异表达基因,稳健排序整合,生物学标志物,预后,基因模型,生物学功能

    来源: 中国医科大学

    年度: 2019

    分类: 基础科学,医药卫生科技

    专业: 生物学,肿瘤学,生物医学工程

    单位: 中国医科大学

    分类号: R735.2;Q811.4

    DOI: 10.27652/d.cnki.gzyku.2019.000017

    总页数: 157

    文件大小: 15103K

    下载量: 456

    相关论文文献

    • [1].化工反应热风险模型分析[J]. 浙江化工 2020(06)
    • [2].基于模型与建模的化学学习过程设计[J]. 化学教育 2016(23)
    • [3].传送带模型分析及应用[J]. 中学物理教学参考 2016(18)
    • [4].化学核心素养之“模型认知”能力的测评研究[J]. 化学教学 2017(07)
    • [5].人口的模型分析[J]. 中小企业管理与科技(中旬刊) 2017(01)
    • [6].2019年全国Ⅰ卷第21题模型分析及解法探讨[J]. 物理之友 2020(02)
    • [7].“运动的完成”教学设计[J]. 中学生物教学 2017(02)
    • [8].对电解模型的追问与重构[J]. 中学化学教学参考 2017(05)
    • [9].圆盘模型的拓展分析[J]. 理科考试研究 2017(07)
    • [10].国际市场投资心理研究——基于函数GARCH-M模型的视角[J]. 智富时代 2017(06)
    • [11].两类传送带模型分析[J]. 新课程(下) 2017(06)
    • [12].新知客[J]. 视野 2017(18)
    • [13].关于校园足球的文献综述[J]. 知识文库 2017(08)
    • [14].基于多源流模型分析我国网约车政策体系构建[J]. 运输经理世界 2019(04)
    • [15].历史社会学能化解学科之争吗?——基于西方学术史的结构主题模型分析[J]. 社会学研究 2020(03)
    • [16].“拼多多”的用户增长模型分析[J]. 广西质量监督导报 2020(02)
    • [17].基于SWOT模型分析大数据在市场营销中的应用[J]. 现代商业 2017(08)
    • [18].民间金融组织经营策略的SWOT模型分析[J]. 科学经济社会 2011(01)
    • [19].我国零售数字化能力模型分析[J]. 商业经济研究 2020(09)
    • [20].考虑强度退化的非线性累积损伤模型分析[J]. 机械强度 2020(03)
    • [21].汽车零部件的采购成本模型分析[J]. 时代汽车 2020(12)
    • [22].南湾湖风景区旅游业发展的SWOT模型分析[J]. 老区建设 2013(14)
    • [23].我国对外贸易与经济增长的实证研究[J]. 中国商贸 2012(03)
    • [24].支持向量回归应用于电力采购评标模型分析[J]. 电力设备管理 2019(12)
    • [25].市场经济下企业生产与销售的财务模型分析[J]. 纳税 2020(03)
    • [26].基于层次分析法的歌曲演唱成绩评价模型分析[J]. 鞍山师范学院学报 2020(02)
    • [27].汽车售后配件库存需求模型分析及应用[J]. 北京汽车 2020(05)
    • [28].平衡与融合:少数民族社会幸福感的模型分析[J]. 贵州民族研究 2019(07)
    • [29].肺结核患者痰液处置结构方程模型分析[J]. 中国公共卫生 2014(06)
    • [30].创新系统中的知识密集型服务业分析[J]. 中国高新技术企业 2008(12)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    跨平台芯片数据整合分析挖掘胃癌潜在关键基因构建预后评估模型及其生物学功能研究
    下载Doc文档

    猜你喜欢