癌症驱动错义突变预测方法的比较分析和性能提升初步研究

癌症驱动错义突变预测方法的比较分析和性能提升初步研究

论文摘要

癌症作为一种人类复杂遗传疾病,一般是由基因组上不断累积的大量突变所导致。在众多突变中,仅有一小部分突变对于癌症的发生发展起到关键作用,这些突变被称为驱动突变。驱动突变的发生会显著改变正常细胞的分子运行系统,并且刺激肿瘤细胞的生长。由于癌症基因组的不稳定性,通常驱动突变的发生会伴随着大量的乘客突变,这些乘客突变一般不会参与癌症的发生发展以及治疗等过程。考虑到驱动突变是作为癌症的诊断和预后的分子标志,并且是癌症相关药物的研发或者作用的靶标,所以从癌症基因组上众多的突变中识别出驱动突变是非常重要的。错义突变是基因组上数量最多的一种突变,目前已有多种策略用于预测癌症驱动错义突变。第一种策略是通过传统生物学实验方法鉴定驱动突变,但是比较耗时耗力,难以处理和挖掘众多测序项目产生的海量突变数据。第二种策略是通过统计学方法发现驱动突变,但是需要较大数量级的癌症样本,一般难以获取到。最后一种策略是基于序列位点保守性,蛋白质结构与功能等特征开发相关算法,预测对癌症发生发展有功能影响的驱动突变。目前已经有很多算法用于预测癌症驱动错义突变,这些预测算法有着不同的设计特点。已有的关于癌症驱动错义突变预测算法评估性研究工作指出不同类别预测算法存在着预测偏向性问题,并提出了集成不同预测工具的解决方案,但是没有对造成不同预测工具预测偏向性的原因进行深层次地分析。通过标准测试集(癌症相关、有代表性、非冗余)上的实验结果,本文参照模型的设计方法系统地对不同类别的突变预测工具的预测性能进行了评估和分析。根据评估结果,构建了基于高质量负样本的癌症驱动错义突变预测模型。本文的主要工作如下。1.分析比较了现有错义驱动突变预测工具,在多套标准测试集的预测结果表明,癌症特异性突变预测工具比广谱性疾病突变预测工具对负样本预测性能较差。本文共获取34种错义驱动突变预测工具(包括5种保守性分数预测方法),基于6套标准测试集对这些突变预测工具的预测性能进行了比较分析。根据对癌症特异性突变预测工具和广谱性疾病突变预测工具的评估,癌症特异性突变预测工具相比广谱性疾病突变预测工具表现了较低的综合预测能力,主要原因是其对负样本的预测能力较差,有待提升。2.提出了一种基于高质量负样本数据集的驱动错义突变预测方法,建立了驱动错义突变预测模型CMMPred(Cancer Missense Mutation Predictor)。训练集的正样本和负样本分别来源于COSMIC和dbCPM数据库。借助CRAVAT工具,本文为所有样本编码生成85维特征,并基于XGBoost算法建立了CMMpred模型。在独立测试集上,CMMPred的AUC、Sensitivity和Specificity分别为0.77、0.75和0.66,比紧随其后的PolyPhen2工具在AUC上高出7个百分点,表现了比其他所有工具更好的综合预测能力。实验结果说明经过人工注释的高质量乘客突变有效提升了癌症驱动错义突变预测性能。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 癌症生物信息学
  •     1.1.1 癌症简介
  •     1.1.2 生物信息学的应用
  •   1.2 癌症与基因组突变
  •     1.2.1 基因组突变类型
  •     1.2.2 癌症驱动错义突变
  •   1.3 驱动错义突变预测方法研究现状
  •   1.4 本文主要研究内容以及创新点
  •   1.5 本文组织结构
  • 第二章 癌症驱动错义突变预测工具的评估
  •   2.1 引言
  •   2.2 实验方法与材料
  •     2.2.1 预测工具获取
  •     2.2.2 标准测试集获取
  •     2.2.3 预测结果获取
  •     2.2.4 预测效果评估指标
  •   2.3 实验结果与讨论
  •     2.3.1 驱动错义突变预测工具设计方法介绍
  •     2.3.2 癌症特异性与广谱性疾病突变预测工具性能比较分析
  •     2.3.3 基于综合性特征与保守性特征的突变预测工具性能比较分析
  •     2.3.4 基于集成学习器与个体学习器的突变预测工具性能比较分析
  •     2.3.5 生殖细胞突变和体细胞突变数据的预测性能比较分析
  •   2.4 本章小结
  • 第三章 高质量乘客突变提升癌症驱动突变预测效果
  •   3.1 引言
  •   3.2 实验方法与材料
  •     3.2.1 数据收集
  •     3.2.2 特征编码
  •     3.2.3 模型构建
  •   3.3 实验结果与分析
  •     3.3.1 高质量癌症乘客突变生物学特征分析
  •     3.3.2 基于高质量癌症乘客突变数据的预测模型构建
  •     3.3.3 模型参数优化以及分类器比较
  •     3.3.4 与癌症特异性突变预测工具的性能比较
  •     3.3.5 与广谱性疾病突变预测工具的性能比较
  •   3.4 本章小结
  • 第四章 总结与展望
  •   4.1 全文工作总结
  •   4.2 未来工作展望
  • 参考文献
  • 附录
  • 致谢
  • 在读期间发表的学术论文与取得的其他研究成果
  • 文章来源

    类型: 硕士论文

    作者: 孙海洋

    导师: 夏俊峰

    关键词: 癌症,驱动突变,乘客突变,错义突变,机器学习

    来源: 安徽大学

    年度: 2019

    分类: 基础科学,医药卫生科技

    专业: 生物学,肿瘤学

    单位: 安徽大学

    分类号: R73;Q811.4

    总页数: 59

    文件大小: 4740K

    下载量: 44

    相关论文文献

    • [1].MDR3基因错义突变与妊娠肝内胆汁淤积症相关性[J]. 中国妇幼保健 2010(19)
    • [2].DACT1错义突变与先天性心脏病易感性的相关性研究[J]. 中国循证儿科杂志 2019(02)
    • [3].白细胞介素-13基因错义突变rs20541C/T多态性在广西人群中的分布[J]. 中国免疫学杂志 2017(11)
    • [4].高通量测序技术在先天性上睑下垂家系致病基因检测中的应用价值[J]. 陕西医学杂志 2020(02)
    • [5].TGFBR3错义突变与先天性心脏病遗传关联性研究[J]. 中国循证儿科杂志 2019(04)
    • [6].SEMA3C/SEMA3D基因错义突变对蛋白稳定性和受体亲合力的影响[J]. 现代生物医学进展 2015(15)
    • [7].人GJB2基因错义突变表达载体构建及鉴定[J]. 中国听力语言康复科学杂志 2008(04)
    • [8].GGH基因多态性研究及一个新的错义突变T191G的发现[J]. 中国肿瘤临床 2012(04)
    • [9].BGC823中ND5基因突变对其蛋白影响的生物信息预测[J]. 安徽医科大学学报 2019(01)
    • [10].ABCB6基因在一常染色体显性遗传脉络膜缺损家系中的突变筛查(英文)[J]. 国际眼科杂志 2014(12)
    • [11].323例广西人群Nogo基因错义突变rs117465650C/T多态性研究[J]. 现代预防医学 2017(16)
    • [12].中国人Rhnull表型的分子遗传学研究:RhAG基因上1个新错义突变的鉴定[J]. 中国输血杂志 2010(S1)
    • [13].中国X连锁无丙种球蛋白血症40例基因型表型相关性分析[J]. 中国循证儿科杂志 2012(01)
    • [14].白念珠菌14-α脱甲基酶K143Q氨基酸置换与氟康唑耐药形成的相关性研究[J]. 检验医学 2014(07)
    • [15].凝血因子Ⅹ基因复合杂合错义突变Gla26Lys和Ser425Pro导致因子Ⅹ缺陷症[J]. 南京医科大学学报(自然科学版) 2009(02)

    标签:;  ;  ;  ;  ;  

    癌症驱动错义突变预测方法的比较分析和性能提升初步研究
    下载Doc文档

    猜你喜欢