基于特征挖掘的基因组倒位变异检测研究

基于特征挖掘的基因组倒位变异检测研究

论文摘要

二代测序技术(NGS)日渐成熟推动了基因组结构变异(SVs)检测技术的发展,而倒位变异作为基因组结构变异之一,研究对其进行检测的方法,在生物遗传多样性及医学研究中具有重要意义。通常用来检测倒位变异的策略归结为三种:读对技术、分裂比对策略与序列拼接,常规策略由于倒位变异固有复杂性而受到局限。因此,为了进一步解决现阶段策略受限、检测精确度和召回率不足等问题,本文创新性提出深度挖掘倒位变异的伴随特征,通过支持向量机(SVM)和卷积神经网络(CNN)的支持分别在低覆盖度与高覆盖度测序数据上实现更精准的倒位变异检测,主要研究内容如下:(1)倒位变异发生时,产生独特的伴随特征。例如,双末端一对序列在参考基因中的映射方向相同、单端映射参考基因失败、软切片段发生、插入片段长度异常、序列中碱基映射状况不良和序列映射质量低下等等均为本文着重研究的倒位变异物理化特征。具体地,将物理化特征经特征表达后生成规范化数值特征,由主成分分析法(PCA)分析并验证提取的数值化特征对倒位变异检测的有效性。(2)本文提出一种特征挖掘与SVM分类器相结合,在低覆盖度测序数据下实现倒位变异检测的方法LCovSVM。LCovSVM首先收集常规倒位检测工具的结果作为候选倒位变异集,为了进一步强化特征性能,在提取数值特征后由卡方检验与经验相结合进行特征选择,所有候选变异区间均提取经选择的特征值。为解决基准变异库中被验证的倒位变异数量严重不足的问题,本文由仿真数据特征训练SVM分类器实现在真实样本上的倒位变异检测,特征选择与仿真数据训练的有效性均通过了十折交叉验证。(3)为了避免覆盖度与常规检测工具的局限性,本文创新性提出直接从真实高覆盖度样本的双末端数据而不是常规工具检测的倒位候选变异集中提取倒位变异特征,不再依赖常规检测工具,将特征转换图片后基于CNN模型检测倒位变异的方法HCovCNN。HCovCNN首先根据序列映射位置和方向初步筛选异常序列集,由此生成候选倒位变异集并评分,对得分超过阈值的候选倒位变异生成特征图片作为CNN的输入。本文提出一种数据集扩增与平衡策略解决基准变异库中被验证倒位变异数量不足与不平衡问题。本文构建循环交叉验证以确保所有样本作为未知变异测试集,在每一轮验证中将大部分样本及其基准变异与否作为训练集建立CNN分类模型并由剩余样本作为测试集,测试集中预测为正的候选变异构成最终倒位变异集,由此实现倒位变异检测。

论文目录

  • 摘要
  • abstract
  • 第一章 绪论
  •   1.1 课题背景
  •   1.2 课题目的和意义
  •   1.3 国内外研究现状
  •     1.3.1 读对技术
  •     1.3.2 映射深度策略
  •     1.3.3 分裂比对方法
  •     1.3.4 序列拼接
  •     1.3.5 主流检测工具
  •   1.4 论文研究内容
  •   1.5 论文结构安排
  • 第二章 相关数据及工具
  •   2.1 引言
  •   2.2 数据格式
  •     2.2.1 FASTA格式
  •     2.2.2 FASTQ格式
  •     2.2.3 BAM格式
  •     2.2.4 VCF格式
  •   2.3 常规工具的使用
  •     2.3.1 SimulateSeq的使用
  •     2.3.2 Samtools的使用
  •     2.3.3 Pindel的使用
  •     2.3.4 Lumpy的使用
  •     2.3.5 Delly的使用
  •   2.4 二代测序数据的覆盖深度
  •   2.5 本章小结
  • 第三章 倒位变异特征
  •   3.1 引言
  •   3.2 物理化特征
  •     3.2.1 映射方向
  •     3.2.2 单端映射失败
  •     3.2.3 软切序列
  •     3.2.4 插入片段长度
  •     3.2.5 其他特征
  •   3.3 特征表达
  •   3.4 特征分析
  •   3.5 本章小结
  • 第四章 基于低覆盖度测序数据的倒位变异检测研究
  •   4.1 引言
  •   4.2 实验数据
  •     4.2.1 获取仿真数据
  •     4.2.2 获取真实数据
  •   4.3 总体流程
  •   4.4 特征选择
  •   4.5 不同因子对分类器的影响
  •     4.5.1 SVM参数
  •     4.5.2 翻转频率
  •     4.5.3 翻转长度
  •   4.6 LCovSVM结果分析
  •   4.7 本章小结
  • 第五章 基于高覆盖度测序数据的倒位变异检测研究
  •   5.1 引言
  •   5.2 实验数据
  •   5.3 总体流程
  •     5.3.1 数据预处理
  •     5.3.2 图片生成
  •     5.3.3 数据集的扩增与平衡
  •     5.3.4 CNN模型判定
  •   5.4 HCovCNN结果分析
  •   5.5 本章小结
  • 第六章 总结与展望
  •   6.1 总结
  •   6.2 展望
  • 参考文献
  • 致谢
  • 研究成果及发表的学术论文
  •   发表及已接受的论文
  •   成果及专利
  • 作者和导师简介
  • 附件
  • 文章来源

    类型: 硕士论文

    作者: 吴钟佳

    导师: 高敬阳

    关键词: 二代测序技术,倒位变异,特征,支持向量机,卷积神经网络

    来源: 北京化工大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 北京化工大学

    基金: 北京市自然科学基金

    分类号: Q811.4;TP18

    DOI: 10.26939/d.cnki.gbhgu.2019.000847

    总页数: 73

    文件大小: 6090K

    下载量: 11

    相关论文文献

    • [1].血友病A患者内含子22和内含子1倒位的检测及其意义[J]. 临床血液学杂志 2012(05)
    • [2].带有倒位变异的差分进化算法[J]. 商洛学院学报 2011(02)
    • [3].长距离PCR与倒位PCR对FⅧ内含子22倒位检测的比较[J]. 临床血液学杂志 2014(02)
    • [4].倒位PCR法检测血友病A FⅧ基因内含子22/1倒位[J]. 临床输血与检验 2010(03)
    • [5].血友病A的基因诊断研究[J]. 中国产前诊断杂志(电子版) 2010(02)
    • [6].FⅧ基因内含子1倒位及X染色体非随机灭活导致的女性血友病A1例[J]. 诊断学理论与实践 2008(03)
    • [7].新发8p重复伴缺失综合征患儿细胞分子遗传学研究[J]. 临床儿科杂志 2020(09)
    • [8].重型血友病A患者及其携带者直接基因诊断结果分析[J]. 山东医药 2012(07)
    • [9].倒位埋伏阻生上中切牙的临床矫治探索[J]. 国际口腔医学杂志 2011(05)
    • [10].75例血友病A患者内含子22及1基因倒位情况分析[J]. 贵州医科大学学报 2016(07)
    • [11].生育障碍患者中染色体倒位核型的特点及临床分析[J]. 中国性科学 2014(10)
    • [12].产前诊断染色体倒位的临床效应研究[J]. 临床医药文献电子杂志 2020(39)
    • [13].贵州地区血友病A基因诊断[J]. 临床血液学杂志 2016(05)
    • [14].被子植物叶绿体基因组的结构变异研究进展[J]. 西北植物学报 2012(06)
    • [15].兴义维蚋多线染色体研究(英文)[J]. 昆虫学报 2012(08)
    • [16].染色体结构异常携带者的产前诊断与遗传研究[J]. 中国妇幼保健 2014(24)
    • [17].甲型血友病的基因诊断研究[J]. 临床荟萃 2014(04)
    • [18].克氏综合征同时伴染色体9号倒位和大Y一例[J]. 中国优生与遗传杂志 2014(06)
    • [19].血友病基因诊断的研究[J]. 中国小儿血液与肿瘤杂志 2016(05)
    • [20].人类基因组结构变异[J]. 遗传 2009(08)
    • [21].倒位变异的人工蜂群算法求解旅行商问题[J]. 大众科技 2020(07)
    • [22].无先证者血友病A家系的基因诊断[J]. 诊断学理论与实践 2016(02)
    • [23].基于改进的DS-BPSO算法求解3-SAT问题[J]. 软件导刊 2010(07)
    • [24].一例山羊难产手术体会[J]. 农村养殖技术 2009(24)
    • [25].码位倒读规则的MATLAB实现[J]. 重庆文理学院学报(自然科学版) 2008(05)
    • [26].天津地区523对不良孕产史夫妇染色体核型分析[J]. 中国妇幼保健 2017(21)
    • [27].求解车辆路径问题的人工蜂群算法[J]. 计算机工程与科学 2014(06)
    • [28].节育环另类异位的探讨[J]. 中国妇幼保健 2013(04)
    • [29].黔蚋唾腺多线染色体研究[J]. 中国寄生虫学与寄生虫病杂志 2012(05)
    • [30].新法放置活性圆宫IUD观察分析[J]. 中国社区医师(医学专业) 2011(04)

    标签:;  ;  ;  ;  ;  

    基于特征挖掘的基因组倒位变异检测研究
    下载Doc文档

    猜你喜欢