高通量基因组数据的无损压缩方法研究

高通量基因组数据的无损压缩方法研究

论文摘要

随着高通量基因组测序技术的迅猛发展及测序成本的巨幅下降,基因组测序数据及其拼接而成的基因组序列数据呈指数级增长。如何有效存储和传输这些海量高通量基因组数据,是医学、生物信息学领域迫切需要解决的问题。基因组数据压缩技术成为解决该问题的重要途径,通过高效的压缩方式,减少基因组数据的存储空间和传输成本。然而,受到基因组数据自身的高度复杂性、测序数据的高通量性以及现有基因组测序技术的局限性等因素的影响,为如何有效的、快速压缩基因组数据带来了更加巨大的挑战。本文围绕着基因组序列数据和基因组测序数据的无损压缩方法开展研究,主要贡献包括以下几方面:第一,针对目前基因组序列数据无损压缩方法利用固定上下文阶数进行碱基概率预测的不足,深入分析挖掘了一阶信息熵与基因组序列压缩结果之间的相关性,提出了基于信息熵的基因组序列数据无损压缩方法。通过计算基因组序列一阶信息熵,动态确定基因组序列压缩有限上下文模型参数。使用现有的5408条细菌基因组序列数据进行无损压缩实验,验证了方法的有效性。第二,现有基因组序列数据无损压缩方法在预测碱基概率时只用到了部分碱基信息,导致预测效果不理想。针对此问题,深入研究了基于深度学习基因组序列数据的无损压缩方法。首先,使用卷积神经网络识别基因组序列数据中的局部特征,进而使用循环神经网络识别基因组序列数据中的全局特征;随后,全面整合局部特征和全局特征信息,建立预测碱基概率模型,以此进行基因组序列数据压缩;最后,通过真实的人类线粒体基因组序列数据压缩实验,验证了方法的有效性。第三,针对由于基因组测序数据的测序错误导致其错误分桶的问题,提出了基于序列纠错的基因组测序数据无损压缩方法。通过分析纠正基因组测序数据当中的碱基错误,使得测序短片段能够分配到更合理的桶中,增加了桶内数据冗余密度,从而提高了压缩结果。利用真实的五组基因组测序数据进行压缩实验,验证了方法的有效性。第四,现有基因组测序数据分桶压缩方法中仍然使用普通文本压缩方法,缺少基于基因组测序数据特征的无损压缩方法。针对此问题,提出了基于de Bruijn图的基因组测序数据无损压缩方法。在基因组测序数据分桶的基础上,构建了de Bruijn图,将测序短片段序列表示为de Bruijn图中的一条路径,并通过动态构建de Bruijn图的方法,有效避免存储原始de Bruijn图,以此节省存储空间,并获得更优的压缩结果。采用真实的八组基因组测序数据进行压缩实验,验证了方法的有效性。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  •   1.1 课题背景和意义
  •     1.1.1 研究背景
  •     1.1.2 研究的目的与意义
  •   1.2 基因组数据压缩的相关背景知识
  •     1.2.1 高通量因组测序平台
  •     1.2.2 基因组测序数据
  •     1.2.3 基因组序列数据
  •   1.3 研究现状概述
  •     1.3.1 基因组序列数据压缩的研究现状
  •     1.3.2 基因组测序数据压缩的研究现状
  •   1.4 所存在的主要问题
  •   1.5 本文的内容安排
  • 第2章 基于信息熵的基因组序列数据无损压缩方法
  •   2.1 引言
  •   2.2 基于信息熵的基因组序列数据无损压缩算法
  •     2.2.1 算术编码
  •     2.2.2 信息熵的计算分析
  •     2.2.3 信息熵与最优有限上下文之间关系分析
  •   2.3 基于信息熵的基因组序列数据无损压缩实验结果与分析
  •     2.3.1 实验数据描述
  •     2.3.2 基于信息熵的基因组序列数据无损压缩性能分析
  •   2.4 本章小结
  • 第3章 基于深度学习的基因组序列数据无损压缩方法
  •   3.1 引言
  •   3.2 基于神经网络混合模型的基因组序列数据无损压缩算法
  •     3.2.1 卷积神经网络的基因组局部特征识别
  •     3.2.2 循环神经网络的基因组全局特征识别
  •     3.2.3 神经网络混合模型的基因组特征识别
  •   3.3 基于神经网络混合模型的基因组序列数据无损压缩实验结果与分析
  •     3.3.1 实验数据描述与预处理
  •     3.3.2 实验设置
  •     3.3.3 神经网络混合模型模型的训练
  •     3.3.4 基于神经网络混合模型的基因组序列数据无损压缩实验结果
  •     3.3.5 基于神经网络混合模型的基因组序列数据无损压缩方法性能分析
  •   3.4 本章小结
  • 第4章 基于序列纠错的基因组测序数据无损压缩方法
  •   4.1 引言
  •   4.2 基于序列纠错的基因组测序数据无损压缩算法
  •     4.2.1 基因组测序数据序列错误分析
  •     4.2.2 基因组测序错误对压缩的影响
  •     4.2.3 基因组测序数据纠错方法
  •     4.2.4 基因组测序数据的分桶方法
  •     4.2.5 桶内基因组测序数据的压缩方法
  •   4.3 基于序列纠错的基因组测序数据无损压缩实验结果与分析
  •     4.3.1 实验数据描述
  •     4.3.2 基于序列纠错的基因组测序数据无损压缩实验结果
  •     4.3.3 基于序列纠错的基因组测序数据无损压缩性能分析
  •   4.4 本章小结
  • 第5章 基于动态de Bruijn图的基因组测序数据无损压缩方法
  •   5.1 引言
  •   5.2 基于动态de Bruijn图的基因组测序数据压缩的算法
  •     5.2.1 基因组测序数据重排序对提高压缩效果的理论分析
  •     5.2.2 基因组测序数据的分桶
  •     5.2.3 动态de Bruijn图的构建
  •     5.2.4 桶内基因组测序数据的压缩
  •     5.2.5 基因组测序数据的压缩结果注释
  •     5.2.6 基因组测序数据的解压缩
  •   5.3 基于动态de Bruijn图的基因组测序数据无损压缩实验结果与分析
  •     5.3.1 时间和空间复杂度分析
  •     5.3.2 实验数据描述
  •     5.3.3 基于动态de Bruijn图的基因组测序数据无损压缩实验结果
  •     5.3.4 基于动态de Bruijn图的基因组测序数据无损压缩性能分析
  •   5.4 本章小结
  • 结论
  • 参考文献
  • 攻读博士学位期间发表的论文及其他成果
  • 致谢
  • 个人简历
  • 文章来源

    类型: 博士论文

    作者: 王荣杰

    导师: 臧天仪

    关键词: 基因组数据,无损压缩,信息熵,深度学习,测序纠错

    来源: 哈尔滨工业大学

    年度: 2019

    分类: 基础科学

    专业: 生物学,生物学

    单位: 哈尔滨工业大学

    分类号: Q75

    DOI: 10.27061/d.cnki.ghgdu.2019.000093

    总页数: 123

    文件大小: 6006K

    下载量: 101

    相关论文文献

    • [1].哈夫曼编码在图像无损压缩中的应用[J]. 计算机工程与科学 2019(S1)
    • [2].大数据时代图片无损压缩技术在摄影本科中的教学中的应用[J]. 同行 2016(13)
    • [3].高速无损压缩的FPGA实现方法研究[J]. 电视技术 2012(21)
    • [4].无损压缩文件的参数特性分析[J]. 燕山大学学报 2017(01)
    • [5].无损压缩技术和宽频带换能器[J]. 实用影音技术 2008(01)
    • [6].机械振动无线传感网络数据分块无损压缩方法[J]. 仪器仪表学报 2015(07)
    • [7].医学图像的无损压缩[J]. 中国医疗设备 2008(09)
    • [8].基于静态串表的图像无损压缩编码方法[J]. 计算机应用 2011(06)
    • [9].基于L_∞最小搜索和陪集码的高光谱图像无损及近无损压缩[J]. 电子学报 2011(07)
    • [10].无损压缩编码的关联性框架模型[J]. 计算机与数字工程 2009(09)
    • [11].基于整数小波变换的遥感超光谱图像无损压缩[J]. 软件 2012(02)
    • [12].给耳朵来场“盛宴”,享受高品质音乐[J]. 电脑爱好者 2010(21)
    • [13].基于分区预测差分编码的遥感星上数据无损压缩[J]. 测绘科学 2010(01)
    • [14].图像无损压缩技术分析与性能比较[J]. 计算机与网络 2010(06)
    • [15].高性能的图像无损压缩知识产权核设计[J]. 西安交通大学学报 2020(05)
    • [16].卫星遥感图像无损压缩技术改进方法[J]. 航天器工程 2018(01)
    • [17].分布式监测系统缓变信号无损压缩方法研究[J]. 计算机测量与控制 2014(03)
    • [18].水声通信数据无损压缩方法的对比研究[J]. 现代电子技术 2012(09)
    • [19].JPEG2000标准中无损压缩部分的FPGA实现[J]. 信息化研究 2009(07)
    • [20].基于FPGA实现的固定特征长度图像无损压缩[J]. 工业控制计算机 2016(12)
    • [21].测井数据的实时无损压缩研究和硬件实现[J]. 电子技术 2011(03)
    • [22].基于工业相机的数据无损压缩技术[J]. 河南科技 2018(22)
    • [23].无损压缩技术在运载火箭噪声遥测中的应用[J]. 遥测遥控 2018(01)
    • [24].基于VC++的无损压缩技术实现[J]. 网络安全技术与应用 2019(06)
    • [25].H.26X视频数学无损压缩技术在电影数字母版存档工程中的应用研究[J]. 现代电影技术 2018(05)
    • [26].一种面向规则建筑物的OBJ文件无损压缩方法[J]. 测绘通报 2018(10)
    • [27].低熵图像序列无损压缩[J]. 计算机科学 2014(12)
    • [28].一种基于TCQ的图像准无损压缩方法[J]. 硅谷 2013(06)
    • [29].用于图像近无损压缩的自适应平滑算法研究[J]. 中国图象图形学报 2008(06)
    • [30].一种基于整形小波变换的音频无损压缩编码、解码方法[J]. 电脑与电信 2014(08)

    标签:;  ;  ;  ;  ;  

    高通量基因组数据的无损压缩方法研究
    下载Doc文档

    猜你喜欢