基于Illumina平台RNA测序数据集的转录组拼接算法设计

基于Illumina平台RNA测序数据集的转录组拼接算法设计

论文摘要

随着基因组测序技术的不断发展,人们对基因组测序问题有了更深的了解。基因组测序是通过使用测序平台对某物种的基因组分段进行测序,之后将这些测序片段进行正确的拼接,从而得到该物种完整的基因组序列信息,进而对该物种的基因组进行序列分析和功能预测。转录组的读序拼接问题作为基因组测序中的一个重要问题,通过设计算法对物种的RNA读序进行拼接,从而得到该物种完整的转录组序列信息。转录组读序拼接问题的研究对构建人类完整转录组以及对人类遗传变异相关疾病的预测有着重大意义,因此,设计转录组拼接算法势在必行。转录组拼接算法可以分为两大类,分别是基于参考基因组的转录组拼接算法和从头开始的转录组拼接算法。由于基于参考基因组的转录组拼接算法要求待拼接的物种具有被完整测序的基因组序列,因此该方法的适用性不是很广。为了适用于缺少参考基因组的物种,本文设计了从头开始的转录组拼接算法,命名为SS-Assembler 算法。SS-Assembler算法所用的数据集是Illumina公司第二代测序技术RNA高通量测序数据集,在存储数据时用到的数据结构是双重哈希表,在实现算法时用到的编程语言是Python。本算法的创新点是在存储k-mer时,抛弃了传统的De Bruijin图,而是使用双重哈希表将k-mer以“键对”的形式进行存储,这样大大节省了算法的运行时间,并提高了算法的精确度。经测试,本文设计的算法在精确度和时间复杂度方面的表现都优于已有的转录组拼接算法,这对推动转录组拼接问题的解决有着重要的学术价值。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 研究背景
  •     1.1.1 生物信息学
  •     1.1.2 基因表达和转录组
  •   1.2 研究现状
  •     1.2.1 测序技术的发展
  •     1.2.2 RNA-Seq技术
  •     1.2.3 拼接问题
  •   1.3 工具介绍
  •     1.3.1 Python语言
  •     1.3.2 Xshell和Xftp
  •   1.4 本文主要工作
  • 第二章 拼接算法概述
  •   2.1 基因组拼接算法
  •     2.1.1 OLC策略
  •     2.1.2 贪心策略
  •     2.1.3 De Bruijn图策略
  •   2.2 转录组拼接算法
  •     2.2.1 基于参考基因组的转录组拼接算法
  •     2.2.2 从头开始的转录组拼接算法
  • 第三章 数据下载与预处理
  •   3.1 SRA数据库
  •   3.2 FASTQ格式数据
  •   3.3 数据预处理
  • 第四章 从头开始的转录组拼接算法-SS-Assembler算法
  •   4.1 算法思想
  •   4.2 算法步骤
  •     4.2.1 构造双重哈希表
  •     4.2.2 寻找种子k-mer
  •     4.2.3 拼接叠连群
  •     4.2.4 拼接过剩群
  •     4.2.5 构造剪接图
  •     4.2.6 寻找转录组
  • 第五章 SS-Assembler算法的评估
  •   5.1 不同参数的设置
  •     5.1.1 评估标准
  •     5.1.2 各个算法不同k值的设置
  •     5.1.3 实验环境介绍
  •   5.2 SS-Assembler算法与其他算法的比较情况
  •     5.2.1 精确度比较
  •     5.2.2 拼接所得的转录本的数量比较
  •     5.2.3 算法运行时间比较
  •   5.3 本算法的优势与不足
  • 第六章 总结与展望
  • 参考文献
  • 攻读硕士研究生学位期间论文发表及参与项目情况
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 武思文

    导师: 张少强

    关键词: 转录组拼接,第二代测序技术,拼接算法

    来源: 天津师范大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,生物学,计算机软件及计算机应用

    单位: 天津师范大学

    分类号: Q811.4;TP301.6

    总页数: 54

    文件大小: 5280K

    下载量: 50

    相关论文文献

    • [1].一种应用于上位机的整字节拼接算法[J]. 信息通信 2016(11)
    • [2].一种数码迷彩的拼接算法[J]. 光学技术 2017(04)
    • [3].面向新一代基因测序数据的拼接算法综述[J]. 计算机应用研究 2016(09)
    • [4].面向新一代基因组测序技术的序列拼接算法[J]. 生物信息学 2010(03)
    • [5].遥感卫星条带影像自适应拼接算法研究[J]. 测绘通报 2012(S1)
    • [6].数据拼接算法的研究[J]. 黑龙江科学 2011(01)
    • [7].改进的自适应旋转图像的拼接算法[J]. 舰船电子工程 2017(06)
    • [8].结合地理参数的航拍视频实时拼接算法[J]. 应用科学学报 2012(02)
    • [9].基于最优接缝线的加权融合影像拼接算法[J]. 测绘工程 2020(06)
    • [10].局部特征及视觉一致性的柱面全景拼接算法[J]. 中国图象图形学报 2016(11)
    • [11].遥感影像并行分割的无缝拼接算法[J]. 测绘科学 2017(04)
    • [12].多视无人机影像环形拼接算法[J]. 北京建筑大学学报 2017(02)
    • [13].对基因组拼接算法的深入分析和探讨[J]. 电脑知识与技术 2015(33)
    • [14].一种基于文字特征的碎纸片拼接算法设计[J]. 实验室研究与探索 2016(11)
    • [15].面向防灾的无人机影像快速拼接算法分析[J]. 数码世界 2020(07)
    • [16].基于无向图的线要素拼接算法[J]. 测绘科学 2014(03)
    • [17].基于图像校正与相位相关的视频拼接算法[J]. 电视技术 2013(17)
    • [18].高通量测序中序列拼接算法的研究进展[J]. 计算机科学 2019(05)
    • [19].点邻域信息加权的点云快速拼接算法[J]. 计算机辅助设计与图形学学报 2019(07)
    • [20].残缺碎纸片半自动可视化拼接算法[J]. 内江师范学院学报 2015(06)
    • [21].基于文档文字特征的碎纸机碎片拼接算法[J]. 计算机应用 2014(S2)
    • [22].一种新的激光成像数据多视粗拼接算法[J]. 计算机工程与科学 2013(12)
    • [23].基于特征相关的图像配准与拼接算法研究[J]. 黑龙江科技信息 2013(20)
    • [24].面向自由视角的多片三维扫描数据无约束拼接算法[J]. 中国机械工程 2009(07)
    • [25].基于改进随机抽样一致算法的视频拼接算法[J]. 工矿自动化 2017(08)
    • [26].航拍视频的多向条带拼接算法[J]. 航空学报 2012(11)
    • [27].基于无人机航拍图像的融合与拼接算法研究[J]. 内蒙古工业大学学报(自然科学版) 2020(04)
    • [28].多摄像机下动态前景分离的视频拼接算法[J]. 北京工业大学学报 2012(07)
    • [29].一种宽视野图像快速拼接算法[J]. 信息通信 2020(06)
    • [30].基于影像处理的子孔径拼接算法研究[J]. 影像科学与光化学 2016(01)

    标签:;  ;  ;  

    基于Illumina平台RNA测序数据集的转录组拼接算法设计
    下载Doc文档

    猜你喜欢