PacBio测序模拟系统PaSS

PacBio测序模拟系统PaSS

论文摘要

背景:近几年,三代测序技术如PacBio测序技术正在迅速发展。PacBio测序技术比二代测序技术产生更长的序列读长,并且有其独特的测序错误特征。针对PacBio测序技术开发的生物信息学工具和算法也随之涌现,如比对软件、序列拼接软件、结构变异分析软件等。模拟测序数据可以帮助研究者评估同一用途的不同软件和流程,为程序选择特定的参数等,是性价比高且节省时间的方法。此外,PacBio测序平台发展迅速,已有了多代测序仪,因此可以有效模拟不同代测序仪的测序数据特征的测序模拟系统对于评估和促进基于PacBio测序数据分析的新生物信息学工具的开发至关重要。结果:我们开发了一个针对PacBio测序平台的测序模拟系统PaSS。它能从真实的PacBio测序数据中估计出序列模式和错误模型。PaSS的模型中除了multi-pass的特征及序列长度分布信息,我们还包含了与序列上下文有关的测序错误模型,并用一个预设的高错误率来模拟那些因错误率高而比对不上参考基因组的序列区域。我们将PaSS与现有的PacBio平台的测序模拟工具如PBSIM、LongISLND和NPBSS进行了全面的比较和评估,并采用了K-S检验对结果进行评估,结果表明PaSS在多个方面都表现更好。最后,我们还采用了间接比较的方法,从序列拼接的角度也表明PaSS模拟的序列与真实测序数据最接近。结论:PaSS是一个快速有效的PacBio测序模拟工具,它将有助于PacBio测序数据的生物信息分析工具的评估和开发,可以加速PacBio测序的应用发展。

论文目录

  • 英文缩写词表
  • 摘要
  • abstract
  • 第一章 背景
  •   1.1 测序技术的发展及主要特点
  •   1.2 测序序列模拟工具的作用及应用
  •   1.3 现有的PacBio测序序列模拟工具
  •   1.4 并行和线程安全
  •   1.5 本章小结
  • 第二章 方法
  •   2.1 序列长度与multi-pass特点
  •   2.2 三种常用长读长序列比对软件的比较
  •     2.2.1 模拟数据集
  •     2.2.2 比对位置准确性比较
  •     2.2.3 比对准确度比较
  •     2.2.4 序列分类的比较
  •     2.2.5 软件比对速度比较
  •   2.3 高错误率的比对不上的部分的模拟
  •     2.3.1 确定不能比对上的部分
  •     2.3.2 确定不能比对上部分的错误率
  •   2.4 比对上的部分序列区域的错误模型
  •     2.4.1 与序列上下文有关的测序错误模型
  •     2.4.2 错误长度的分布
  •     2.4.3 不同错误类型的偏差
  •   2.5 质量值的模拟
  •   2.6 错误率与相对位置的偏差
  •   2.7 错误率在序列与序列间的差异
  •   2.8 多线程运行
  •   2.9 PaSS模拟流程
  •   2.10 测序数据集及比较方法
  •   2.11 K-S检验
  •   2.12 本章小结
  • 第三章 结果
  •   3.1 长度分布与multi-pass特征的比较
  •     3.1.1 multi-pass的模拟
  •     3.1.2 读序列长度(read length)分布比较
  •   3.2 错误长度的分布比较
  •   3.3 K-S检验结果
  •   3.4 准确度比较
  •   3.5 错误率与位置相关的偏差
  •   3.6 序列与序列间错误率的比较
  •   3.7 速度比较
  •   3.8 用拼接结果评估模拟效果
  •   3.9 本章小结
  • 第四章 讨论
  •   4.1 比对结果带来的偏差
  •   4.2 长度分布的模拟
  •   4.3 关于序列与序列间的差异的模拟
  •   4.4 错误率与相对位置的关系
  •   4.5 局限性
  •   4.6 本章小结
  •   4.7 总结
  • 参考文献
  • 致谢
  • 攻读硕士学位期间已发表或录用的文章
  • 文章来源

    类型: 硕士论文

    作者: 张文敏

    导师: 韦朝春

    关键词: 三代测序技术,测序,测序模拟工具,测序错误模型

    来源: 上海交通大学

    年度: 2019

    分类: 基础科学

    专业: 生物学

    单位: 上海交通大学

    分类号: Q811.4

    DOI: 10.27307/d.cnki.gsjtu.2019.002812

    总页数: 81

    文件大小: 4205K

    下载量: 9

    相关论文文献

    • [1].法医学二代测序标准化进展与展望[J]. 中国法医学杂志 2020(01)
    • [2].单细胞测序研究进展及其在口腔医学中的应用[J]. 口腔医学 2020(04)
    • [3].基于高通量测序的柚木边材转录组分析[J]. 分子植物育种 2020(13)
    • [4].单细胞测序的技术概述[J]. 中国医药导刊 2020(07)
    • [5].单细胞测序数据的智能解析与数据库[J]. 发育医学电子杂志 2020(01)
    • [6].高通量测序及其在分子诊断领域的应用[J]. 科技与创新 2020(12)
    • [7].基于混池测序的犬恐惧行为相关变异位点的初步筛选[J]. 畜牧与兽医 2020(10)
    • [8].基因组二代测序数据与三代测序数据的混合校正和组装[J]. 基因组学与应用生物学 2018(04)
    • [9].涉及人体样本高通量测序数据共享与数据库建设中的伦理挑战[J]. 中国医学伦理学 2020(01)
    • [10].我国科学家开发出转录组快速建库新方法 有望助力新型冠状病毒测序[J]. 微循环学杂志 2020(01)
    • [11].宏基因组下一代测序用于病原体检测的现状及展望[J]. 齐齐哈尔医学院学报 2020(03)
    • [12].高通量测序在动物检疫中的应用进展[J]. 食品安全质量检测学报 2017(05)
    • [13].单细胞测序相关技术及其在生物医学研究中的应用[J]. 实用医学杂志 2020(03)
    • [14].基于高通量测序的枣疯病转录组分析[J]. 分子植物育种 2020(11)
    • [15].二代测序临床应用的质量控制[J]. 临床检验杂志 2019(10)
    • [16].2014新一代测序论坛: 从技术到应用[J]. 转化医学杂志 2014(02)
    • [17].谢晓亮院士研发出单细胞测序新技术[J]. 化学分析计量 2013(01)
    • [18].银鲴肝脏转录组测序和功能分析[J]. 基因组学与应用生物学 2020(04)
    • [19].五例白血病全外显子测序结果分析[J]. 实用肿瘤杂志 2020(04)
    • [20].新一代测序[J]. 检察风云 2016(06)
    • [21].高通量测序用于发现严重感染病原体研究进展[J]. 中国病原生物学杂志 2016(09)
    • [22].马铃薯转录组测序研究进展[J]. 现代农业科技 2015(13)
    • [23].新一代测序准备好了吗[J]. IT经理世界 2013(17)
    • [24].全外显子测序在糖尿病中的应用[J]. 自然杂志 2019(06)
    • [25].美、英及我国政府对单细胞测序研究及应用领域的基金资助[J]. 中华医学图书情报杂志 2017(09)
    • [26].高通量测序中拼接问题的研究现状[J]. 山东农业工程学院学报 2016(01)
    • [27].基因组重测序深度的计算[J]. 内蒙古农业大学学报(自然科学版) 2014(03)
    • [28].探索部分测序的基因组对元基因组分类的影响[J]. 基因组学与应用生物学 2015(07)
    • [29].果树高通量测序的最新研究进展[J]. 基因组学与应用生物学 2015(09)
    • [30].测序方法影响小RNA测序结果[J]. 农业生物技术学报 2012(04)

    标签:;  ;  ;  ;  

    PacBio测序模拟系统PaSS
    下载Doc文档

    猜你喜欢