基于Spark的基因组学数据比对算法的并行化研究与比对平台构建

基于Spark的基因组学数据比对算法的并行化研究与比对平台构建

论文摘要

近年来,随着高通量测序技术的出现,极大的推动了生物信息领域的发展,基因组序列比对是生物信息数据分析的关键环节。BLAST(Basic Local Alignment Search Tool)作为应用广泛并且具有较高精度的基因序列局部比对算法,它在保持较高精度的前提下可以相对减少任务运行时间。然而,BLAST在比对海量或者较大数据集的高通量基因数据时存在一定的性能瓶颈,比对效率较低。针对BLAST存在的性能瓶颈问题,本文提出一种基于大数据技术内存计算框架Spark的Spark_BLAST分布式并行方法。该方法基于Spark内存计算的优势,对基因序列进行任务识别、划分、计算等。采用Apache YARN资源调度器完成比对任务调度和资源分配,实现了 BLAST算法的分布式并行计算。本实验通过5节点的Spark集群与单机BLAST实验结果进行对比验证,在不改变比对结果精度的情况下,Spark_BLAST的加速比可达4左右,实验结果表明基于Spark的并行化方法可以大大提高BLAST运算效率,缓解其性能瓶颈问题,为生物信息学领域提供一个高效计算的Spark_BLAST比对方法。同时本课题采用大数据技术Hadoop的HDFS作为基因组数据存储文件系统,解决了海量高通量基因组数据可扩展增量存储问题。另外,设计并开发了基于Web端的简洁构建了便捷的图形化界面操作基因比对平台,为生物信息领域研究人员的基因数据比对分析带了极大便利。

论文目录

  • 摘要
  • Abstract
  • 1 引言
  •   1.1 论文背景及意义
  •     1.1.1 论文来源
  •     1.1.2 课题研究背景
  •     1.1.3 研究意义
  •   1.2 国内外研究现状
  •     1.2.1 基于GPU的BLAST改进方法现状
  •     1.2.2 基于分布式并行计算技术的BLAST改进方法
  •   1.3 论文主要研究内容
  •   1.4 论文组织结构
  • 2 BLAST算法及大数据技术概述
  •   2.1 BLAST算法概述
  •   2.2 基于大数据的分布式存储技术概述
  •   2.3 Hadoop技术概述
  •   2.4 Spark技术概述
  •   2.5 基于大数据技术Spark的BLAST分布式并行计算
  • 3 基于Spark的BLAST算法的并行化实验实现
  •   3.1 实验数据来源
  •   3.2 数据准备
  •   3.3 实验环境
  •     3.3.1 Hadoop集群部署步骤
  •     3.3.2 Spark集群部署步骤
  •     3.3.3 开发环境安装
  •   3.4 单机实验设计
  •   3.5 Spark集群实验
  •   3.6 实验结果对比
  •   3.7 实验结果总结
  • 4 基于Web的基因组学数据比对算法的并行化平台设计与构建
  •   4.1 基于Hadoop的HDFS的分布式存储实现
  •   4.2 基于Spark的基因组比对平台实现
  • 5 结论与展望
  •   5.1 本文工作总结
  •   5.2 本文工作创新点
  •   5.3 未来工作展望
  • 致谢
  • 参考文献
  • 作者简介
  • 文章来源

    类型: 硕士论文

    作者: 刘振羽

    导师: 高静

    关键词: 并行化,序列比对,大数据,生物信息

    来源: 内蒙古农业大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,计算机软件及计算机应用

    单位: 内蒙古农业大学

    基金: 国家自然科学基金项目《蒙古高原反刍家畜基因序列比对分析云计算平台研究及变异关联数据库的研究》(项目编号:61462070)

    分类号: Q811.4;TP311.13

    DOI: 10.27229/d.cnki.gnmnu.2019.000404

    总页数: 48

    文件大小: 4491K

    下载量: 104

    相关论文文献

    • [1].面向过程的任务并行化设计方法[J]. 计算机系统应用 2015(09)
    • [2].“地理计算并行化”专辑导言[J]. 地球信息科学学报 2015(05)
    • [3].“地理计算并行化”专辑征稿[J]. 地球信息科学学报 2014(06)
    • [4].迎接并行化的明天[J]. 软件世界 2009(06)
    • [5].并行化改进遗传算法的FPGA高速实现方法[J]. 信息与电子工程 2012(01)
    • [6].设计结合建造——我国建筑运作模式的“并行化”操作研究[J]. 建筑学报 2019(04)
    • [7].图染色算法的并行化[J]. 电脑编程技巧与维护 2018(03)
    • [8].交通网络微观仿真并行化实现方法[J]. 系统管理学报 2014(04)
    • [9].有限差分法的并行化计算实现[J]. 电脑知识与技术 2008(07)
    • [10].有限差分法的并行化计算实现[J]. 微型电脑应用 2008(05)
    • [11].装箱问题近似算法的并行化研究[J]. 中国科技信息 2009(17)
    • [12].面向场景的人群疏散并行化仿真[J]. 系统仿真学报 2008(18)
    • [13].C形状分析在函数和路径层次上的并行化[J]. 电子技术 2015(08)
    • [14].提升小波并行化处理研究[J]. 价值工程 2011(34)
    • [15].聚类分析的并行化实现技术研究[J]. 电子设计工程 2015(02)
    • [16].太赫兹通信中高速数字信号处理并行化算法[J]. 太赫兹科学与电子信息学报 2017(06)
    • [17].人体姿势估计中随机森林训练算法的并行化[J]. 计算机应用研究 2014(05)
    • [18].基于深度学习的文本情感分析并行化算法[J]. 西南交通大学学报 2019(03)
    • [19].自优化转导支持向量机并行化[J]. 计算机应用 2017(S2)
    • [20].基于海量日志的入侵检测并行化算法研究[J]. 现代电子技术 2016(19)
    • [21].电力通信大数据并行化聚类算法研究[J]. 电子技术应用 2018(05)
    • [22].全景监控视频并行化处理[J]. 软件导刊 2015(11)
    • [23].基于MapReduce的主成分分析算法研究[J]. 计算机科学 2017(02)
    • [24].基于Spark平台的热点话题发现算法并行化研究[J]. 软件导刊 2016(09)
    • [25].云平台下全维度电力设备监测数据并行化处理技术[J]. 电测与仪表 2020(09)
    • [26].基于Spark的分布式大数据并行化聚类方法研究[J]. 湖北第二师范学院学报 2019(08)
    • [27].基于ATM并行化采样优化算法的研究[J]. 长春师范大学学报 2018(06)
    • [28].面向非规则Doacross循环的反馈式编译框架[J]. 信息工程大学学报 2018(01)
    • [29].基于Geant4的射线探测仿真并行化研究[J]. 核电子学与探测技术 2011(11)
    • [30].不同操作平台上的MCNP并行化计算[J]. 中国原子能科学研究院年报 2009(00)

    标签:;  ;  ;  ;  

    基于Spark的基因组学数据比对算法的并行化研究与比对平台构建
    下载Doc文档

    猜你喜欢