基于k-mer相异度算法在系统进化关系中的应用

基于k-mer相异度算法在系统进化关系中的应用

论文摘要

系统发育学是研究生物进化关系的一门学科,在系统发育学中,最常用于研究进化关系的方法就是系统进化树。基于多序列比对法的经典的系统进化树构建算法速度太慢,无法在大规模数据上进行运行,序列非比对法中基于k-mer的相异度算法构建系统进化树则不受这些限制影响,因而具有更广泛的应用前景。近些年来,基于k-mer的相异度算法被强调为基于系统发育推断中多重序列比对法的替代方法。基于k-mer的相异度算法属于序列非比对法中的一种,正处于快速发展的阶段,在不同的进化情景下使用基于k-mer的相异度算法系统地评估系统发育推理的准确性成为当前研究的一个热点和难点。本论文利用自己开发的软件包SeqDistK及一种比较经典的CAFE软件包实现了d2S等7种基于k-mer的相异度算法的距离矩阵,并在此基础上结合UPGMA构建系统进化树或进行聚类。基于一个已知进化关系的16S rRNA验证数据集(57条分子序列,称之为标准树),我们验证了基于k-mer的7种相异度算法构建系统进化树的准确度。与已知的真实进化关系相比较,我们发现基于k-mer的d2、d2S、d2star、Ma、Eu、Hao等多个相异度算法所得的系统进化树与标准树差异不大(Ch有一定的误差),特别是d2、d2star、d2S和Eu算法在k=5时有极其优异的性能,所得系统进化树与标准树相差无几。其中相异度算法d2S选取马尔可夫阶次为2时的算法可达到最高精准度(对称差仅有12)。本论文还利用软件包SeqDistK对63条16S rRNA序列所得的距离矩阵进行菌类聚类验证,发现所得聚类结果与生物分类学基本一致,其中d2S(k=5,M=2)的表现最为优秀,能准确的对样本序列聚类以及分类。另外我们发展的基于k-mer相异度算法的软件包SeqDistK无论是构建系统进化树还是菌类聚类具有运算速度快、精确度高的特点,适合于研究宏基因组大数据中的复杂系统发育关系的推理。使用基于k-mer相异度算法结合UPGMA研究基因组的复杂进化关系,这可能潜在地为系统进化提供新的见解,并改变我们传统的进行系统发育的研究方式,潜在地推进下一代系统发育学的发展。

论文目录

  • 摘要
  • abstract
  • 第一章 绪论
  •   1.1 研究背景和研究意义
  •   1.2 序列非比对法构建系统进化树的意义
  •   1.3 选取基于16S rRNA构建的系统进化树作为标准树的意义
  •   1.4 本章小结
  • 第二章 7种基于k-mer的相异度算法的研究
  •   2.1 序列比对法与序列非比对法
  •   2.2 7种基于k-mer的相异度算法的介绍
  •   2.3 背景序列为马尔可夫链模型的确定
  •   2.4 本论文的研究思路及软件包SeqDistK工具的介绍
  •   2.5 UPGMA(非加权平均法)介绍
  •   2.6 本章小结
  • 第三章 构建系统进化树的研究
  •   3.1 系统进化关系的研究现状
  •   3.2 基于16S rRNA构建系统进化树的研究
  •     3.2.1 16S rRNA
  •     3.2.2 16S rRNA结构特点
  •   3.3 选取16S rRNA构建的系统进化树作为标准树
  •   3.4 系统进化树与标准树的比较
  •   3.5 本章小结
  • 第四章 7种相异度算法构建系统进化树的验证
  •   4.1 用软件包SeqDistK结合UPGMA构建系统进化树的验证
  •   4.2 用软件包CAFE结合UPGMA构建系统进化树的验证
  •   4.3 系统进化树与标准树之间的对称差
  •   4.4 系统进化树与标准树之间的雷达图
  •   4.5 本章小结
  • 第五章 4种相异度算法对菌类聚类的验证
  •   5.1 选取6 类不同菌科的16S rRNA聚类验证
  •   5.2 聚类结果
  •   5.3 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间取得的研究成果
  • 致谢
  • 附件
  • 文章来源

    类型: 硕士论文

    作者: 李文

    导师: 刘雪梅

    关键词: 相异度算法,系统进化树,聚类

    来源: 华南理工大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,计算机软件及计算机应用

    单位: 华南理工大学

    分类号: Q111;TP301.6

    DOI: 10.27151/d.cnki.ghnlu.2019.001385

    总页数: 53

    文件大小: 5021K

    下载量: 38

    相关论文文献

    • [1].基于相异度的SVM选择性集成雾霾天气预测方法[J]. 系统科学与数学 2017(06)
    • [2].基于新的相异度量的模糊K-Modes聚类算法[J]. 计算机工程 2009(16)
    • [3].一种基于WiFi相异度的群组感知分析方法[J]. 计算机科学 2020(10)
    • [4].基于新相异度量的模糊K-Modes聚类算法[J]. 电脑开发与应用 2012(05)
    • [5].相异度算法结合邻接法构建系统进化树的评估[J]. 华南理工大学学报(自然科学版) 2019(06)
    • [6].基于维度频率相异度和强连通融合的混合数据聚类算法[J]. 模式识别与人工智能 2016(01)
    • [7].融合标签平均划分距离和结构关系的微博用户可重叠社区发现[J]. 电子学报 2018(11)
    • [8].对网络通信异常行为识别方法的相异度分析[J]. 微型电脑应用 2017(08)
    • [9].引入个体相异度阀值函数的新自适应遗传算法[J]. 大连交通大学学报 2009(04)
    • [10].图聚类的相异度度量方法研究[J]. 光盘技术 2009(02)
    • [11].基于相异度矩阵的冲突证据合成算法[J]. 计算机工程与设计 2015(02)
    • [12].两阶段混合粒子群优化聚类[J]. 西南交通大学学报 2012(06)
    • [13].基于信誉度与相异度的自适应拟态控制器研究[J]. 通信学报 2018(S2)
    • [14].基于改进证据理论的态势评估方法[J]. 计算机应用 2014(02)
    • [15].一种改进的图聚类的相异度度量方法[J]. 计算机应用与软件 2011(05)
    • [16].基于相异度分析的网络通信异常行为识别方法[J]. 微电子学与计算机 2014(06)
    • [17].基于相异度矩阵的混合属性数据流聚类算法[J]. 计算机工程与应用 2008(25)
    • [18].基于相异度计算的模块库聚类分析方法[J]. 计算机集成制造系统 2012(03)
    • [19].基于用户情景的协同过滤推荐[J]. 计算机应用 2010(04)
    • [20].基于交叉销售模型的客户聚类研究[J]. 福建电脑 2008(04)
    • [21].支持向量机与哈夫曼树实现多分类的研究[J]. 江西师范大学学报(自然科学版) 2014(04)
    • [22].基于鞅的数据流概念漂移检测方法[J]. 小型微型计算机系统 2013(08)
    • [23].基于模糊聚类的CSCL学习者混合属性分组[J]. 计算机应用与软件 2011(02)
    • [24].基于相异度的测试优选算法[J]. 计算机测量与控制 2009(11)
    • [25].全局区域相异度阈值构建稀疏尺度集模型[J]. 中国图象图形学报 2020(09)
    • [26].有根系统发生树的精确有效比较[J]. 计算机科学 2015(12)
    • [27].基于加权Minkowski距离的IFS相异度度量方法[J]. 系统工程与电子技术 2009(06)
    • [28].一种基于遗传聚类的报警聚合方法[J]. 计算机应用 2008(04)
    • [29].基于欧氏距离的K均方聚类算法研究与应用[J]. 数字技术与应用 2017(04)
    • [30].支持向量机与哈夫曼树实现多分类的研究[J]. 广东工业大学学报 2014(02)

    标签:;  ;  ;  

    基于k-mer相异度算法在系统进化关系中的应用
    下载Doc文档

    猜你喜欢