基于多个k值的DNA序列不对齐比对方法的研究

基于多个k值的DNA序列不对齐比对方法的研究

论文摘要

随着下一代基因测序技术的发展,生物学领域产生了大量的数据,对这些生物数据的处理是一个急需解决的问题,同时也是计算机,数学等其他多个领域面临的一个重大挑战,生物信息学在这个背景下产生了。DNA序列之间的比对是生物信息学研究问题之一,并在很多方面有着重要的应用。序列比对旨在发现两条DNA序列之间的相似程度,进而揭示对应物种之间的联系。过去50年里,大量的序列比对方法被提出,目前主要的序列比对方法包括两大类:对齐的方法和不对齐的方法。对齐的方法,往往需要庞大的时间开销,对于两条序列的长度也有一定的要求,无法处理大规模的数据,在当前数据爆炸的环境下已经不适用。不对齐的方法通常是通过从序列中提取长度为k的短序列片段,并统计序列片段的一些统计特征来定义序列相似度。不对齐方法虽然能够快速的得到序列比对结果,但是也面临着两个急需解决的问题:因为这一类方法依赖参数k来提取序列特征,不同的k对于算法的性能影响很大,确定最优的k值往往需要进行大量的实验进行尝试,这给实际应用带来了困难;此外,这一类方法在解决相关问题的准确度上仍然需要进一步提高。本文为解决不对齐比对方法的两个问题,提出综合多个k值的思想。本文使用了两种加权方法用于区分不同k值提取特征的重要性,提高不对齐方法的精度;另外,本文也引入机器学习方法到序列比对领域,处理序列比对相关问题。基于综合多个k值的思想,本文首先对传统的不对齐的D2类型方法上进行了改进,应用了两种不同的加权方案:最大离差法和遗传算法,对序列特征进行加权处理,提出了两种增强的不对齐比对方法。本文设计并实现了两个序列比对任务,实验结果表明,我们提出的方法在没有额外增加时间复杂度的情况下能高效准确地处理大规模的生物DNA序列,并且相较于以前的不对齐方法,我们的方法所获得实验准确率更高。此外,本文也提出一种用于序列比对的机器学习模型,仍然使用多个k值提取序列特征,对特征进行编码后,采用卷积神经网络对序列比对任务进行处理,相关实验结果表明,相较于以前的不对齐方法,使用卷积神经网络的比对模型准确率更高。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  •   1.1 生物信息学
  •   1.2 序列比对研究的意义
  •   1.3 序列比对的研究现状
  •   1.4 论文主要工作
  •   1.5 本文的主要贡献
  •   1.6 本文的组织结构
  • 第二章 生物DNA序列比对概述
  •   2.1 DNA序列比对问题
  •   2.2 基于对齐的DNA序列比对算法
  •   2.3 不对齐的DNA序列比对算法
  •   2.4 本章小结
  • 第三章 基于最大离差法的多个K值的DNA序列比对
  •   3.1 DNA序列中的MARKOV链模型
  • 类型的统计度量'>  3.2 D2型的统计度量
  •   3.3 权重计算方法
  •   3.4 最大离差法加权
  •   3.5 数据标准化方法
  •   3.6 基于最大离差法的多个K值的序列比对方法
  •   3.7 时间复杂度
  •   3.8 实验与结果分析
  •   3.9 本章小节
  • 第四章 涉及遗传算法的综合多个K值的不对齐序列比对
  •   4.1 遗传算法(GENETIC ALGORITHM,GA)
  •   4.2 涉及遗传算法的综合多个K值的不对齐序列比对
  •   4.3 时间复杂度分析
  •   4.4 实验与结果分析
  •   4.5 本章小结
  • 第五章 基于CNN的 CRMS序列识别模型
  •   5.1 常用的机器学习算法
  •   5.2 神经网络
  •   5.3 卷积神经网络
  •   5.4 神经网络中的一些问题
  •   5.5 基于CNN的 CRMS序列识别模型
  •   5.6 实验与结果分析
  •   5.7 本章小结
  • 第六章 总结和展望
  •   6.1 总结
  •   6.2 展望
  • 参考文献
  • 致谢
  • 附录 攻读学位期间发表的学术论文
  • 文章来源

    类型: 硕士论文

    作者: 张雨

    导师: 钱莹

    关键词: 序列比对,最大离差,遗传算法,卷积神经网络

    来源: 华东师范大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 华东师范大学

    分类号: TP18;Q811.4

    总页数: 84

    文件大小: 1738K

    下载量: 53

    相关论文文献

    • [1].HCV阴性者外周血单核细胞的染色体外环状DNA中与HCV同源的DNA序列(英文)[J]. Journal of Zhejiang University-Science B(Biomedicine & Biotechnology) 2019(08)
    • [2].一个深度学习DNA序列特异性的预测模型[J]. 小型微型计算机系统 2018(11)
    • [3].在2个老年人群中线粒体DNA序列变异与血压水平相关[J]. 中华高血压杂志 2018(11)
    • [4].基于DNA序列比对的肺癌早期发现及预防系统设计[J]. 无线互联科技 2018(23)
    • [5].DNA序列比较分析系统的开发设计[J]. 吉林医学信息 2008(Z2)
    • [6].插入序列IS6100介导DNA序列转移的机制研究[J]. 中国医药生物技术 2019(04)
    • [7].基于最长公共子序列的DNA序列相似性分析[J]. 智能计算机与应用 2018(06)
    • [8].隐私保护DNA序列汉明距离计算问题[J]. 计算机应用 2019(09)
    • [9].同源DNA序列中间隔位点的核苷酸最近邻插补[J]. 福建农林大学学报(自然科学版) 2018(05)
    • [10].基于多尺度熵的DNA序列相似性分析[J]. 智能计算机与应用 2019(01)
    • [11].以DNA为载体的信息隐藏方法研究[J]. 计算机应用与软件 2008(03)
    • [12].DNA的二维图表示[J]. 吕梁高等专科学校学报 2009(01)
    • [13].一种基于模糊聚类的构造进化树方法[J]. 计算机应用 2009(03)
    • [14].基于SHA-256和DNA序列的彩色二维码混沌加密方法[J]. 大连理工大学学报 2017(06)
    • [15].基于分治算法的DNA序列比对成本模型[J]. 数码世界 2019(03)
    • [16].基于混沌映射和DNA序列的图像加密[J]. 图学学报 2017(06)
    • [17].基于超级熵的细菌DNA序列统计分析[J]. 西安邮电大学学报 2013(03)
    • [18].DNA序列判别分类模型(英文)[J]. Agricultural Science & Technology 2011(06)
    • [19].基于主成分和Fisher判别的DNA序列分类方法[J]. 数学的实践与认识 2015(07)
    • [20].玉米螟的分子连接性指数模糊聚类分析[J]. 江苏农业科学 2020(06)
    • [21].基于DNA序列的超混沌彩色图像加密算法[J]. 中国科技论文 2018(17)
    • [22].融合智能检测的DNA序列预处理新方法[J]. 重庆大学学报 2011(06)
    • [23].数字信号处理在生物医学方面的应用研究[J]. 中国科技信息 2008(01)
    • [24].一种基于氨基酸物理化学性质上的DNA序列图形表示及相似性分析[J]. 中国海洋大学学报(自然科学版) 2008(05)
    • [25].基于聚类分析的DNA序列分类研究[J]. 沈阳大学学报 2008(06)
    • [26].DNA序列判别分类模型[J]. 安徽农业科学 2011(23)
    • [27].DNA序列一维分段测量分布可视化[J]. 云南大学学报(自然科学版) 2013(S2)
    • [28].人与鼠源内皮抑制素不同标签重组蛋白的表达纯化及活性分析[J]. 过程工程学报 2014(04)
    • [29].基于DNA乱序编码和混沌映射的图像加密算法[J]. 智能计算机与应用 2016(05)
    • [30].浅谈三种分类方法的优劣[J]. 数学学习与研究 2013(15)

    标签:;  ;  ;  ;  

    基于多个k值的DNA序列不对齐比对方法的研究
    下载Doc文档

    猜你喜欢