片段拼接论文_王春宇

片段拼接论文_王春宇

导读:本文包含了片段拼接论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:片段,序列,基因组,信息学,生物,屏蔽,纪实文学。

片段拼接论文文献综述

王春宇[1](2015)在《生物高通量测序片段拼接与分子标记识别算法研究》一文中研究指出快速准确的获取生物体的遗传信息是生命科学研究的基石,基因组是生物体全部遗传信息的载体。测序技术能够获得基因组的遗传信息,进而较全面的揭示生物体的复杂性和多样性,因而在生命科学研究中具有十分重要的作用。随着科学的进步,下一代测序技术迅速发展并广泛应用,使得生物序列数据的获取效率和费用成本的快速下降都达到了前所未有的程度,这些对基因组的深度测序和重测序研究产生了极大的推动作用。序列数据生产速度越来越快,由此产生了数量巨大的生物序列数据,而如何高效准确的对大数据量的生物序列数据进行分析和比较,成为了生物信息学领域的新挑战。近几年来计算机运算性能的增长趋于缓慢,为应对大数据时代的需求出现了Map Reduce、Spark等云计算技术,但目前生物信息领域的各种工具和方法还未能充分利用这些新技术。因此,本文以序列分析为基础,利用Map Reduce技术结合序列比对、串和图等算法,深入研究了高通量序列拼接与分子标记识别两方面的几个问题,主要内容如下。(1)提出了基于Map Reduce的高通量序列数据的聚类分析算法。生物序列聚类可以为下游序列分析工作提供基础,高通量测序也为序列聚类提出了新内容和新挑战。针对这一问题,本文提出了基于两种相似度的结合Map Reduce技术的贪心聚类方法。首先,从相似序列会共享一定数量k-mer这一事实出发,本文提出了基于窗口内非交迭共享k-mer计数的相似度计算方法,可以过滤掉不相关序列间的比对计算,从而大幅度提高比对效率;然后,对于相似序列的精确比对,本文提出了基于共享k-mer扩展块的块比对相似度计算方法。利用本文方法可对大规模序列数据如EST、高通量测序读片段等进行聚类分析。(2)提出了基于序列聚类和Seeds Graph的高通量测序片段拼接算法。全基因组高通量测序数据的拼接,主要困难在于高通量序列数据读长短、数量大和错误率高。本文针对这叁方面的困难提出了基于Map Reduce和序列聚类的全基因组de novo拼接方法Seeds Graph。该方法利用云计算平台解决数据量大的问题,用序列聚类将短片段以簇表示,并定义可容错的seed结构来纠正测序错误。然后利用seed为顶点建立的SeedsGraph图来指导测序片段的拼接过程。最后,本文采用路径相容分析技术和双端读片段信息方式解决重复序列导致的复杂路径问题。实验表明Seeds Graph有良好的可扩展性,可处理较大规模基因组的拼接问题。(3)提出了多供体高通量测序数据的基因组结构变异分子标记识别算法。目前对生物个体重测序的研究普遍存在测序对象数量较多而测序深度不够的现象。在这种测序个体较多但深度都不大的数据中进行全基因组结构变异识别,往往因为深度不够而不能获得准确的结果。本文针对这一问题,提出了基于多供体高通量重测序数据的全基因组结构变异识别方法。该方法利用Map Reduce技术解决数据量巨大的问题,结合双端读片段和读片段分隔方法进行结构变异事件的识别;利用改进的仿射空位罚分的半全局序列比对算法,预测结构变异精确的断点位置。(4)综合本文在序列分析的算法成果,设计并实现了基于同源搜索和集成分类的mi RNA分子标记识别方法。该方法利用已知mi RNA为参考,对EST或高通量测序数据进行同源搜索,使用RNAfold软件分析发夹环结构,获得粗略的mi RNA前体候选集。为了解决该候选集中假阳性率过高的不平衡分类问题,本文提出了基于投票机制的集成学习分类方法。利用已知mi RNA作为正例和适当选择的反例以不平衡数据分类问题的策略训练多种分类器,再集成为一个单独的分类器,并对候选集进行分类。利用该方法可得到输入数据集中高可信度的miRNA候选,可以用于指导下游mi RNA识别和分析的研究工作。(本文来源于《哈尔滨工业大学》期刊2015-03-01)

葛琪琪[2](2012)在《倒错的片段拼接——浅析格非小说《初恋》的叙事时间》一文中研究指出小说可以说是一种时间的艺术。传统的小说,多是在文本中将原本多维的故事时间加以重新编码,呈现出一维的延续的线性叙事,而作为一位颇有先锋意识的作家,格非小说的叙事时间则是有其独创性的。在他的小说中,传统小说叙事时间的一维性铁律受到(本文来源于《安徽文学(下半月)》期刊2012年07期)

夏琪[3](2012)在《《我们中国这些年》:对传统历史书写的继承与突破》一文中研究指出本报讯(记者 夏琪)《我们中国这些年》(东方出版社)近日在京召开新书发布会,军事专家宋晓军认为,作者把共和国的历史脉络通过普通人的视角以编年体的形式呈现出来,以个人记忆的片段拼接历史,《我们中国这些年》因此会引发更多人对共和国历史的回忆。(本文来源于《中华读书报》期刊2012-07-18)

蔡葵[4](2009)在《DNA片段拼接中的重复序列预归并方法研究》一文中研究指出本文在分析了传统的Overlap-Layout-Consensus方式和Euler方式对重复序列的处理策略之后,重点研究了基于定长子串和变长子串的两种Repeats预处理方法。并在这两种方法的基础上,提出了构建不同的数据结构,定长子串统计表和变长子串统计表,详细记录两种方法各自扫描shotgun集合所得到的信息。然后,根据各自表中记录的具有相同定长子串或者变长子串的shotgun片段可能来自目标序列同一个位置或者相同repeats的原理,将这些shotgun片段进行预归并操作,并给出了各自具体算法。通过预归并一方面可以还原出DNA目标序列中的重复序列的形状;另一方面还可以大大减少shotgun集合中的片段数目,从而降低将来拼接时的计算复杂度。使之既适用于采用Overlap-Layout-Consensus方式,又适用于采用Euler方式的序列拼接算法的重复序列预处理工作。最后,进行了本文算法的计算机模拟分析。计算机模拟分析结果表明,本文算法不仅识别重复序列率较高,并且由于通过预归并缩减了shotgun集合的规模,有效地降低了拼接时的计算复杂度。(本文来源于《华中师范大学》期刊2009-05-01)

蔡葵,杨进才[5](2009)在《DNA片段拼接中的预归并重复序列屏蔽方法》一文中研究指出针对DNA片段拼接中的重复序列识别及屏蔽问题,提出一种预归并重复序列屏蔽方法。在片段拼接前通过扫描子串标识出可能存在重迭关系的shotgun片段,利用子串归并该相关片段,标识出重复序列的位置信息,达到屏蔽的目的。计算机模拟分析表明,该方法识别重复序列的错误率低,通过预归并有效缩减了shotgun集合的规模,降低了拼接时的计算复杂度。(本文来源于《计算机工程》期刊2009年04期)

王磊,张祖平,陈建二[6](2006)在《DNA片段拼接中重复序列算法研究》一文中研究指出本文主要研究DNA片断拼接中重复序列信息识别算法。包含大量重复信息的DNA序列,其重构是大规模DNA片段拼接所面临的实际困难之一。针对目前大多数拼接算法对于重复段的处理采用效率较低的反复迭代算法的特点,提出了基于k-mer子串的重复段分析方法,充分考虑了拼接中可能的分割点,设计与分析了识别重复序列并提高序列一致性的高效算法。(本文来源于《计算机科学》期刊2006年07期)

张博锋,王正华[7](2002)在《DNA片段拼接中基于定长特征子串的重复序列信息屏蔽方法》一文中研究指出包含重复序列(repeats)的DNA序列的重构是大规模DNA片段拼接所面临的实际困难之一。在考虑片段数据所隐含的位置信息的基础上,提出了一种基于定长特征子串的屏蔽片段数据中重复序列信息的方法,即在进行序列相互比对前利用独特子串标识大多数片段,从而减少可能的错误重迭,讨论了方法中几个参数的确定问题并用计算结果说明了方法的有效性。(本文来源于《国防科技大学学报》期刊2002年06期)

张博锋[8](2002)在《全基因组DNA测序中的片段拼接方法及其并行处理》一文中研究指出生物信息学是一门利用信息来理解生命活动的科学,它综合利用了生物学、计算机科学与技术、数学等学科的优势,借以探索现有的海量生物学数据中蕴含的生物学意义。全基因组DNA序列测定是生物信息学研究的基础,在普遍使用的Shotgun方法中,其中一个重要的步骤就是根据片段信息来重构原始序列。片段拼接是一个费时的复杂过程,其中包含了一些实际困难,重复子序列对片段间正确重迭的干扰就是其中一个。 本文在深入分析现有拼接方法及实现软件Phrap和EULER的基础上,通过DNA序列中独特定长子串对片段相对位置标识作用的理论研究,提出了基于特征子串的重复子序列信息屏蔽方法,并通过概率方法计算了特征子串的最佳长度,从而产生了判断两个片段在拼接过程中是否要进行比对的PL—条件。该方法要求在进行片段比对前,通过对片段数据的叁次扫描进行定长子串出现次数及其与片段的关系等信息的统计,据此为每个片段指定若干特征子串作为标识。 我们的拼接方法主要分为片段比对、链表融合以及contig合并叁步,将上述屏蔽手段作为片段拼接程序的预处理过程,并以特征子串信息为中心组织数据结构,在拼接过程中自然地运用了PL—条件,从而大大减少了拼接中要进行的片段比对次数。在算法的实现软件PDL-Assembler中,使用简洁的线性数据结构来保证处理的效率并使得迭代简单化。对程序的测试表明在保证结果足够准确程度的基础上,PDL-Assembler的处理时间大大低于Phrap。 最后我们研究了片段拼接问题的并行处理方法。通过分析片段数据的划分方法和串行程序的并行性,我们提出了在PDL-Assembler的基础上加速其最费机时核心模块的并行策略,并给出了片段数据的并行扫描方法。文章还讨论了并行实现中通过非阻塞通讯隐藏通讯时延以及通过寻求通讯次数和包缓冲大小的折衷来优化通讯开销的问题。我们实现了拼接软件的并行版本ParPDL-Assembler,两个算例的测试结果表明并行方法具有较好的加速比和效率。(本文来源于《中国人民解放军国防科学技术大学》期刊2002-11-01)

片段拼接论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

小说可以说是一种时间的艺术。传统的小说,多是在文本中将原本多维的故事时间加以重新编码,呈现出一维的延续的线性叙事,而作为一位颇有先锋意识的作家,格非小说的叙事时间则是有其独创性的。在他的小说中,传统小说叙事时间的一维性铁律受到

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

片段拼接论文参考文献

[1].王春宇.生物高通量测序片段拼接与分子标记识别算法研究[D].哈尔滨工业大学.2015

[2].葛琪琪.倒错的片段拼接——浅析格非小说《初恋》的叙事时间[J].安徽文学(下半月).2012

[3].夏琪.《我们中国这些年》:对传统历史书写的继承与突破[N].中华读书报.2012

[4].蔡葵.DNA片段拼接中的重复序列预归并方法研究[D].华中师范大学.2009

[5].蔡葵,杨进才.DNA片段拼接中的预归并重复序列屏蔽方法[J].计算机工程.2009

[6].王磊,张祖平,陈建二.DNA片段拼接中重复序列算法研究[J].计算机科学.2006

[7].张博锋,王正华.DNA片段拼接中基于定长特征子串的重复序列信息屏蔽方法[J].国防科技大学学报.2002

[8].张博锋.全基因组DNA测序中的片段拼接方法及其并行处理[D].中国人民解放军国防科学技术大学.2002

论文知识图

Notice: Undefined index: items in F:\Web\www\cnki.demo.com\app\cnki\tpl\search.html on line 79Warning: Invalid argument supplied for foreach() in F:\Web\www\cnki.demo.com\app\cnki\tpl\search.html on line 79

标签:;  ;  ;  ;  ;  ;  ;  

片段拼接论文_王春宇
下载Doc文档

猜你喜欢