导读:本文包含了重复体识别论文开题报告文献综述及选题提纲参考文献,主要关键词:重复体识别,适应性后缀树,Ukkonen算法,RepSeeker算法
重复体识别论文文献综述
霍红卫,王小武[1](2010)在《DNA序列中基于适应性后缀树的重复体识别算法》一文中研究指出现有的在DNA序列中识别重复体的算法多数是基于比对的,对识别速度和吞吐量有很大的限制.针对这个问题文中根据一个平衡重复体的长度和频率的定义,提出了一种基于Ukkonen后缀树的快速识别重复体的RepSeeker算法.算法采用最低限制频率,最大程度地扩展了重复体的长度,同时为了进一步地提高RepSeeker算法的效率,对Ukkonen的后缀树构造算法进行了适应性改进,在构造时加入RepSeeker算法所需的结点信息并将叶子结点和分支结点加以区分,从而使得RepSeeker算法能通过直接读取结点信息来求得子串频率和子串位置.这种改进较大地提高了RepSeeker算法的性能,而且空间开销不大.实验中使用了NCBI中的9条典型DNA序列作为测试数据,并对后缀树改进前后的重复体识别算法做了比较分析.结果表明,RepSeeker在没有损失精度的情况下缩短了算法的运行时间.实验结果与理论上的分析一致.(本文来源于《计算机学报》期刊2010年04期)
霍红卫,白帆[2](2008)在《一种具有精确边界的重复体识别算法》一文中研究指出当前大部分重复体识别算法不是依靠于已经标识的重复体数据库就是定义重复体为两个最大长度的相似序列,而没有一个严格的定义来平衡重复体的长度和频率.针对这些问题文中提出了一种基于局部序列比对算法BLAST变型且支持空位的快速识别重复体的RepeatSearcher算法.算法通过定义重复体的精确边界运用逐步扩展调和序列来识别重复体.算法使用C.briggsae基因组序列作为测试对象,并与当前通用的重复体识别算法RECON以及新近的识别算法RepeatScout做了比较分析.结果表明RepeatSearcher使每一条重复体序列具有了精确的边界,而且相对其它算法在没有损失精度的情况下,缩短了算法的运行时间.(本文来源于《计算机学报》期刊2008年02期)
王小武[3](2008)在《DNA序列中基于后缀树的重复体识别算法》一文中研究指出重复体识别是生物信息学中分析基因组序列的主要手段之一。在真核生物基因中重复体DNA占据了非常重要的地位。通过识别重复体可以发现基因组的进化规则和许多疾病的遗传规律。许多转位子重复体序列作为可编码区域重复出现在基因组序列中,识别这些重复体对基因组解码起到了很重要的作用。通过考虑重复体序列的长度和发生频率,提出了一种基于后缀树的识别初级重复体的RepSeeker算法。算法采用最低限制频率,并通过重迭性合并,最大程度地扩展了重复体的长度。算法以DNA序列所构造的后缀树作为输入,并以基于后缀树的查询算法作为手段,最终生成输入的DNA序列的初级重复体分类表。为了进一步地提高RepSeeker算法的效率,我们对后缀树构造算法进行了适应性改进。在构造后缀树时,给叶子节点编号,并在分支节点加入了叶子信息数组LL(LeafList)。在此基础上,改进了基于后缀树的查询算法,从而避免了RepSeeker算法进行高频度的子树遍历。对Ukkonen后缀树构造算法的改进所带来的问题是对空间要求加大,而构造后缀树算法的时间复杂度几乎没有受到影响。测试中使用了NCBI中的几条典型DNA序列作为测试对象,并与改进Ukkonen前的重复体识别算法做了比较分析。结果表明RepSeeker在没有损失精度的情况下很大程度地缩短了运行时间。(本文来源于《西安电子科技大学》期刊2008-01-01)
白帆[4](2007)在《大规模基因组中重复体识别算法的研究》一文中研究指出重复体识别问题是现代生物信息学中基因组分析的一个基本研究课题。通过识别重复体可以发现基因组的进化规则和许多疾病的遗传规律。许多转位子重复体序列作为可编码区域重复出现在基因组序列中,识别这些重复体对基因组解码起到了非常重要的作用。虽然现在已经存在多种算法解决重复体识别问题,但是这些算法在很多方面还不够完善。针对当前存在的问题,本文提出了一种基于种子序列的方法来求解重复体识别问题。本文提出了两个重复体识别算法RepeatSearcher和GSRSearcher,这两个算法的共同点在于都是基于对种子序列扩展的识别算法。RepeatSearcher算法的核心是对包含种子的序列通过双序列局部比对构建多序列局部比对,结合限定范围的空位罚分策略,通过比对得分值扩展调和序列,同时扩展每一个重复体序列。这种方法的优点在于在扩展调和序列的同时可以确定每一个重复体序列的精确边界。构建多序列局部比对在很大程度上防止了基于高分相似对算法的边界不精确性。GSRSearcher算法继承了算法RepeatSearcher基于种子序列扩展的特点,结合Gibbs采样统计方法,综合考虑了基因组中背景碱基对结果的影响,使识别出来的重复体家族序列更加精确。通过概率统计策略的GSRSearcher算法收敛速度明显比通过比对的算法RepeatSearcher更合理,而且可以判断出重复体序列的精确边界。本文最后使用这两个算法测试了12种哺乳动物的部分基因组序列,将实验结果和重复体数据库RepBase以及当前流行的算法RECON的结果进行了比较,结果表明:本文提出的算法在大部分情况下均优于RECON算法的结果,是一种高效的重复体识别算法。(本文来源于《西安电子科技大学》期刊2007-01-01)
重复体识别论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
当前大部分重复体识别算法不是依靠于已经标识的重复体数据库就是定义重复体为两个最大长度的相似序列,而没有一个严格的定义来平衡重复体的长度和频率.针对这些问题文中提出了一种基于局部序列比对算法BLAST变型且支持空位的快速识别重复体的RepeatSearcher算法.算法通过定义重复体的精确边界运用逐步扩展调和序列来识别重复体.算法使用C.briggsae基因组序列作为测试对象,并与当前通用的重复体识别算法RECON以及新近的识别算法RepeatScout做了比较分析.结果表明RepeatSearcher使每一条重复体序列具有了精确的边界,而且相对其它算法在没有损失精度的情况下,缩短了算法的运行时间.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
重复体识别论文参考文献
[1].霍红卫,王小武.DNA序列中基于适应性后缀树的重复体识别算法[J].计算机学报.2010
[2].霍红卫,白帆.一种具有精确边界的重复体识别算法[J].计算机学报.2008
[3].王小武.DNA序列中基于后缀树的重复体识别算法[D].西安电子科技大学.2008
[4].白帆.大规模基因组中重复体识别算法的研究[D].西安电子科技大学.2007
标签:重复体识别; 适应性后缀树; Ukkonen算法; RepSeeker算法;