基因组序列标注论文_李冬冬

导读:本文包含了基因组序列标注论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:基因组,序列,基因,信息学,模式,生物,发现。

基因组序列标注论文文献综述

李冬冬[1](2004)在《基因组序列标注的算法与理论研究》一文中研究指出生物信息学用信息处理技术研究DNA和蛋白质的性质和相互作用,是当前最为活跃而重要的信息科学与生命科学的交叉学科之一。面对浩瀚的DNA序列数据,用计算机实现高精度的基因组序列标注,是生物信息学核心问题之一。基因组序列标注算法是研制基因组序列标注软件、进而对浩瀚的已测序DNA序列数据进行基因组标注的前提和基础。本文对此进行了深入的分析和研究,提出和实现了基因组序列标注的叁类基本问题的五种新算法,并进行了测试验证。本文的主要工作和创新之处包括: (1)、基因识别算法的研究。基因识别算法的目标是识别出DNA序列中的完整基因结构,本文采用广义隐Markov模型作为基因组序列标注系统的主体算法。为此,本文首先研究了广义隐Markov模型的优化算法,针对基因识别问题的特点,利用其状态的可分解性提出了一种新的简化算法,使得该简化算法具有与输入序列的长度成线性关系的计算复杂度。之后,分别按照原核生物基因和真核生物基因的结构特征,对训练数据集进行统计,提取出两组模型的相关参数。使用这两套参数,并结合两类生物基因的不同结构特征,本文实现了用于原核生物基因识别的软件GeneMiner和用于真核生物基因识别的软件HumGene。用这两个基因识别软件,分别对原核生物DNA序列实际数据和真核生物DNA序列实际数据进行测试,结果表明它们在性能上达到了目前国际上同类优秀软件的水平。 (2)、生物序列中模式发现算法的研究。模式是生物序列中比较保守的序列片断,它们往往代表着具有重要功能的区域,模式发现就是要从众多候选生物序列中归纳、寻找和识别出蕴藏在其中的模式。模式发现算法分为非穷举算法和穷举算法两类。非穷举算法计算量较小,但是不能保证发现DNA序列中所有的模式。而穷举算法原则上可以搜索出DNA序列中的各种模式,但是需要占用大量的计算时间和内存,由于搜索路径数的指数爆炸,在实际应用中往往难以在有效时间内搜索出模式。为解决这一矛盾,本文提出了一种新的穷举搜索算法:判据搜索算法,它可以在占用较少的计算机资源的情况下,实现对模式的穷举搜索。其关键是,本文首先推导了一种描述叁个序列片断之间相似性相互关系的判据,在此基础上,提出了判据搜索算法。判据搜索算法利用叁个序列片断之间相似性相互关系的判据,对深度搜索进行剪枝,有效地减少了搜索空间。本文对判据搜索算法进行了深入的理论分析,表明在一定条件下,算法的复杂度可以是输入序列长度和数目的多项式函数。之后,采用模拟数据和真实的生物序列数据对算法进行了测试,结果表明对通常的模式发现问题,此算法的性能明显优于其它的穷举搜索算法,搜索速度甚至优于相当一部分的非穷举算法。 (3)、模式强弱的评价指标的研究。在模式发现问题中,一个重要的理论问题是如何评价模式的强弱。目前通常是采用在每个样本中至少出现一次的(l, d)模式的概率作为该模式强弱的评价标准,然而这个模式强弱标准与计算机寻找该模式的实际运行(本文来源于《国防科学技术大学》期刊2004-10-01)

基因组序列标注论文开题报告

基因组序列标注论文参考文献

[1].李冬冬.基因组序列标注的算法与理论研究[D].国防科学技术大学.2004

论文知识图

主要节肢动物的进化关系[l4]两株L.murinus菌株的全基因组比较分析一3:DNA的双螺旋结构一7:各种正确率指标定义的示意图4-5基于基因组P144-ADV的覆...基因的基因组序列及推导的氨基酸...

标签:;  ;  ;  ;  ;  ;  ;  

基因组序列标注论文_李冬冬
下载Doc文档

猜你喜欢