导读:本文包含了生物模体发现论文开题报告文献综述及选题提纲参考文献,主要关键词:模体,共调控网络,G-trie结构,并行计算
生物模体发现论文文献综述
丁吕[1](2018)在《生物网络中的模体发现算法研究》一文中研究指出大量的高通量实验产生了PB级的生物组学数据,这些组学数据包含了海量的生物分子作用信息。如何从这些组学数据中挖掘出有价值的信息是计算生物学的一个重大挑战。为了研究生物分子间的调控机制,常用的研究方法是将生物分子间的作用关系抽象为一个网络图,然后通过基于图论的数据挖掘方法,从生物分子作用网络中挖掘出生物分子间的调控机制。模体结构是一种被认为包含潜在生物分子调控机制的子图结构,在共调控网络中挖掘共调控网络模体,对研究共调控网络中的生物分子调控机制有重大的意义。相比于蛋白质作用网络、基因调控网络等单一分子类型的调控网络,共调控网络规模更大、节点类型更多。现有的模体发现算法难以高效的处理该类型网络图,所以需要设计一种更加高效的共调控网络模体发现算法。本文的主要研究工作如下:1)为了提升共调控网络模体发现算法的效率,本文将G-trie结构应用于共调控网络模体发现算法,把多种共调控网络模体类型存储于一棵前缀树结构中,通过重用查找过程,提升了子图统计的效率。并通过多线程技术,实现了该算法的并行,进一步提升了共调控网络模体发现算法的效率。为了发现更大规模的共调控网络模体类型,本文设计了一种采样生成候选子图的方法,通过该方法本文最多能发现8个节点的共调控网络模体类型。另外,本文根据共调控网络模体结构在共调控网络中的实例,发现了共调控网络模体的团簇性特征。2)通过采样生成候选子图的方法虽然能查找较大规模的模体类型,但难以查找共调控网络中全部的模体类型。查找共调控网络中全部的模体类型是一个NP难问题,计算量会随着模体规模的增加呈指数增长。为此,本文设计一个基于MapReduce计算模型的共调控网络模体发现算法。该算法解决了以往模体发现算法中迭代依赖问题,以及难以通过MapReduce计算模型精确统计网络图中每个子图出现频率的问题,并且通过多线程并行的方法解决了MapReduce计算模型CPU利用率不足的问题。基于MapReduce计算模型的共调控网络模体发现算法实现了对计算机资源的融合与高效利用,并极大限度的缩短了在共调控网络中查找全部模体类型的时间。(本文来源于《湖南大学》期刊2018-05-09)
阳卫锋[2](2016)在《高阶马尔科夫模型在生物发育树重建和模体发现中的应用》一文中研究指出传统的生物序列分析方法是建立在序列比对基础之上。而序列比对有其自身的局限:核酸和氨基酸替换矩阵选择没有统一的标准;对分化程度很高的序列比如基因调控序列的比对失效;由于时间消耗量大,针对新一代测序技术产生的海量数据,基于序列比对的方法已不切实际。因此在后基因组时代,生物序列分析急需更快速高效的非比对方法。马尔科夫模型是刻画随机过程的重要模型,在生物序列分析的应用有很长的历史。比如,CpG岛识别和基因发现的很多经典方法都使用了马尔科夫模型。但过去往往是利用低阶马尔科夫模型,本文将讨论高阶马尔科夫模型在生物序列分析中的应用。主要工作如下:1.马尔科夫香农熵最大化(MME)定阶法。马尔科夫模型在生物序列分析中的应用很广,但是对其阶的识别问题关注较少,一般用Χ2统计量推断或者用AIC/BIC信息标准方法识别。针对生物序列比较问题,如果利用高阶马尔科夫模型,则希望序列的信息尽可能多的被表征出来。本文我们首次提出了马尔科夫香农熵最大化(MME)的定阶方法。多个数据集的测试表明这种方法识别的阶比AIC/BIC信息标准法识别的阶高,并且在生物序列比较方面有明显优势。2.一维混沌游戏表示。Jeffrey提出的基于函数迭代的DNA序列的混沌游戏表示是一种一对一的二维图形表示方法,它将DNA序列转换成二维平面中的单位正方形区域的点集,由此将序列中不同长度的多聚体的频率特异性表现为散点图的不同区域的疏密特异性,还能将多聚体的不同层次的组合偏好性体现为散点图的分形特征。因此DNA序列的混沌游戏表示被广泛应用于DNA序列的特征描述。但是Jeffrey的混沌游戏是为DNA序列量身定做的表示方法,至多只能处理定义在包含尼2个字符的集合上的序列。一维混沌游戏表示是基于类似函数迭代的一种一对一的数值表示方法,是将定义于任何有限字符集的符号序列映射为一维数轴上单位区间的数值序列,不仅可以处理DNA序列和RNA序列,还可以应用于包含20种氨基酸的蛋白质序列,甚至包含26个字母的英文文本序列。除了可视化效果,一维混沌游戏表示继承了Jeffrey的混沌游戏的其它所有特征。我们首次提出了一维混沌游戏表示的反演公式和用于生物序列七-串表示的结构指数,并讨论了一维混沌游戏表示与高阶马尔科夫模型的关系。应用高阶马尔科夫模型的两个关键问题是阶的识别和大规模参数的估计。一维混沌游戏表示的这些性质有助于高阶马尔科夫模型的阶的识别和参数估计。3.进化树重建。利用生物序列构建系统发育树,传统的方法是在分子钟假设之下对某种基因进行比对,根据核酸或氨基酸替换矩阵获得基因之间的进化距离从而构建基因树。这些基因一般具有相当的保守性,比如16S rRNA,18S rRNA等等,但是在很多情况下,基于不同基因的基因树并没有一致性。由于基于比对针的方法的局限性,出现了很多无比对方法。广泛应用的组分矢量(CV)法是利用固定字长的词频作为刻画基因组或蛋白组的特征向量,其中用到背景概率是利用高阶马尔科夫模型获得的。受此启发,我们首次提出直接利用高阶马尔科夫模型表示全蛋白质组或者全基因组,将相应的转移概率矩阵作为刻画序列的特征向量。其中阶的识别是利用我们新提出的马尔科夫香农熵最大化(MME)定阶方法。多个全蛋白质组和全基因组数据集的结果证实了这种非比对的发育树重建方法很有效。4.模体发现。基因是DNA序列中具有遗传信息的基本单元,而影响和控制基因的转录和表达的是转录因子通过与基因调控元件(启动子,增强子,沉默子等)中结合位点相结合实现的,这些结合位点是相对固定又重复出现的5-20bp长度的DNA序列模式,称之为模体。理解基因表达是生物学中的重大挑战,而基因调控元件的识别特别是模体的识别是这个挑战中的一个重要课题。受Tompa等的方法的启发,我们提出利用高阶马尔科夫模型的新尼-串法。首先利用高阶马尔科夫模型描述该背景序列集,在背景高阶马尔科夫模型下,确定每个红串在序列集中的期望频数。再由实际频数与期望频数的相对偏离率,判断缸串是来自随机背景序列还是来自模体的样例。我们用多个HT-SELEX数据集证实了这种舡串法的有效性。(本文来源于《湘潭大学》期刊2016-04-10)
于强[3](2014)在《生物序列模体发现算法研究》一文中研究指出模体发现是在给定的序列集合中找到过表达的序列模式,对生物序列中定位有意义的序列片断起着非常重要的作用,比如在DNA序列中识别转录因子结合位点和在蛋白质序列中识别短的线性模体。转录因子控制着靶基因的转录起始和转录效率。基因上游与转录因子相结合的特定DNA序列称为转录因子结合位点,对它的精确定位有助于理解基因的表达调控机制。线性模体是蛋白质序列中具有特定功能的序列片断,负责着蛋白质交互的调节,对许多调控过程都起着重要的作用,比如信号传导、蛋白质运输和翻译后修饰。植入(l,d)模体发现(Planted(l,d)motif search,PMS)是模体发现领域中一个广为接受的问题模型,求解PMS是计算机科学和生物信息学中的挑战问题。模体是未知的,并以退化的形式出现在序列中,也即模体实例(模体的出现)并不是模体的一份精确拷贝,而是与模体在某些位置上存在着差异。相对于DNA启动子序列,蛋白质序列和染色质免疫共沉淀测序(Chromatin Immunoprecipitation-Sequencing,ChIP-seq)序列又分别从大字符集和大数据集方面对求解PMS带来了新的挑战。本论文针对不同类型生物序列数据集的特点以及现有算法的不足,提出新的模体发现算法,以进一步提高模体发现的时间性能和识别准确率。具体工作概括为以下四个部分:第一部分研究了DNA启动子序列中(l,d)模体发现的精确算法。针对现有识别(l,d)模体的精确算法存在的计算量大或存储空间高、难以识别微弱信号模体等问题,提出了一种新的基于模式驱动的精确算法PairMotif:分析和描述了如何由一对l-mer(长为l的字符串)生成候选模体;通过估计候选模体的数量,从输入序列集中选择参考序列,能有效地减少候选模体的数量;设计了两种过滤待扫描l-mer的规则,有助于加速模体验证。相对于之前的几个精确算法,PairMotif需要更少的存储空间,能够更快速地求解大多数PMS问题实例,而且能够在10个小时内求解其它算法难以求解的(27,9)问题实例。第二部分研究了DNA启动子序列中(l,d)模体发现的近似算法。鉴于现有的模体发现算法要么花费巨量的时间输出最优的结果,要么在短时间内完成计算但常常陷入局部最优,提出了一种新的基于模式驱动的近似算法PairMotif+:依据概率分析和统计的方法,从输入序列中获取了若干l-mer对,使得其中含有一个或多个模体实例对;设计了一种高准确率的近似求精l-mer对的策略,避免了大部分候选模体的验证。PairMotif+能够在普通PC机上于1小时内求解各种PMS问题实例,并且相对于主流的近似算法(MEME、AlignACE和VINE)具有更好的识别准确率。第叁部分研究了大字符集(蛋白质序列)上的模体发现问题。针对现有的模体stem搜索算法存在的stem表示不精确、通配符冗余、搜索效率低等问题,进行了如下工作:建立了一种基于正则表达式的stem表示方式,使stem的表示更为精确;提出了一种生成候选stem的方法,使得stem中不含冗余的通配符;结合stem表示和stem生成方法,提出了一种高效的stem搜索算法StemFinder,比现有算法具有更高的搜索效率,并且输出了更少的能够覆盖所有(l,d)模体的stem。第四部分研究了大数据集(ChIP-seq数据集)上的模体发现问题。鉴于已有的模体发现算法难以高效地处理完整的ChIP-seq数据集,提出了一种新的基于词频统计的模体发现算法MCES:通过挖掘和合并出现频率较高的子串进行模体预测;为了处理更大的数据集,设计了挖掘子串的基于MapReduce的分布式方案。MCES能够高效且有效地处理含有数千至数百万条序列的数据集,比现有的(l,d)模体发现算法的执行速度要快得多;能够识别未知长度的模体,而且比同是基于词频统计的CisFinder算法具有更好的识别准确率。(本文来源于《西安电子科技大学》期刊2014-09-01)
郭晓强[4](2014)在《一位生物化学家的细胞之旅——德迪夫与溶酶体发现》一文中研究指出1950年代,溶酶体和过氧化物酶体的发现揭示了精细的亚细胞结构,拓展了对细胞功能的理解和认识,并且奠定了现代细胞生物学的基础。(本文来源于《科学》期刊2014年03期)
何洁月,赵德京[5](2012)在《一种高效的生物网络概率模体发现算法》一文中研究指出针对概率模体发现算法中非树形子图的挖掘和在得分函数最大化的过程中得分函数值计算的2个难点.首先提出基于划分的非树形子图的搜索算法,其次将子图同构应用于最小错配的求解以缩小智能优化算法对得分函数求解的解空间,最后将基于模拟退火算法和遗传算法的混合算法应用于得分函数的求解过程.在大肠杆菌基因调控网络中的实验结果表明,与其他算法相比,混合智能算法可以大大减少非树形子图的搜索时间,并以相对较快的收敛速度收敛到一个较优的解,因此所提出的方法有效地提高了概率模体发现的效率.(本文来源于《东南大学学报(自然科学版)》期刊2012年01期)
覃桂敏,高琳,呼加璐[6](2009)在《生物网络模体发现算法研究综述》一文中研究指出网络模体发现是生物网络数据分析中的一个核心问题.首先分析了网络模体发现中相关的基本计算问题:随机网络建模,子图搜索和模体统计意义评价等.其次对生物网络模体发现算法进行了综述和评价,从研究方法上将模体分为精确模体,概率模体和其它模体叁类,并对识别每类模体的典型算法进行研究和分析.为了对网络模体进行深入分析与研究,引入了与模体发现密切相关的生物网络模块发现问题.最后讨论了网络模体发现算法的最新进展和下一步的研究方向.(本文来源于《电子学报》期刊2009年10期)
朱清新,杨凡[7](2008)在《生物序列模体发现的最优化模型》一文中研究指出提出了生物序列模体发现的最优化模型,该模型适用于搜索资源(如计算时间)有限的情况,传统的模体发现方法可能在资源耗尽后仍不能得出任何结果.基于最优搜索理论给出了一种在有限的时间资源下的最优模体发现策略和算法实现,并得到了一些实验结果.(本文来源于《成都大学学报(自然科学版)》期刊2008年01期)
周晓锋[8](2008)在《一种基于统计的生物网络模体发现算法》一文中研究指出随着2003年人类基因组计划的完成,生物信息学的研究已经进入后基因组学时代,基因组信息学研究重心开始从揭示生命的所有遗传信息转移到从分子整体水平上对基因功能的研究,从整体水平上反应着基因功能的生物网络成为研究的重点。基因组学和蛋白质组学中的高通量方法为我们提供了大量的生物网络数据,最典型的是基因调控网络和蛋白质相互作用网络。目前生物信息学研究面临的一个主要挑战就是从这些生物网络的拓扑结构中解读出生物功能,网络模体是一种在给定网络中频繁出现的连通子图,一些网络模体已经被证明是基因调控网和蛋白质相互作用网络中的基本生物功能模块。本文在分析已有生物网络模体发现算法的基础上,提出了一种基于统计模型的生物网络模体发现算法,并在统计模型的基础上建立了一个反应网络模体统计意义的得分函数,在该算法中我们首先利用一个高效的非树形子图挖掘算法ESN挖掘网络中所有规定大小的非树形子图,然后根据非树形子图和得分函数求得网络模体。对大肠杆菌、酵母基因调控网和人类的信号传导网络等真实生物网络数据的仿真实验,表明该算法与已有算法相比能够更高效地发现生物网络中的模体。(本文来源于《西安电子科技大学》期刊2008-01-01)
沈一飞,陈国良,张强峰[9](2007)在《基于纳米计算结构上的生物序列模体发现算法》一文中研究指出模体发现对于预测基因特殊功能位点和鉴别药物作用目标等有重要的应用价值.本文介绍了一种纳米计算平台系统结构模型—CellMatrix以及在其上实现的DNA序列模体发现算法.CellMatrix是一种针对纳米计算平台提出的由同构晶格组成的可重构系统结构.这种结构既便于大规模工业生产,也很容易使得各种计算机软硬件系统在其上实现,同时这种结构又具备良好的可扩放性,是未来实现成熟纳米计算平台的一种选择.基于CellMatrix结构,本文首先在晶格结构上设计基本字符比较单元,而后在此基础上逐层构建更高层次的子序列测试单元和单条序列处理架构,从而实现了基于模式驱动的模体发现算法.最后用晶格开销数目和晶格延迟给出该算法的时空开销.(本文来源于《小型微型计算机系统》期刊2007年04期)
沈一飞[10](2006)在《生物序列数据比较与模体发现算法研究》一文中研究指出生物信息学是将计算机领域内的知识和技术应用于研究DNA(脱氧核糖核酸)、蛋白质等生物学问题的一个迅速发展的学科领域,而生物序列比较和模式发现是生物信息学的传统课题,在系统进化、基因调控、疾病治疗、病毒起源等重要领域的研究中处于核心地位。 近年来,随着生物测序技术的突飞猛进,生物序列数据以前所未有的速度增长。人工分析和处理生物序列数据无法再满足需求,计算机和网络技术的飞速发展,为分析和处理生物序列提供了新的强大手段。本文围绕生物序列信息比较与模体(motif)发现算法问题展开研究,完成以下工作: (1) DNA序列模体发现算法研究 DNA序列是最常见的生物序列数据,在DNA序列集合中发现模体的常见方法有统计学习方法和组合优化方法。本文围绕目前最常用的FM(Fixed number of Mutation)模体发现模型展开研究,首先给出一种基于样本序列比较来组合生成候选模体的方法,然后在此基础上设计出一种新的基于样本驱动的精确算法,与现有的模式驱动算法相比,在保持精度不变的情况下降低了搜索空间,同时克服了样本驱动算法适用面窄的问题。实验表明,该算法相对目前最优的MITRA(Mismatched Tree Algorithms)精确算法的性能有了较大的提高。 (2) 纳米计算平台的生物序列处理研究 对生物序列进行比较和在生物序列中发现模体往往涉及大计算量,因此并行化的设计是必不可少的,但是问题本身的串行处理特性使得并行处理较为困难。目前已提出的一种新的纳米计算平台上的系统结构模型——Cell Matrix能较好的解决序列处理问题,其同构的二维结构便于生产和扩展,用该结构来实现序列处理算法非常自然。本文实现了可以输出比对结果的双序列比对算法,它克服了Cell Matrix模型上已有的双序列比对算法只能输出比对得分的缺陷;首次在Cell Matrix模型上设计实现了生物序列模体发现算法。并用品格数量和晶格延迟两个参数分析了两个算法的时空开销。 (3) 基因组序列的翻转排序并行算法研究 基因组序列在遗传过程中最常见变异现象为部分子序列翻转。通过对翻转排序问题串行算法的研究,在PRAM模型和LARPBS模型上分别设计出时间复杂度为O(lg~2n)和O(lgn)的并行计算有向符号序列翻转距离算法(n为序列的长度);同时在LARPBS模型上设计出一个线性时间并行翻转排序算法。(本文来源于《中国科学技术大学》期刊2006-05-01)
生物模体发现论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
传统的生物序列分析方法是建立在序列比对基础之上。而序列比对有其自身的局限:核酸和氨基酸替换矩阵选择没有统一的标准;对分化程度很高的序列比如基因调控序列的比对失效;由于时间消耗量大,针对新一代测序技术产生的海量数据,基于序列比对的方法已不切实际。因此在后基因组时代,生物序列分析急需更快速高效的非比对方法。马尔科夫模型是刻画随机过程的重要模型,在生物序列分析的应用有很长的历史。比如,CpG岛识别和基因发现的很多经典方法都使用了马尔科夫模型。但过去往往是利用低阶马尔科夫模型,本文将讨论高阶马尔科夫模型在生物序列分析中的应用。主要工作如下:1.马尔科夫香农熵最大化(MME)定阶法。马尔科夫模型在生物序列分析中的应用很广,但是对其阶的识别问题关注较少,一般用Χ2统计量推断或者用AIC/BIC信息标准方法识别。针对生物序列比较问题,如果利用高阶马尔科夫模型,则希望序列的信息尽可能多的被表征出来。本文我们首次提出了马尔科夫香农熵最大化(MME)的定阶方法。多个数据集的测试表明这种方法识别的阶比AIC/BIC信息标准法识别的阶高,并且在生物序列比较方面有明显优势。2.一维混沌游戏表示。Jeffrey提出的基于函数迭代的DNA序列的混沌游戏表示是一种一对一的二维图形表示方法,它将DNA序列转换成二维平面中的单位正方形区域的点集,由此将序列中不同长度的多聚体的频率特异性表现为散点图的不同区域的疏密特异性,还能将多聚体的不同层次的组合偏好性体现为散点图的分形特征。因此DNA序列的混沌游戏表示被广泛应用于DNA序列的特征描述。但是Jeffrey的混沌游戏是为DNA序列量身定做的表示方法,至多只能处理定义在包含尼2个字符的集合上的序列。一维混沌游戏表示是基于类似函数迭代的一种一对一的数值表示方法,是将定义于任何有限字符集的符号序列映射为一维数轴上单位区间的数值序列,不仅可以处理DNA序列和RNA序列,还可以应用于包含20种氨基酸的蛋白质序列,甚至包含26个字母的英文文本序列。除了可视化效果,一维混沌游戏表示继承了Jeffrey的混沌游戏的其它所有特征。我们首次提出了一维混沌游戏表示的反演公式和用于生物序列七-串表示的结构指数,并讨论了一维混沌游戏表示与高阶马尔科夫模型的关系。应用高阶马尔科夫模型的两个关键问题是阶的识别和大规模参数的估计。一维混沌游戏表示的这些性质有助于高阶马尔科夫模型的阶的识别和参数估计。3.进化树重建。利用生物序列构建系统发育树,传统的方法是在分子钟假设之下对某种基因进行比对,根据核酸或氨基酸替换矩阵获得基因之间的进化距离从而构建基因树。这些基因一般具有相当的保守性,比如16S rRNA,18S rRNA等等,但是在很多情况下,基于不同基因的基因树并没有一致性。由于基于比对针的方法的局限性,出现了很多无比对方法。广泛应用的组分矢量(CV)法是利用固定字长的词频作为刻画基因组或蛋白组的特征向量,其中用到背景概率是利用高阶马尔科夫模型获得的。受此启发,我们首次提出直接利用高阶马尔科夫模型表示全蛋白质组或者全基因组,将相应的转移概率矩阵作为刻画序列的特征向量。其中阶的识别是利用我们新提出的马尔科夫香农熵最大化(MME)定阶方法。多个全蛋白质组和全基因组数据集的结果证实了这种非比对的发育树重建方法很有效。4.模体发现。基因是DNA序列中具有遗传信息的基本单元,而影响和控制基因的转录和表达的是转录因子通过与基因调控元件(启动子,增强子,沉默子等)中结合位点相结合实现的,这些结合位点是相对固定又重复出现的5-20bp长度的DNA序列模式,称之为模体。理解基因表达是生物学中的重大挑战,而基因调控元件的识别特别是模体的识别是这个挑战中的一个重要课题。受Tompa等的方法的启发,我们提出利用高阶马尔科夫模型的新尼-串法。首先利用高阶马尔科夫模型描述该背景序列集,在背景高阶马尔科夫模型下,确定每个红串在序列集中的期望频数。再由实际频数与期望频数的相对偏离率,判断缸串是来自随机背景序列还是来自模体的样例。我们用多个HT-SELEX数据集证实了这种舡串法的有效性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
生物模体发现论文参考文献
[1].丁吕.生物网络中的模体发现算法研究[D].湖南大学.2018
[2].阳卫锋.高阶马尔科夫模型在生物发育树重建和模体发现中的应用[D].湘潭大学.2016
[3].于强.生物序列模体发现算法研究[D].西安电子科技大学.2014
[4].郭晓强.一位生物化学家的细胞之旅——德迪夫与溶酶体发现[J].科学.2014
[5].何洁月,赵德京.一种高效的生物网络概率模体发现算法[J].东南大学学报(自然科学版).2012
[6].覃桂敏,高琳,呼加璐.生物网络模体发现算法研究综述[J].电子学报.2009
[7].朱清新,杨凡.生物序列模体发现的最优化模型[J].成都大学学报(自然科学版).2008
[8].周晓锋.一种基于统计的生物网络模体发现算法[D].西安电子科技大学.2008
[9].沈一飞,陈国良,张强峰.基于纳米计算结构上的生物序列模体发现算法[J].小型微型计算机系统.2007
[10].沈一飞.生物序列数据比较与模体发现算法研究[D].中国科学技术大学.2006