导读:本文包含了字符序列的解析数论模型论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:数论,序列,字符,模型,阈值,对偶,频率。
字符序列的解析数论模型论文文献综述
马彬广[1](2003)在《字符序列的解析数论模型及其在生物信息学中的应用》一文中研究指出生物信息学领域内的许多课题可以抽象成字符序列处理问题,例如,基因识别、蛋白质二级结构预测等。字符序列所能提供的信息不外乎来自两个方面:组成和排列。组成方面的信息可以用常规的频率去反映。问题的关键是如何反映字符序列的排列信息。本文在综述了现有算法的基础上,尝试着从数论的角度来看待字符序列分析问题,提出了字符序列的解析数论模型。在该模型中,把字符序列看成是数的表示,从而把字符序列分析问题转化成一个数论问题,并用数学分析方法辅助解决。字符序列解析数论模型的核心概念是对偶描述子,因此,该模型有时也称作“对偶描述子方法”。对偶描述子由两部分组成:组成权重因子和位置权重函数。“组成权重因子”来源于自然计数制中“基数”的概念,是它在实数域上的推广。位置权重函数的概念则是自然数系统中所固有的,它也被推广到了实数域。为了逼近位置权重函数,傅里叶变换、小波变换等理论很自然地被引入到字符序列的处理中来。本文给出了一种基于一定的数据集,来训练对偶描述子的交替式学习方法。训练所得的对偶描述子,就携带了原数据集的特征信息。通过本文提供的D值阈值判别方法,它可以用于字符序列的识别。同时,由于位置权重函数的引入,实现了位置加权统计,由此所得的结果,便是“带位置权重的频率”,简称“加权频率”。加权频率优于常规频率的地方就在于,它不仅可以反映字符序列的组成信息,还能反映它的排列信息。因此,加权频率可以作为字符序列的特征量。有了它,对偶描述子就可以和其他的一些判别方法,比如Fisher判别等,联合使用来进行字符序列的识别了。以DNA序列分析为例,本文演示了对偶描述子在生物信息学中的应用。具体内容包括:序列特征的提取,对偶描述子学习过程的演示,D值阈值判别和加权频率Fisher判别在原核生物基因识别和真核生物外显子识别中的应用。(本文来源于《天津大学》期刊2003-12-01)
字符序列的解析数论模型论文开题报告
字符序列的解析数论模型论文参考文献
[1].马彬广.字符序列的解析数论模型及其在生物信息学中的应用[D].天津大学.2003