远程同源识别论文_许景皓

导读:本文包含了远程同源识别论文开题报告文献综述、选题提纲参考文献及外文文献翻译，主要关键词:向量,氨基酸,蛋白质,蛋白,论文,同源性,DNA。

远程同源识别论文文献综述

许景皓^[1]（2014）在《基于序列顺序信息的DNA结合蛋白识别与远程同源性检测》一文中研究指出随着生物测序技术的研究不断深入,蛋白质序列数据呈爆炸性的增长,然而与之相比,蛋白质功能和结构数据增长缓慢。因此有必要利用蛋白质的一级结构预测蛋白质的功能和结构。本文对蛋白质功能和结构预测领域中的两个重要问题进行了深入的研究,包括DNA结合蛋白识别和蛋白质远程同源性检测。本文研究的切入点为探索提取和利用蛋白质序列信息,并将这些信息用于构建预测模型。本文通过结合机器学习方法、自然语言处理技术和蛋白质序列特征提取策略对上述两个问题进行了深入的研究,具体研究内容如下:第一,DNA结合蛋白识别是蛋白质功能预测领域中的一个重要问题。针对这个问题,本文提出两种预测方法Pse DNA-Pro和i DNA-Prot|dis。本文首次把伪氨基酸组成(Pseudo Amino Acid Composition,Pse AAC)应用到这个领域,并针对伪氨基酸组成的不足,提出改进的方案,进而提出了一种新的预测方法Pse DNA-Pro。此外,该方法使用了另外两种蛋白质序列特征:全局氨基酸组成和氨基酸物理化学距离转换。通过采用这叁种特征提取方法,将蛋白质转化为特征向量,之后采用支持向量机(Support Vector Machine,SVM)构建分类器识别DNA结合蛋白。在两个数据集上的结果显示,Pse DNA-Pro预测准确率分别为80.05%和83.33%,优于其他对比实验方法。虽然Pse DNA-Pro方法取得了一定的成功,然而由于伪氨基酸组成忽略了不同氨基酸对的特性,导致该方法对蛋白质序列信息表达不足。针对这个问题,本文提出一种基于氨基酸距离对的预测方法i DNA-Prot|dis。为了进一步提高其预测精度与运行效率,本文采用缩减字母表策略将具有相似性质的氨基酸合并为一类,进而显着降低了特征空间的维数。实验结果显示,i DNA-Prot|dis在预测精度与计算代价方面都优于其他对比实验方法。此外,通过分析SVM训练模型中不同特征的权重,表明本文提出的方法可以有效提取蛋白质序列特征。第二,蛋白质远程同源性检测是蛋白质结构和功能研究的基础。本文提出了两种可以有效包含蛋白质序列顺序信息的蛋白质远程同源性检测方法:SVM-DR(DT)和dis Pse AAC。i DNA-Prot|dis方法表明氨基酸距离对可以有效包含序列的位置信息,本文尝试将该策略用于蛋白质远程同源性检测中,并提出了SVM-DR(DT)方法。该方法通过距离对将蛋白质转化为固定长度的向量。然后结合SVM用于预测蛋白质,采用包含进化信息的蛋白质组份Top-n-gram替换氨基酸使该方法的预测效果得到进一步的提高,实验结果表明该方法的ROC指标为0.948和0.919,优于其他对比实验方法。通过分析SVM训练模型,本文发现距离对的权重与其长度呈反比,因此说明距离较近的氨基酸对对于蛋白质远程同源性检测更加重要,这与蛋白质家族的二级结构特征相吻合。伪氨基酸组成利用了氨基酸理化属性,距离对则包含了远距离氨基酸对的位置信息。为了结合两者的优点,本文提出一种改进的伪氨基酸组成:距离对伪氨基酸组成(distance-pair Pseudo Amino Acid Composition,dis Pse AAC),并将该特征用于蛋白质远程同源性检测。距离对伪氨基酸组成既包含氨基酸的位置信息,还利用了氨基酸的物理化学属性。dis Pse AAC通过采用主成分分析(Principal Component Analysis,PCA)降低了噪音,进一步提高了预测的效果。实验结果表明,该方法的预测效果优于单独使用距离对和伪氨基酸组成,对比基于序列谱的预测方法,该方法的时间复杂度具有更大的优势。(本文来源于《哈尔滨工业大学》期刊2014-12-01）