基于序列的非编码RNA和蛋白质预测及其关联研究

基于序列的非编码RNA和蛋白质预测及其关联研究

论文摘要

随着功能基因组学和表观遗传学的发展,非编码RNA(ncRNA)在生命活动中起的重要作用被越来越多的发掘出来,使得ncRNA迅速成为了科学家们研究的重点。高通量测序的迅猛发展,生物分子序列数据得到飞速累积,从中挖掘ncRNA序列中蕴含的重要生命细胞信息变得越来越迫切。研究表明,ncRNA通常是通过与蛋白质相互作用进而参与细胞活动的。因此,基于序列的非编码RNA和蛋白质预测分析成为计算生物领域关注的焦点问题。本课题以序列特征信息提取方法和预测模型的构建为研究主线,对ncRNA和蛋白质序列预测问题的几个具体问题开展研究工作,包括RNA二级结构序列图形表示、DNA结合蛋白预测、microRNA前体(pre-miRNA)预测以及长非编码RNA(lncRNA)与蛋白质关联预测。本课题主要开展了以下几项研究内容:(1)基于RNA二级结构序列的3D图形表示。首先,基于RNA二级结构序列中碱基的频率以及碱基的物理和化学特性,提出了一种RNA二级结构的3D图形表示方法;进而提出了一种基于距离计算的滑动窗口RNA序列相似性分析方法,并将该序列相似性分析方法应用于植物pre-miRNA的预测当中,构建了三组基准数据集,并与现有几种常用的优秀预测算法相比,本文提出的方法具有很好的预测性能和效率。另外,同很多机器学习方法相比,本文方法操作简单,不需要训练参数,且更为直观。(2)基于进化信息的DNA结合蛋白预测。位置特异性矩阵(PSSM)存储了蛋白质序列的进化信息,本文提出了一种基于PSSM的特征提取方法,命名为KPSSM-Composition,该特征提取方法能有效捕获给定序列进化过程中20个氨基酸残基的信息及序列的局部特征信息。首先,提取序列的K-PSSM-Composition特征信息,并使用递归特征消除方法来优化提取的特征向量;然后,采用支持向量机(SVM)来训练预测模型以预测DNA结合蛋白。在两个标准基准数据集上测试评估本文提出的预测模型与其他预测模型的性能。实验结果显示,本文所提出的方法在预测DNA结合蛋白中较好的预测性能和有效性。(3)基于互信息的pre-miRNA预测。本文提出了一种新的基于互信息的premiRNA序列和二级结构的特征提取算法,该方法能够捕捉pre-miRNA序列碱基之间及二级结构的局部特征之间的互信息关系。此外,所提出的特征向量的维数仅55维,小于大多数流行方法的特征向量维数,这使得本文方法在计算上比竞争对手更有效。最后,使用本文所提取的特征信息来训练支持向量机模型以预测premiRNA并将结果与其他优秀算法进行比较,分别在平衡和不平衡数据集及多物种数据集上进行实验测试,实验结果显示,本文方法具有良好的预测性能。(4)基于多信息融合的lncRNA与蛋白质关联预测。本文提出了一种基于多信息融合的lncRNA蛋白质预测计算模型。首先,提出了用于表示lncRNA和蛋白质相互作用的网络拓扑特性信息特征方法;然后,再分别提取基于蛋白质序列的基本组成特征信息和进化信息,以及提取lncRNA序列特征信息和lncRNA表达谱信息;最后,融合上述特征信息,并采用递归特征消除算法将优化后的特征向量输入至SVM模型。实验结果显示,本文所提出方法在lncRNA蛋白质关联预测中具有很好的有效性和精确度。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  •   1.1 选题背景及意义
  •   1.2 国内外研究现状
  •     1.2.1 RNA二级结构的图形表示研究现状
  •     1.2.2 miRNA预测研究现状
  •     1.2.3 DNA结合蛋白预测研究现状
  •     1.2.4 lncRNA与蛋白质关联预测研究现状
  •   1.3 本文主要工作与贡献
  •   1.4 论文的组织结构
  • 第2章 生物序列特征提取及预测方法研究概述
  •   2.1 两类基本的生物序列
  •     2.1.1 核酸序列
  •     2.1.2 蛋白质序列
  •   2.2 生物分子序列特征信息提取方法
  •     2.2.1 基本组成成分特征提取方法
  •     2.2.2 伪成分组成特征特征提取方法
  •     2.2.3 序列进化信息特征提取方法
  •     2.2.4 二级结构序列特征提取方法
  •     2.2.5 自相关特征提取方法
  •   2.3 预测算法
  •     2.3.1 支持向量机分类算法
  •     2.3.2 K近邻分类算法
  •     2.3.3 贝叶斯分类算法
  •   2.4 小结
  • 第3章 基于RNA二级结构的3D图形表示及其应用研究
  •   3.1 问题描述
  •   3.2 RNA二级结构的3D图形表示模型的框架结构
  •   3.3 数据集及预处理
  •   3.4 RNA二级结构的3D图形表示模型
  •     3.4.1 RNA二级结构的3D图形表示方法构建
  •     3.4.2 滑动窗口的序列相似性距离计算方法
  •   3.5 实验及结果分析
  •   3.6 小结
  • 第4章 基于进化信息的DNA结合蛋白预测方法研究
  •   4.1 问题描述
  •   4.2 DNA结合蛋白预测模型的框架结构
  •   4.3 数据集及预处理
  •   4.4 基于进化信息的DNA结合蛋白预测方法
  •     4.4.1 PSSM矩阵
  •     4.4.2 K-PSSM-composition特征提取算法
  •     4.4.3 特征优化算法
  •   4.5 实验及结果分析
  •     4.5.1 性能评估
  •     4.5.2 与其他的预测算法进行实验比较
  •     4.5.3 特征选择算法对实验性能的影响
  •     4.5.4 参数优化选择
  •   4.6 小结
  • 第5章 基于序列和结构互信息的pre-miRNA预测方法研究
  •   5.1 问题描述
  •   5.2 序列和结构互信息的pre-miRNA预测模型的框架结构
  •   5.3 数据集及预处理
  •   5.4 基于pre-miRNA序列和结构互信息的特征提取方法
  •     5.4.1 基于pre-miRNA序列的互信息特征提取方法(PSFMI)
  •     5.4.2 基于pre-miRNA结构的互信息特征提取方法(SSFMI)
  •   5.5 实验及结果分析
  •     5.5.1 性能评估
  •     5.5.2 不同特征信息子集对实验性能的影响分析
  •     5.5.3 特征向量的重要性分析
  •     5.5.4 支持向量机不同核函数对实验性能的影响
  •     5.5.5 平衡数据集上同其他预测算法的实验比较
  •     5.5.6 不平衡数据集上同其他预测算法的实验比较
  •     5.5.7 不同物种的性能
  •     5.5.8 案例分析
  •     5.5.9 运行时间分析
  •   5.6 小结
  • 第6章 lncRNA-蛋白质关联预测方法研究
  •   6.1 问题描述
  •   6.2 预测模型的总体框架
  •   6.3 数据集及预处理
  •   6.4 特征提取和优化
  •     6.4.1 lncRNA-蛋白质网络拓扑特征
  •     6.4.2 蛋白质进化特征信息
  •     6.4.3 蛋白质序列特征
  •     6.4.4 lncRNA序列特征
  •     6.4.5 lncRNA表达谱特征
  •     6.4.6 特征优化
  •   6.5 实验及结果分析
  •     6.5.1 性能评估
  •     6.5.2 不同特征信息子集对实验性能的影响分析
  •     6.5.3 与其他优秀算法进行实验比较
  •   6.6 小结
  • 结论
  • 参考文献
  • 致谢
  • 附录 A 攻读学位期间所发表的学术论文
  • 附录 B 攻读学位期间主要参与的课题
  • 文章来源

    类型: 博士论文

    作者: 付祥政

    导师: 蔡立军

    关键词: 非编码,序列,图形表达,进化信息,互信息,特征提取,交叉验证

    来源: 湖南大学

    年度: 2019

    分类: 基础科学

    专业: 生物学,生物学

    单位: 湖南大学

    分类号: Q51;Q811.4

    DOI: 10.27135/d.cnki.ghudu.2019.000302

    总页数: 128

    文件大小: 4629K

    下载量: 45

    相关论文文献

    • [1].长链非编码RNA、焦亡和心肌缺血-再灌注损伤[J]. 生物化学与生物物理进展 2019(12)
    • [2].非小细胞肺癌的潜在生物标记物:长链非编码RNA[J]. 现代肿瘤医学 2020(01)
    • [3].非编码RNA在细胞自噬中的研究进展[J]. 中国生物工程杂志 2019(12)
    • [4].环状RNA影响肝疾病的发生发展[J]. 中国生物化学与分子生物学报 2019(12)
    • [5].环状RNA在肝细胞癌中的作用及机制[J]. 中国生物化学与分子生物学报 2019(12)
    • [6].环状RNA在胃癌中的研究进展[J]. 生物技术通讯 2019(06)
    • [7].西花蓟马不同RNA干扰技术比较研究[J]. 福建农业学报 2019(10)
    • [8].微小RNA在非酒精性脂肪肝病中调控作用的研究进展[J]. 重庆医科大学学报 2019(12)
    • [9].卵巢上皮性癌中RNA结合基序蛋白3及环氧化酶-2的表达与意义[J]. 医疗装备 2019(23)
    • [10].非编码RNA在周围神经损伤修复中的重要角色和作用[J]. 中国组织工程研究 2020(14)
    • [11].长链非编码RNA在鼻咽癌中的研究进展[J]. 中国医药 2020(01)
    • [12].微小循环RNA在鉴别前列腺增生和前列腺癌的有效性分析[J]. 临床泌尿外科杂志 2020(01)
    • [13].长链非编码RNA调控肝纤维化信号通路的研究进展[J]. 胃肠病学 2019(11)
    • [14].环状RNA在肺腺癌中的差异表达分析[J]. 东南大学学报(医学版) 2019(06)
    • [15].环状RNA调控结肠直肠癌的研究进展[J]. 外科理论与实践 2019(06)
    • [16].RNA干扰药物——下一代治疗药物?[J]. 科学通报 2020(07)
    • [17].环状RNA生物学功能及其在组织修复过程中的作用[J]. 中国组织工程研究 2020(17)
    • [18].Deep Learning Deciphers Protein–RNA Interaction[J]. Genomics,Proteomics & Bioinformatics 2019(05)
    • [19].CIRCexplorer3:A CLEAR Pipeline for Direct Comparison of Circular and Linear RNA Expression[J]. Genomics,Proteomics & Bioinformatics 2019(05)
    • [20].环状RNA在冠状动脉粥样硬化性心脏病中的研究进展[J]. 心血管病学进展 2019(09)
    • [21].心肌纤维化研究的新领域——长链非编码RNA[J]. 心血管病学进展 2019(09)
    • [22].长链非编码RNA及相关调控通路与急性心肌梗死的研究进展[J]. 心血管病学进展 2019(08)
    • [23].微小RNA在自身免疫性甲状腺疾病中的研究进展[J]. 江苏大学学报(医学版) 2020(01)
    • [24].结直肠癌相关长链非编码RNA调控信号通路研究进展[J]. 西部医学 2020(02)
    • [25].环状RNA与肝癌相互关系的研究进展[J]. 中国卫生检验杂志 2020(03)
    • [26].非编码RNA在葡萄膜炎发生发展过程中的调控作用研究进展[J]. 眼科新进展 2020(01)
    • [27].长链非编码RNA在心血管疾病中的研究进展[J]. 临床误诊误治 2020(02)
    • [28].长链非编码RNA影响糖尿病心肌病的研究[J]. 糖尿病新世界 2020(01)
    • [29].骨肉瘤中环状RNA的研究进展[J]. 临床与病理杂志 2020(02)
    • [30].长链非编码RNA作为肾细胞癌预后生物标志物的研究新进展[J]. 现代肿瘤医学 2020(05)

    标签:;  ;  ;  ;  ;  ;  ;  

    基于序列的非编码RNA和蛋白质预测及其关联研究
    下载Doc文档

    猜你喜欢