基于集成学习的全基因组水平蛋白质-RNA相互作用预测研究

基于集成学习的全基因组水平蛋白质-RNA相互作用预测研究

论文摘要

RNA和蛋白质之间的相互作用在调节生物体各种细胞过程(例如基因表达调节)中发挥着至关重要的作用,而对于它们之间的相互作用网络研究却始终得不到突破性进展。一方面,传统的RNA蛋白质相互作用预测模型多是基于它们的结构信息来构建的,但这类基于包含结构信息的小数据集构建的计算模型泛化性能不强,数据集的来源也较局限。另一方面,现阶段大多数分类预测模型都是基于单分类器的,然而机器学习的相关理论研究表明,集成分类器较单分类器而言具有更高的预测准确性以及更好的稳定性和泛化能力。针对目前预测RNA和蛋白质之间相互作用工作存在的挑战与难题,本文基于RNA和蛋白质序列信息提出了两种不同的计算模型来预测其之间的相互作用关系。首先,本文提出了一种基于堆叠自编码器网络并结合随机森林分类器的预测模型。该模型分别使用位置特异性打分矩阵和k-mer矩阵来表示蛋白质和RNA序列,然后再分别使用bi-gram和奇异值分解提取对应的特征向量。该预测模型还使用了一个深度学习堆叠自编码器来学习并融合这些向量中的高级隐藏信息。接着将这些特征和标签输入随机森林分类器训练得到预测模型。此外,本模型还使用了堆叠的集成策略来整合集成三个不同的基础预测模型以改善模型性能。基于三个公开数据集的实验表明,通过将深度学习和特征提取相结合,并使用集成学习整合多个分类模型的方法能够提升RNA蛋白质相互作用预测模型的性能。本文还提出了一种基于boosting集成学习LightGBM分类器的RNA和蛋白质相互作用预测模型。该模型也分别使用位置特异性打分矩阵和k-mer矩阵来表示蛋白质和RNA序列,然后再分别使用伪Zernike矩和奇异值分解提取对应的特征向量。此外,模型将这些特征随同标签一起输入LightGBM分类器训练得到最终的预测模型。基于四个公开数据集的实验表明,应用LightGBM的预测模型在减少训练时间和内存的同时,还能保持很好的分类预测性能。

论文目录

  • 致谢
  • 摘要
  • abstract
  • 1 绪论
  •   1.1 选题背景与意义
  •   1.2 各章内容介绍
  •   1.3 本章小结
  • 2 相关理论及技术原理
  •   2.1 基于bi-gram的蛋白质特征抽取方法
  •   2.2 基于伪Zernike矩的蛋白质特征抽取方法
  •   2.3 基于k-mer的RNA特征抽取方法
  •   2.4 集成学习
  •   2.5 本章小结
  • 3 基于bi-gram和深度学习的蛋白质和RNA相互作用预测模型
  •   3.1 模型架构
  •   3.2 堆叠自编码器
  •   3.3 随机森林分类器
  •   3.4 堆叠集成策略
  •   3.5 数据集和评价标准
  •   3.6 实验结果与分析
  •   3.7 本章小结
  • 4 基于伪Zernike矩和LightGBM的蛋白质和RNA相互作用预测模型
  •   4.1 模型架构
  •   4.2 LightGBM分类器
  •   4.3 数据集和评价标准
  •   4.4 实验结果与分析
  •   4.5 本章小结
  • 5 总结与展望
  •   5.1 总结
  •   5.2 展望
  •   5.3 本章小结
  • 参考文献
  • 作者简历
  • 学位论文数据集
  • 文章来源

    类型: 硕士论文

    作者: 詹朝惠

    导师: 尤著宏

    关键词: 蛋白质相互作用,堆叠自编码器,集成学习

    来源: 中国矿业大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 中国矿业大学

    分类号: TP181;Q811.4

    总页数: 66

    文件大小: 2134K

    下载量: 107

    相关论文文献

    • [1].长链非编码RNA、焦亡和心肌缺血-再灌注损伤[J]. 生物化学与生物物理进展 2019(12)
    • [2].非小细胞肺癌的潜在生物标记物:长链非编码RNA[J]. 现代肿瘤医学 2020(01)
    • [3].非编码RNA在细胞自噬中的研究进展[J]. 中国生物工程杂志 2019(12)
    • [4].环状RNA影响肝疾病的发生发展[J]. 中国生物化学与分子生物学报 2019(12)
    • [5].环状RNA在肝细胞癌中的作用及机制[J]. 中国生物化学与分子生物学报 2019(12)
    • [6].环状RNA在胃癌中的研究进展[J]. 生物技术通讯 2019(06)
    • [7].西花蓟马不同RNA干扰技术比较研究[J]. 福建农业学报 2019(10)
    • [8].微小RNA在非酒精性脂肪肝病中调控作用的研究进展[J]. 重庆医科大学学报 2019(12)
    • [9].卵巢上皮性癌中RNA结合基序蛋白3及环氧化酶-2的表达与意义[J]. 医疗装备 2019(23)
    • [10].非编码RNA在周围神经损伤修复中的重要角色和作用[J]. 中国组织工程研究 2020(14)
    • [11].长链非编码RNA在鼻咽癌中的研究进展[J]. 中国医药 2020(01)
    • [12].微小循环RNA在鉴别前列腺增生和前列腺癌的有效性分析[J]. 临床泌尿外科杂志 2020(01)
    • [13].长链非编码RNA调控肝纤维化信号通路的研究进展[J]. 胃肠病学 2019(11)
    • [14].环状RNA在肺腺癌中的差异表达分析[J]. 东南大学学报(医学版) 2019(06)
    • [15].环状RNA调控结肠直肠癌的研究进展[J]. 外科理论与实践 2019(06)
    • [16].RNA干扰药物——下一代治疗药物?[J]. 科学通报 2020(07)
    • [17].环状RNA生物学功能及其在组织修复过程中的作用[J]. 中国组织工程研究 2020(17)
    • [18].Deep Learning Deciphers Protein–RNA Interaction[J]. Genomics,Proteomics & Bioinformatics 2019(05)
    • [19].CIRCexplorer3:A CLEAR Pipeline for Direct Comparison of Circular and Linear RNA Expression[J]. Genomics,Proteomics & Bioinformatics 2019(05)
    • [20].环状RNA在冠状动脉粥样硬化性心脏病中的研究进展[J]. 心血管病学进展 2019(09)
    • [21].心肌纤维化研究的新领域——长链非编码RNA[J]. 心血管病学进展 2019(09)
    • [22].长链非编码RNA及相关调控通路与急性心肌梗死的研究进展[J]. 心血管病学进展 2019(08)
    • [23].微小RNA在自身免疫性甲状腺疾病中的研究进展[J]. 江苏大学学报(医学版) 2020(01)
    • [24].结直肠癌相关长链非编码RNA调控信号通路研究进展[J]. 西部医学 2020(02)
    • [25].环状RNA与肝癌相互关系的研究进展[J]. 中国卫生检验杂志 2020(03)
    • [26].非编码RNA在葡萄膜炎发生发展过程中的调控作用研究进展[J]. 眼科新进展 2020(01)
    • [27].长链非编码RNA在心血管疾病中的研究进展[J]. 临床误诊误治 2020(02)
    • [28].长链非编码RNA影响糖尿病心肌病的研究[J]. 糖尿病新世界 2020(01)
    • [29].骨肉瘤中环状RNA的研究进展[J]. 临床与病理杂志 2020(02)
    • [30].长链非编码RNA作为肾细胞癌预后生物标志物的研究新进展[J]. 现代肿瘤医学 2020(05)

    标签:;  ;  ;  

    基于集成学习的全基因组水平蛋白质-RNA相互作用预测研究
    下载Doc文档

    猜你喜欢