基于深度学习的跨物种M6A修饰位点预测研究

基于深度学习的跨物种M6A修饰位点预测研究

论文摘要

RNA转录后修饰是对转录后的RNA进行加工的过程,在许多生命过程中发挥着重要作用。目前鉴定到的已有150余种转录后修饰,其中N6-甲基腺苷(N6-methyladenosine,m6A)是RNA转录后修饰中最为常见的一类,其广泛地存在于哺乳动物,酿酒酵母和拟南芥等物种中。M6A是一种可逆修饰,其调节着RNA的定位、转录、剪接和稳定性。此外其与肿瘤、肥胖症等疾病具有关联。因此,从RNA序列中精准地鉴定出m6A修饰位点,对基础研究和药物开发有着重大意义,是一项非常有意义的工作。传统的基于生化实验来识别m6A修饰位点的方法不仅耗时长、成本高,而且规模较小。近年来,研究人员开发出了多个基于机器学习的m6A修饰位点预测器,但是其都是面向单一物种且预测精度有限。因此,设计一种高精度的跨物种m6A修饰位点预测模型,是非常有必要的。本文对m6A修饰位点预测问题进行了研究,主要工作如下:(1)对基于RNA序列的m6A修饰位点预测问题进行研究,提出一种新型的RNA序列特征提取方法,即改进的核苷酸组成成分(Enhanced Nucleic Acid Composition,ENAC)。该方法利用滑动窗口的思想,分别计算滑动窗口中每种核苷酸出现的频率。此方法融合了序列的局部信息和全局信息,能够更好地表达修饰位点周围RNA序列的特征。基于此特征提取方法,构建了随机森林预测模型。实验结果表明,与常见的RNA序列特征提取方法相比,该方法能有效提高N6-甲基腺苷位点的预测性能。(2)将深度学习应用于m6A修饰位点预测,提出了基于单向门控循环单元(Unidirectional GRU-based RNN predictor,UGRU)和双向门控循环单元(Bidirectional Gated Recurrent Unit,BGRU)的m6A修饰位点预测模型。实验结果表明,BGRU预测模型在多物种上具有更好的预测结果。(3)通过逻辑回归的方法,融合基于深度学习的BGRU预测模型和基于ENAC方法的随机森林预测模型,构建了一个高精度的跨物种m6A修饰位点预测模型,BERMP方法。实验结果表明,在多个物种上,本文提出的BERMP方法在相同独立测试集上的预测性能都要优于现有的单物种m6A修饰位点预测方法。(4)对提出的BERMP方法提供了在线的预测服务平台,以便相关研究人员免费地使用(http://www.bioinfogo.org/bermp/)。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 研究背景及意义
  •     1.1.1 生物信息学概述
  • 6A修饰简介'>    1.1.2 M6A修饰简介
  • 6A修饰位点鉴定的研究现状'>  1.2 M6A修饰位点鉴定的研究现状
  •     1.2.1 基于实验的m6A修饰位点鉴定方法
  •     1.2.2 基于计算模型的m6A修饰位点预测方法
  •   1.3 本文研究工作
  •   1.4 本文章节安排
  • 第二章 机器学习与深度学习方法相关知识
  •   2.1 常用机器学习方法
  •     2.1.1 支持向量机
  •     2.1.2 随机森林
  •   2.2 常用深度学习方法
  •     2.2.1 多层感知机
  •     2.2.2 卷积神经网络
  •     2.2.3 循环神经网络
  •   2.3 深度学习优化方法
  •   2.4 深度学习关键技术
  •   2.5 本章小结
  • 6A修饰位点预测方法'>第三章 基于ENAC方法的多物种m6A修饰位点预测方法
  •   3.1 数据集
  •   3.2 特征提取
  •     3.2.1 伪核苷酸组成成分
  •     3.2.2 K-间隔核苷酸对频率
  •     3.2.3 K-mer核苷酸频率
  •     3.2.4 改进的核苷酸组成成分
  •   3.3 基于ENAC方法的随机森林预测模型构建与评价指标
  •   3.4 实验结果与分析
  •   3.5 本章小结
  • 6A修饰位点预测方法'>第四章 基于深度学习的m6A修饰位点预测方法
  •   4.1 基于门控循环单元的深度学习模型
  •   4.2 实验结果与分析
  •     4.2.1 UGRU和 BGRU模型性能评估
  •     4.2.2 数据集大小对深度学习模型的性能影响
  •     4.2.3 整合BGRU模型和基于ENAC方法的随机森林预测模型建立
  •     4.2.4 与现有单物种预测器的比较
  •   4.3 BERMP在线预测网站简介
  •   4.4 本章小结
  • 第五章 总结与展望
  •   5.1 总结
  •   5.2 展望
  • 参考文献
  • 攻读学位期间的研究成果
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 黄宇

    导师: 李磊

    关键词: 生物信息学,深度学习,双向门控循环单元,甲基腺苷,随机森林

    来源: 青岛大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 青岛大学

    分类号: Q811.4;TP18

    DOI: 10.27262/d.cnki.gqdau.2019.001819

    总页数: 55

    文件大小: 4729K

    下载量: 145

    相关论文文献

    • [1].基于迭代随机森林算法的糖尿病预测[J]. 长春工业大学学报 2019(06)
    • [2].基于改进随机森林的城市河流水生态健康评价研究[J]. 海河水利 2019(06)
    • [3].基于随机森林癫痫患者脑电数据的分析研究[J]. 中国数字医学 2020(01)
    • [4].基于局部均值分解和迭代随机森林的脑电分类[J]. 吉林大学学报(信息科学版) 2020(01)
    • [5].网贷平台数据的随机森林预测模型实证分析[J]. 宜宾学院学报 2019(12)
    • [6].采用单类随机森林的异常检测方法及应用[J]. 西安交通大学学报 2020(02)
    • [7].随机森林数据情感挖掘方法分析[J]. 通讯世界 2020(01)
    • [8].运用最大熵模型和随机森林模型对东北红松分布的模拟[J]. 东北林业大学学报 2020(03)
    • [9].基于随机森林算法的城区土地覆盖分类研究[J]. 河北省科学院学报 2020(01)
    • [10].运用随机森林模型对北京市林分蓄积生长量的预测[J]. 东北林业大学学报 2020(05)
    • [11].融合人工鱼群和随机森林算法的膝关节接触力预测[J]. 中国医学物理学杂志 2020(04)
    • [12].结合特征选择和优化随机森林的无线网络数据丢失重建[J]. 上海电力大学学报 2020(03)
    • [13].基于随机森林算法的耕地质量定级指标体系研究[J]. 华南农业大学学报 2020(04)
    • [14].一种基于随机森林的组合分类算法设计与应用[J]. 电子设计工程 2020(16)
    • [15].基于随机森林算法的日光温室内气温预测模型研究[J]. 中国农学通报 2020(25)
    • [16].基于因子分析和迭代随机森林方法的学生成绩综合评价——以都匀市某高中为例[J]. 黔南民族师范学院学报 2020(04)
    • [17].基于随机森林模拟的辽宁省降水量空间分布研究[J]. 陕西水利 2020(09)
    • [18].随机森林模型在膝关节炎患者结构特征与症状定量分析中的应用(英文)[J]. 磁共振成像 2020(10)
    • [19].基于特征选择的极限随机森林算法研究[J]. 计算机应用研究 2020(09)
    • [20].随机森林回归分析方法在代谢组学批次效应移除中的应用[J]. 中国卫生统计 2020(05)
    • [21].一种面向非均衡分类的随机森林算法[J]. 计算机与现代化 2018(12)
    • [22].随机森林模型和决策树模型在肝硬化上消化道出血预后中的应用[J]. 中国卫生统计 2019(02)
    • [23].基于随机森林的债券违约分析[J]. 当代经济 2018(03)
    • [24].基于改进网格搜索算法的随机森林参数优化[J]. 计算机工程与应用 2018(10)
    • [25].随机森林在城市不透水面提取中的应用研究[J]. 云南师范大学学报(自然科学版) 2017(03)
    • [26].一种顺序响应的随机森林:变量预测和选择[J]. 小型微型计算机系统 2017(08)
    • [27].基于随机森林回归的军械器材需求预测[J]. 自动化应用 2017(09)
    • [28].流式大数据下随机森林方法及应用[J]. 西北工业大学学报 2015(06)
    • [29].面向高维数据的随机森林算法优化探讨[J]. 商 2016(04)
    • [30].深度随机森林在离网预测中的应用[J]. 计算机科学 2016(06)

    标签:;  ;  ;  ;  ;  

    基于深度学习的跨物种M6A修饰位点预测研究
    下载Doc文档

    猜你喜欢