基于机器学习及长程相关性的RNA二级结构预测

基于机器学习及长程相关性的RNA二级结构预测

论文摘要

核糖核苷酸分子RNA作为生物体内一种大分子,它是存在于生物体中重要的物质,不仅与脱氧核糖核苷酸分子DNA和蛋白质共同协作维持生物体的各项活动的进行,并且在DNA和蛋白质合成中扮演着重要的角色。研究发现,对RNA结构的研究能够帮助我们更加全面地了解RNA分子功能,这样就有利于生物研究学者探索RNA与DNA和蛋白质间的相互关系,从而了解生物体功能并且了解和治疗疾病。RNA分子结构由三部分结构组成:一级序列、二级结构、三级空间结构。RNA三级空间结构是由二级结构单元之间的相互作用,扭曲、折叠等等在空间中形成的稳定结构,因此RNA二级结构的预测对于RNA结构来说起着重要的作用,如何有效地RNA二级结构成为生物信息学领域的重要研究问题之一。传统地预测RNA二级结构的方法都是用实验物理、化学等方法预测其结构。但RNA分子本身具有晶体难以获得、分子降解速度快等特点,所以用物理实验的方法预测其二级结构相对耗时长、成本高。而近年来,人工智能的算法日益崛起,用人工智能的方法在预测分类股票、房价等等各种类别数据的应用上取得了很不错的成效。本文中重点对人工智能中的机器学习中不同的算法预测RNA二级结构做了对比和分析。论文中首先介绍了RNA二级结构的生物学概念和RNA二级结构预测方法的研究现状。根据比较机器学习的相关算法,确定了本文的主要研究工作:(1)深入研究目前机器学习中的各类算法在RNA二级结构预测上的应用,对这些算法的原理和性能优劣进行分析比较。并将这些算法如何预测RNA二级结构以及其预测效率结果做了进一步对比分析,从而选择最佳算法模型。(2)实验通过RNA内在的长程相关性特征信息进一步发现RNA的碱基配对数量这一个特征向量,将其融入到实验先前的算法模型中,从而大大提升了RNA二级结构预测的效率。(3)针对生物学上RNA有些二级结构特征还没有被发现这个缺陷。实验选用深度学习算法中的循环神经网络(RNN)算法来作为新的模型。这个模型的优势在于它可以将数据映射到高维空间中,模型自主地发现RNA一级序列中我们用肉眼或者简单算法发现不了的内在特征。

论文目录

  • 摘要
  • ABSTRACT
  • 1.绪论
  •   1.1 课题背景及意义
  •   1.2 国内外发展现状
  •   1.3 本文研究思路及内容
  •   1.4 机器学习技术
  •     1.4.1 从模型角度分类
  •     1.4.2 从功能角度分类
  • 2.RNA二级结构预测简介
  •   2.1 RNA结构简介
  •     2.1.1 RNA一级序列
  •     2.1.2 RNA二级结构
  •     2.1.3 RNA三级结构
  •   2.2 假结
  •   2.3 RNA二级结构预测
  •     2.3.1 RNA二级结构的表示方法
  •   2.4 RNA二级结构的配对规则
  •   2.5 RNA二级结构预测工具
  •   2.6 本章小结
  • 3.基于机器学习算法的RNA二级结构预测
  •   3.1 支持向量机算法概述
  •     3.1.1 支持向量机原理
  •     3.1.2 SVM的软间隔最大化
  •     3.1.3 核函数
  •     3.1.4 SMO算法
  •     3.1.5 多分类支持向量机
  •   3.2 随机森林算法概述
  •     3.2.1 决策树算法原理
  •   3.3 k邻近算法概述
  •     3.3.1 k邻近算法原理
  •   3.4 数据预处理
  •     3.4.1 输入数据
  •     3.4.2 输出数据
  •   3.5 RNA长程相关性特征提取
  •   3.6 建模与平台基础
  •   3.7 评估模型与实验结果
  •   3.8 本章小结
  • 4.基于递归神经网络的RNA二级结构预测
  •   4.1 递归神经网络对RNA的改进
  •     4.1.1 递归神经网络原理
  •     4.1.2 RNN前向传播及反向传播算法
  •   4.2 LSTM算法原理
  •   4.3 循环神经网络模型搭建
  •     4.3.1 数据预处理
  •     4.3.2 训练阶段
  •   4.4 实验结果
  •   4.5 本章小结
  • 5.总结与展望
  •   5.1 总结
  •   5.2 展望
  • 参考文献
  • 攻读硕士学位期间参加的科研项目以及科研成果
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 耿蕴馨

    导师: 孙婷婷

    关键词: 二级结构预测,机器学习,特征向量,循环神经网络

    来源: 浙江工商大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 浙江工商大学

    分类号: TP181;Q522

    DOI: 10.27462/d.cnki.ghzhc.2019.000372

    总页数: 67

    文件大小: 2449K

    下载量: 14

    相关论文文献

    标签:;  ;  ;  ;  

    基于机器学习及长程相关性的RNA二级结构预测
    下载Doc文档

    猜你喜欢