基于U-net卷积神经网络的RNA二级结构预测研究

基于U-net卷积神经网络的RNA二级结构预测研究

论文摘要

非编码RNA不能编码转录成蛋白质,但是在定位、复制、翻译、降解、调节和生物大分子的稳定性等方面却起着不可缺少的作用,这些作用通常和非编码RNA的结构密切相关,而目前实验方法测量RNA结构即困难,又昂贵,因此越来越多的研究者采用计算模拟的方法对RNA结构展开研究,RNA二级结构预测作为三级结构研究的基础,对基因组研究、药物设计等也有很大的作用。而今,随着机器学习、深度学习在人工智能、计算机视觉、图像处理、文本处理、语音识别等领域的广泛应用,许多研究者也开始尝试使用神经网络进行RNA二级结构预测研究。本文对已经在图像分割问题上取得了很好成绩的U-net卷积神经网络进行了改进,引进了focal loss函数作为神经网络的损失函数,有效解决了RNA二级结构预测研究中的正负样本不均衡问题。文中使用的训练集来自RNAstand数据库,包含1128条长度小于500nt的序列,测试集来自PDB数据库,去相似性后包含84条长度小于500nt的序列。保持神经网络结构和数据集不变,分别基于RNA序列的物理化学性质特征,提出了PC-Unet模型,取得的平均PPV为0.654,STY为0.667,MCC为0.647;基于直接耦合分析结果特征,提出了DCA-Unet模型,取得的平均PPV为0.811,STY为0.654,MCC为0.699;基于多序列比对特征,提出了MSAUnet模型,取得的平均PPV为0.803,STY为0.722,MCC为0.742。文中尝试将多序列比对和直接耦合分析结果两种特征进行融合,提出了DCA+MSA-Unet模型,平均PPV为0.779,STY为0.731,MCC为0.743,相较于单个特征模型结果没有提升,反而因噪声而有所下降。因此,又提出将三种模型两两按不同权重进行组合的新方法,其中DCA-Unet模型和MSA-Unet模型组合的最好结果是PPV为0.834,STY为0.655,MCC为0.709,PC-Unet模型和MSA-Unet模型组合的最好结果是PPV为0.838,STY为0.669,MCC为0.726,PC-Unet模型和DCA-Unet模型组合的效果最佳,其最好结果是PPV为0.853,STY为0.628,MCC为0.697,比目前已有的方法的预测精度都较好。

论文目录

  • 摘要
  • Abstract
  • 1.绪论
  •   1.1 研究背景及介绍
  •   1.2 RNA二级结构预测方法介绍
  •     1.2.1 热力学法
  •     1.2.2 多序列比对法
  •     1.2.3 混合研究法
  •     1.2.4 基于机器学习和深度学习的研究方法
  •   1.3 本文的主要研究内容
  • 2.原理介绍
  •   2.1 多序列比对(Multi-sequence alignment,MSA)
  •   2.2 直接耦合分析(Direct-coupling analysis,DCA)
  •   2.3 物理化学性质(Physical-chemical properties,PC)
  • 3.方法介绍
  •   3.1 U-net卷积神经网络结构
  •   3.2 输入和输出
  •     3.2.1 基于PC-Unet模型预测RNA二级结构
  •     3.2.2 基于DCA-Unet模型预测RNA二级结构
  •     3.2.3 基于MSA-Unet模型预测RNA二级结构
  •     3.2.4 基于MSA+DCA-Unet模型预测RNA二级结构
  •     3.2.5 基于Unet组合模型预测RNA二级结构
  •   3.3 训练与测试
  •   3.4 转换成二级结构并去掉非标准配对
  • 4.结果和分析
  •   4.1 PC-Unet模型的结果和分析
  •   4.2 DCA-Unet模型的结果和分析
  •   4.3 MSA-Unet模型的结果和分析
  •   4.4 MSA+DCA-Unet模型的结果和分析
  •   4.5 Unet组合模型对比分析
  •   4.6 综合对比分析
  • 5.全文总结与展望
  • 致谢
  • 参考文献
  • 文章来源

    类型: 硕士论文

    作者: 姚洪

    导师: 肖奕

    关键词: 二级结构预测,卷积神经网络,直接耦合分析,多序列比对,物理化学性质

    来源: 华中科技大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 华中科技大学

    分类号: TP183;Q522

    DOI: 10.27157/d.cnki.ghzku.2019.004346

    总页数: 64

    文件大小: 1950K

    下载量: 184

    相关论文文献

    标签:;  ;  ;  ;  ;  

    基于U-net卷积神经网络的RNA二级结构预测研究
    下载Doc文档

    猜你喜欢