论文摘要
非编码RNA不能编码转录成蛋白质,但是在定位、复制、翻译、降解、调节和生物大分子的稳定性等方面却起着不可缺少的作用,这些作用通常和非编码RNA的结构密切相关,而目前实验方法测量RNA结构即困难,又昂贵,因此越来越多的研究者采用计算模拟的方法对RNA结构展开研究,RNA二级结构预测作为三级结构研究的基础,对基因组研究、药物设计等也有很大的作用。而今,随着机器学习、深度学习在人工智能、计算机视觉、图像处理、文本处理、语音识别等领域的广泛应用,许多研究者也开始尝试使用神经网络进行RNA二级结构预测研究。本文对已经在图像分割问题上取得了很好成绩的U-net卷积神经网络进行了改进,引进了focal loss函数作为神经网络的损失函数,有效解决了RNA二级结构预测研究中的正负样本不均衡问题。文中使用的训练集来自RNAstand数据库,包含1128条长度小于500nt的序列,测试集来自PDB数据库,去相似性后包含84条长度小于500nt的序列。保持神经网络结构和数据集不变,分别基于RNA序列的物理化学性质特征,提出了PC-Unet模型,取得的平均PPV为0.654,STY为0.667,MCC为0.647;基于直接耦合分析结果特征,提出了DCA-Unet模型,取得的平均PPV为0.811,STY为0.654,MCC为0.699;基于多序列比对特征,提出了MSAUnet模型,取得的平均PPV为0.803,STY为0.722,MCC为0.742。文中尝试将多序列比对和直接耦合分析结果两种特征进行融合,提出了DCA+MSA-Unet模型,平均PPV为0.779,STY为0.731,MCC为0.743,相较于单个特征模型结果没有提升,反而因噪声而有所下降。因此,又提出将三种模型两两按不同权重进行组合的新方法,其中DCA-Unet模型和MSA-Unet模型组合的最好结果是PPV为0.834,STY为0.655,MCC为0.709,PC-Unet模型和MSA-Unet模型组合的最好结果是PPV为0.838,STY为0.669,MCC为0.726,PC-Unet模型和DCA-Unet模型组合的效果最佳,其最好结果是PPV为0.853,STY为0.628,MCC为0.697,比目前已有的方法的预测精度都较好。
论文目录
文章来源
类型: 硕士论文
作者: 姚洪
导师: 肖奕
关键词: 二级结构预测,卷积神经网络,直接耦合分析,多序列比对,物理化学性质
来源: 华中科技大学
年度: 2019
分类: 基础科学,信息科技
专业: 生物学,自动化技术
单位: 华中科技大学
分类号: TP183;Q522
DOI: 10.27157/d.cnki.ghzku.2019.004346
总页数: 64
文件大小: 1950K
下载量: 184