基于深度神经网络的长非编码RNA预测方法研究

基于深度神经网络的长非编码RNA预测方法研究

论文摘要

随着高通量转录组测序技术的发展和应用,数以万计的新型RNA得以发现,特别是长非编码RNA(long non-coding RNA,lncRNA)。研究表明,哺乳动物基因组大部分能够被转录,但具有蛋白质编码功能的基因只占其中的1%~2%,而其余都是具有转录活性的非蛋白质编码基因,其转录物称为非编码RNA(noncoding RNA,ncRNA)。过去被认为是“噪音”基因的ncRNA因其复杂的生物功能引起生物学家的注意,ncRNA已成为近年来基因组研究的热点之一。其中,lncRNA的转录本长度一般大于200nt,其翻译能力缺失或者翻译能力较低,并能够广泛参与复杂的生物功能。由于当前技术水平的限制,只有少量lncRNA的功能机制被确定,如调控哺乳动物2号染色体基因表达的HOTAIR,以及主导X染色体灭活过程的Xist等。对lncRNA的准确识别是lncRNA注释和功能研究的基础。传统用于lncRNA预测的计算方法主要有 CPC(Coding-Potential Calculator)、CNCI(Coding-Non-Coding Index)和 CPAT(Coding-Potential Assessment Tool)等。CPC 选取的特征包括开放阅读框(Open Reading Frame,ORF)的长度和质量,采用支持向量机(Support Vector Machine,SVM)模型训练数据。CPC方法在lncRNA预测方面有一定的准确性和容错性,但其训练数据过分依赖蛋白质库的准确性和序列保守性。CNCI主要采用密码子特性作为训练特征,与其他方法相比,CNCI预测精度较低,且耗时较长。CPAT整合多个物种的特征用于逻辑回归(Logistic Regression,LR)模型训练,以达到更好的预测效果。鉴于当前lncRNA注释越来越完善及相关数据不断增加,本文提出通过深度神经网络(Deep Neural Network,DNN)训练lncRNA预测模型,并命名为lncRScan-DNN。与现有的预测方法相比,DNN是一种快速、准确且适用于分类的算法。lncRScan-DNN选取的特征包括k-mer信息、转录本长度、密码子长度(CDSlength)、密码子长度占比(CDSpercentage)、密码子序列得分(CDSscore)和终止密码子标准差(stopcodonstd)。阳性样本数据来自lncRNA数据库GENCODE与NONCODEv5,阴性样本数据来自mRNA数据库UCSC与zflncRNApedia。为了减轻模型过拟合的影响,采用十折交叉验证方法对训练结果进行训练。通过与传统方法(包括CPAT、CNCI和CPA2)进行比较分析,lncRScan-DNN 在特异性(sensitivity)、准确性(accuracy)、马修斯系数(Matthews correlation coefficient)和 receiver operating characteristic curve 曲线(ROC)等性能指标表现更好。另外,lncRScan-DNN还在包括人类、小鼠、大鼠、猪、鸡、斑马鱼、黑猩猩和线形虫8个物种数据上进行了测试和比较,且性能较好。本文提出的lncRScan-DNN方法借助于整合的特征集合和深度神经网络算法,取得了良好的lncRNA预测性能,可作为lcnRNA分析的重要基础。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 研究背景和意义
  •   1.2 长非编码RNA预测研究现状
  •   1.3 本文章节安排
  • 第二章 长非编码RNA预测基础
  •   2.1 RNA相关理论
  •     2.1.1 基于生物功能的RNA分类
  •     2.1.2 基于编码蛋白质能力的RNA分类
  •   2.2 长非编码RNA相关理论及识别基础
  •     2.2.1 长非编码RNA的定义
  •     2.2.2 长非编码RNA的分类
  •     2.2.3 长非编码RNA功能分析
  •     2.2.4 长非编码RNA与人类疾病关系
  •     2.2.5 长非编码RNA相关数据库介绍
  •   2.3 长非编码RNA预测相关的实验方法
  •     2.3.1 覆瓦式微阵列
  •     2.3.2 cDNA文库和EST
  •     2.3.3 染色质签名
  •   2.4 长非编码RNA预测相关的计算方法
  •     2.4.1 基于保守性策略的预测方法
  •     2.4.2 基于机器学习的预测方法
  •   2.5 本章小结
  • 第三章 基于深度神经网络的长非编码RNA预测方法
  •   3.1 长非编码RNA预测方法设计
  •   3.2 训练集和测试集建立
  •     3.2.1 转录本数据
  •     3.2.2 转录本数据去冗余
  •     3.2.3 特征数据去冗余
  •   3.3 特征选择
  •     3.3.1 转录本序列特征
  •     3.3.2 ORF特征
  •     3.3.3 二级结构特征
  •     3.3.4 本文所选特征
  •   3.4 模型构建
  •     3.4.1 深度神经网络基础知识
  •     3.4.2 本文深度神经网络构建
  •   3.5 预测模型的软件实现
  •   3.6 本章小结
  • 第四章 实验结果及分析
  •   4.1 实验结果分析
  •   4.2 不同模型的物种交叉验证
  •   4.3 人类模型补充实验
  •   4.4 模型运行速度分析
  •   4.5 本章小结
  • 第五章 总结展望
  •   5.1 论文工作总结
  •   5.2 下一步研究工作
  • 参考文献
  • 致谢
  • 研究生期间发表论文及参加项目情况
  • 文章来源

    类型: 硕士论文

    作者: 刘珊珊

    导师: 孙磊

    关键词: 转录组测序,长非编码,编码蛋白质,深度神经网络

    来源: 扬州大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 扬州大学

    分类号: Q811.4;TP183

    DOI: 10.27441/d.cnki.gyzdu.2019.001657

    总页数: 72

    文件大小: 4555K

    下载量: 43

    相关论文文献

    • [1].基于优化神经网络的地质灾害监测预警仿真[J]. 计算机仿真 2019(11)
    • [2].基于进化神经网络的304不锈钢车削加工表面粗糙度预测[J]. 轻工机械 2019(06)
    • [3].时频联合长时循环神经网络[J]. 计算机研究与发展 2019(12)
    • [4].几种典型卷积神经网络的权重分析与研究[J]. 青岛大学学报(自然科学版) 2019(04)
    • [5].基于GA-BP神经网络异纤分拣机检测参数优化[J]. 棉纺织技术 2020(01)
    • [6].基于集成神经网络的织物主观风格预测研究[J]. 纺织科技进展 2020(01)
    • [7].试析神经网络技术在机械工程中的应用及发展[J]. 网络安全技术与应用 2020(02)
    • [8].一种深度小波过程神经网络及在时变信号分类中的应用[J]. 软件 2020(02)
    • [9].不同结构深度神经网络的时间域航空电磁数据成像性能分析[J]. 世界地质 2020(01)
    • [10].基于深度神经网络的航班保障时间预测研究[J]. 系统仿真学报 2020(04)
    • [11].基于生成对抗网络和深度神经网络的武器系统效能评估[J]. 计算机应用与软件 2020(02)
    • [12].基于循环神经网络的双轴打捆机智能换挡策略研究[J]. 安徽工程大学学报 2020(01)
    • [13].基于图神经网络的实体对齐研究综述[J]. 现代计算机 2020(09)
    • [14].基于改进的循环神经网络深度学习跌倒检测算法[J]. 电脑编程技巧与维护 2020(03)
    • [15].神经网络探索物理问题[J]. 物理 2020(03)
    • [16].基于GA-BP神经网络的城市用水量预测[J]. 现代电子技术 2020(08)
    • [17].基于深度神经网络的药物蛋白虚拟筛选[J]. 软件工程 2020(05)
    • [18].基于轻量级神经网络的人群计数模型设计[J]. 无线电工程 2020(06)
    • [19].高效深度神经网络综述[J]. 电信科学 2020(04)
    • [20].含磁场耦合忆阻神经网络放电行为研究[J]. 广西师范大学学报(自然科学版) 2020(03)
    • [21].基于神经网络及特征运算的老年人平衡能力分析[J]. 重庆工商大学学报(自然科学版) 2020(04)
    • [22].神经网络技术在机械工程中的应用及发展探析[J]. 科技创新与应用 2020(18)
    • [23].基于竞争神经网络的变电站巡视周期分类[J]. 科技创新与应用 2020(18)
    • [24].基于双向循环神经网络的语音识别算法[J]. 电脑知识与技术 2020(10)
    • [25].结合相似日与改进神经网络的短期光伏发电预测[J]. 广西电业 2020(04)
    • [26].基于神经网络的流感大数据分析[J]. 中华医学图书情报杂志 2020(03)
    • [27].长短时记忆神经网络在地电场数据处理中的应用[J]. 地球物理学报 2020(08)
    • [28].基于门控循环单元神经网络的公交到站时间预测[J]. 南通大学学报(自然科学版) 2020(02)
    • [29].鼠脑神经网络的同步辐射3D成像研究[J]. 核技术 2020(07)
    • [30].基于长短记忆神经网络的短期光伏发电预测技术研究[J]. 华北电力大学学报(自然科学版) 2020(04)

    标签:;  ;  ;  ;  

    基于深度神经网络的长非编码RNA预测方法研究
    下载Doc文档

    猜你喜欢