论文摘要
随着高通量转录组测序技术的发展和应用,数以万计的新型RNA得以发现,特别是长非编码RNA(long non-coding RNA,lncRNA)。研究表明,哺乳动物基因组大部分能够被转录,但具有蛋白质编码功能的基因只占其中的1%~2%,而其余都是具有转录活性的非蛋白质编码基因,其转录物称为非编码RNA(noncoding RNA,ncRNA)。过去被认为是“噪音”基因的ncRNA因其复杂的生物功能引起生物学家的注意,ncRNA已成为近年来基因组研究的热点之一。其中,lncRNA的转录本长度一般大于200nt,其翻译能力缺失或者翻译能力较低,并能够广泛参与复杂的生物功能。由于当前技术水平的限制,只有少量lncRNA的功能机制被确定,如调控哺乳动物2号染色体基因表达的HOTAIR,以及主导X染色体灭活过程的Xist等。对lncRNA的准确识别是lncRNA注释和功能研究的基础。传统用于lncRNA预测的计算方法主要有 CPC(Coding-Potential Calculator)、CNCI(Coding-Non-Coding Index)和 CPAT(Coding-Potential Assessment Tool)等。CPC 选取的特征包括开放阅读框(Open Reading Frame,ORF)的长度和质量,采用支持向量机(Support Vector Machine,SVM)模型训练数据。CPC方法在lncRNA预测方面有一定的准确性和容错性,但其训练数据过分依赖蛋白质库的准确性和序列保守性。CNCI主要采用密码子特性作为训练特征,与其他方法相比,CNCI预测精度较低,且耗时较长。CPAT整合多个物种的特征用于逻辑回归(Logistic Regression,LR)模型训练,以达到更好的预测效果。鉴于当前lncRNA注释越来越完善及相关数据不断增加,本文提出通过深度神经网络(Deep Neural Network,DNN)训练lncRNA预测模型,并命名为lncRScan-DNN。与现有的预测方法相比,DNN是一种快速、准确且适用于分类的算法。lncRScan-DNN选取的特征包括k-mer信息、转录本长度、密码子长度(CDSlength)、密码子长度占比(CDSpercentage)、密码子序列得分(CDSscore)和终止密码子标准差(stopcodonstd)。阳性样本数据来自lncRNA数据库GENCODE与NONCODEv5,阴性样本数据来自mRNA数据库UCSC与zflncRNApedia。为了减轻模型过拟合的影响,采用十折交叉验证方法对训练结果进行训练。通过与传统方法(包括CPAT、CNCI和CPA2)进行比较分析,lncRScan-DNN 在特异性(sensitivity)、准确性(accuracy)、马修斯系数(Matthews correlation coefficient)和 receiver operating characteristic curve 曲线(ROC)等性能指标表现更好。另外,lncRScan-DNN还在包括人类、小鼠、大鼠、猪、鸡、斑马鱼、黑猩猩和线形虫8个物种数据上进行了测试和比较,且性能较好。本文提出的lncRScan-DNN方法借助于整合的特征集合和深度神经网络算法,取得了良好的lncRNA预测性能,可作为lcnRNA分析的重要基础。
论文目录
文章来源
类型: 硕士论文
作者: 刘珊珊
导师: 孙磊
关键词: 转录组测序,长非编码,编码蛋白质,深度神经网络
来源: 扬州大学
年度: 2019
分类: 基础科学,信息科技
专业: 生物学,自动化技术
单位: 扬州大学
分类号: Q811.4;TP183
DOI: 10.27441/d.cnki.gyzdu.2019.001657
总页数: 72
文件大小: 4555K
下载量: 43
相关论文文献
- [1].基于优化神经网络的地质灾害监测预警仿真[J]. 计算机仿真 2019(11)
- [2].基于进化神经网络的304不锈钢车削加工表面粗糙度预测[J]. 轻工机械 2019(06)
- [3].时频联合长时循环神经网络[J]. 计算机研究与发展 2019(12)
- [4].几种典型卷积神经网络的权重分析与研究[J]. 青岛大学学报(自然科学版) 2019(04)
- [5].基于GA-BP神经网络异纤分拣机检测参数优化[J]. 棉纺织技术 2020(01)
- [6].基于集成神经网络的织物主观风格预测研究[J]. 纺织科技进展 2020(01)
- [7].试析神经网络技术在机械工程中的应用及发展[J]. 网络安全技术与应用 2020(02)
- [8].一种深度小波过程神经网络及在时变信号分类中的应用[J]. 软件 2020(02)
- [9].不同结构深度神经网络的时间域航空电磁数据成像性能分析[J]. 世界地质 2020(01)
- [10].基于深度神经网络的航班保障时间预测研究[J]. 系统仿真学报 2020(04)
- [11].基于生成对抗网络和深度神经网络的武器系统效能评估[J]. 计算机应用与软件 2020(02)
- [12].基于循环神经网络的双轴打捆机智能换挡策略研究[J]. 安徽工程大学学报 2020(01)
- [13].基于图神经网络的实体对齐研究综述[J]. 现代计算机 2020(09)
- [14].基于改进的循环神经网络深度学习跌倒检测算法[J]. 电脑编程技巧与维护 2020(03)
- [15].神经网络探索物理问题[J]. 物理 2020(03)
- [16].基于GA-BP神经网络的城市用水量预测[J]. 现代电子技术 2020(08)
- [17].基于深度神经网络的药物蛋白虚拟筛选[J]. 软件工程 2020(05)
- [18].基于轻量级神经网络的人群计数模型设计[J]. 无线电工程 2020(06)
- [19].高效深度神经网络综述[J]. 电信科学 2020(04)
- [20].含磁场耦合忆阻神经网络放电行为研究[J]. 广西师范大学学报(自然科学版) 2020(03)
- [21].基于神经网络及特征运算的老年人平衡能力分析[J]. 重庆工商大学学报(自然科学版) 2020(04)
- [22].神经网络技术在机械工程中的应用及发展探析[J]. 科技创新与应用 2020(18)
- [23].基于竞争神经网络的变电站巡视周期分类[J]. 科技创新与应用 2020(18)
- [24].基于双向循环神经网络的语音识别算法[J]. 电脑知识与技术 2020(10)
- [25].结合相似日与改进神经网络的短期光伏发电预测[J]. 广西电业 2020(04)
- [26].基于神经网络的流感大数据分析[J]. 中华医学图书情报杂志 2020(03)
- [27].长短时记忆神经网络在地电场数据处理中的应用[J]. 地球物理学报 2020(08)
- [28].基于门控循环单元神经网络的公交到站时间预测[J]. 南通大学学报(自然科学版) 2020(02)
- [29].鼠脑神经网络的同步辐射3D成像研究[J]. 核技术 2020(07)
- [30].基于长短记忆神经网络的短期光伏发电预测技术研究[J]. 华北电力大学学报(自然科学版) 2020(04)