基于序列模式深度挖掘的微小RNA亚细胞定位研究

基于序列模式深度挖掘的微小RNA亚细胞定位研究

论文摘要

微小RNA(miRNA)是动物和植物中存在的一种长度约为22个核苷酸的非编码RNA,它在生物体的生命活动中参与了多种细胞过程,包括生物体内的发育、增殖、分化和代谢,并在转录后基因调控中发挥重要的作用。因为其对基因调控有重要的影响,miRNA在生物医疗领域也有重要的意义,特别是在许多复杂疾病中,miRNA已被证明是预后生物标记物和药物靶标。最近的一些研究发现miRNA可以靶向各种细胞区室,并且在细胞中具有丰富的定位模式。然而,据我们所知,迄今为止还没有用于预测miRNA亚细胞位置的计算工具,主要原因是缺乏有用的信息来源,在很大程度上限制了使用传统统计学习方法的预测性能。我们对miRNA亚细胞分类模型的各个模块进行了分析。首先针对输入miRNA序列的表示方式,探讨了多种分词和序列表示方式;其次针对输出的标记序列化,探讨了常见多标记分类的做法,并提出了一种基于熵的排序方法;最后针对miRNA稀缺的生物特征的问题,介绍了一种计算miRNA基因本体相似度的方法,并使用矩阵分解技术提取出miRNA的基因本体特征表示。在本研究中将miRNA亚细胞定位任务视为一种序列到序列学习过程,并提出了基于注意力机制的编码器-解码器模型miRLocator来识别人类的miRNA亚细胞位置。本文所设计的miRLocator使用双向长短期记忆(BiLSTM)模块对输入序列进行编码,使用LSTM模块将这些上下文向量解码为亚细胞位置集合。具体而言,本文提出了 RNA2Vec这种新的RNA编码方法,还提出了基于熵的方法来确定亚细胞的输出顺序表示,并加入了生物领域特征来提升模型性能。实验结果表明,miRLocator在输入信息有限的情况下实现了良好的预测精度,并且优于其它使用人工设计的特征和传统的RNN模型。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  •   1.1 研究背景及意义
  •   1.2 课题研究内容
  •   1.3 课题难点
  •   1.4 本文组织结构
  • 第二章 序列特征提取研究现状
  •   2.1 基于生物领域知识的统计特征方法
  •     2.1.1 K元组核苷酸组成
  •     2.1.2 基于伪核糖核苷酸组成的方法
  •     2.1.3 基于结构组成的方法
  •   2.2 RNA序列编码方法
  •     2.2.1 One-hot编码方式
  •     2.2.2 连续分布式表示
  •   2.3 本章小结
  • 第三章 多标记学习与深度学习
  •   3.1 多标记学习
  •     3.1.1 任务定义
  •     3.1.2 评价指标
  •     3.1.3 常见的多标记算法
  •   3.2 神经网络与深度学习
  •     3.2.1 神经网络简介
  •     3.2.2 反向传播算法
  •     3.2.3 循环神经网络
  •   3.3 本章小结
  • 第四章 一种基于序列到序列框架的miRNA亚细胞定位模型
  •   4.1 对输入序列的处理
  •     4.1.1 计算miRNA序列的最大词长
  •     4.1.2 候选词打分方法
  •     4.1.3 miRNA的稠密词向量表示
  •   4.2 对输出顺序的处理
  •     4.2.1 分类链算法
  •     4.2.2 输出序列化
  •   4.3 对生物领域特征的使用
  •     4.3.1 miRNA GO相似度算法
  •     4.3.2 矩阵分解
  •   4.4 对模型的整体设计
  •     4.4.1 模型编码模块
  •     4.4.2 模型解码模块
  •     4.4.3 束搜索模块
  •     4.4.4 注意力机制模块
  •   4.5 本章小结
  • 第五章 数据集构建与实验分析
  •   5.1 实验数据集的构建
  •   5.2 实验设置
  •   5.3 模块有效性分析
  •     5.3.1 序列编码方式的有效性
  •     5.3.2 序列分词方式的有效性
  •     5.3.3 多标记输出顺序的有效性
  •   5.4 实验结果与分析
  •   5.5 本章小结
  • 全文总结
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文
  • 攻读学位期间参与的项目
  • 文章来源

    类型: 硕士论文

    作者: 肖逸群

    导师: 杨旸

    关键词: 亚细胞定位,序列到序列框架

    来源: 上海交通大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 上海交通大学

    分类号: Q522;TP18

    DOI: 10.27307/d.cnki.gsjtu.2019.002779

    总页数: 81

    文件大小: 3704K

    下载量: 14

    相关论文文献

    • [1].长链非编码RNA、焦亡和心肌缺血-再灌注损伤[J]. 生物化学与生物物理进展 2019(12)
    • [2].非小细胞肺癌的潜在生物标记物:长链非编码RNA[J]. 现代肿瘤医学 2020(01)
    • [3].非编码RNA在细胞自噬中的研究进展[J]. 中国生物工程杂志 2019(12)
    • [4].环状RNA影响肝疾病的发生发展[J]. 中国生物化学与分子生物学报 2019(12)
    • [5].环状RNA在肝细胞癌中的作用及机制[J]. 中国生物化学与分子生物学报 2019(12)
    • [6].环状RNA在胃癌中的研究进展[J]. 生物技术通讯 2019(06)
    • [7].西花蓟马不同RNA干扰技术比较研究[J]. 福建农业学报 2019(10)
    • [8].微小RNA在非酒精性脂肪肝病中调控作用的研究进展[J]. 重庆医科大学学报 2019(12)
    • [9].卵巢上皮性癌中RNA结合基序蛋白3及环氧化酶-2的表达与意义[J]. 医疗装备 2019(23)
    • [10].非编码RNA在周围神经损伤修复中的重要角色和作用[J]. 中国组织工程研究 2020(14)
    • [11].长链非编码RNA在鼻咽癌中的研究进展[J]. 中国医药 2020(01)
    • [12].微小循环RNA在鉴别前列腺增生和前列腺癌的有效性分析[J]. 临床泌尿外科杂志 2020(01)
    • [13].长链非编码RNA调控肝纤维化信号通路的研究进展[J]. 胃肠病学 2019(11)
    • [14].环状RNA在肺腺癌中的差异表达分析[J]. 东南大学学报(医学版) 2019(06)
    • [15].环状RNA调控结肠直肠癌的研究进展[J]. 外科理论与实践 2019(06)
    • [16].RNA干扰药物——下一代治疗药物?[J]. 科学通报 2020(07)
    • [17].环状RNA生物学功能及其在组织修复过程中的作用[J]. 中国组织工程研究 2020(17)
    • [18].Deep Learning Deciphers Protein–RNA Interaction[J]. Genomics,Proteomics & Bioinformatics 2019(05)
    • [19].CIRCexplorer3:A CLEAR Pipeline for Direct Comparison of Circular and Linear RNA Expression[J]. Genomics,Proteomics & Bioinformatics 2019(05)
    • [20].环状RNA在冠状动脉粥样硬化性心脏病中的研究进展[J]. 心血管病学进展 2019(09)
    • [21].心肌纤维化研究的新领域——长链非编码RNA[J]. 心血管病学进展 2019(09)
    • [22].长链非编码RNA及相关调控通路与急性心肌梗死的研究进展[J]. 心血管病学进展 2019(08)
    • [23].微小RNA在自身免疫性甲状腺疾病中的研究进展[J]. 江苏大学学报(医学版) 2020(01)
    • [24].结直肠癌相关长链非编码RNA调控信号通路研究进展[J]. 西部医学 2020(02)
    • [25].环状RNA与肝癌相互关系的研究进展[J]. 中国卫生检验杂志 2020(03)
    • [26].非编码RNA在葡萄膜炎发生发展过程中的调控作用研究进展[J]. 眼科新进展 2020(01)
    • [27].长链非编码RNA在心血管疾病中的研究进展[J]. 临床误诊误治 2020(02)
    • [28].长链非编码RNA影响糖尿病心肌病的研究[J]. 糖尿病新世界 2020(01)
    • [29].骨肉瘤中环状RNA的研究进展[J]. 临床与病理杂志 2020(02)
    • [30].长链非编码RNA作为肾细胞癌预后生物标志物的研究新进展[J]. 现代肿瘤医学 2020(05)

    标签:;  ;  

    基于序列模式深度挖掘的微小RNA亚细胞定位研究
    下载Doc文档

    猜你喜欢