基于矩阵分解算法的改进及在长非编RNA调控预测中的应用研究

基于矩阵分解算法的改进及在长非编RNA调控预测中的应用研究

论文摘要

随着大数据时代的到来,在生物信息领域,越来越多数据有待挖掘。然而,目前的生物数据大部分是经过生物医学实验得出的,显然,其花费的成本以及耗费的精力是巨大的。最近几年,随着人工智能的普及发展,越来越多的科研人员将智能算法应用在生物大数据挖掘和分析的方向。其中,长非编码RNA是一种最近才被重视的生物大分子,其可以调控蛋白质以及微小RNA,从而对疾病产生影响。运用智能算法来研究长非编码RNA与其他分子的关系预测是当前的研究热点。在本文中,我们提出了基于矩阵分解的改进算法。该算法主要在隐语义模型的基础上,将矩阵分解后的隐因子向量用逻辑函数表示成概率值,该值表明了对应的用户和项目的关系得分。通过带逻辑函数的隐语义模型能够对推荐的结果有更好的解释,同时也有利于计算和表示,但是该方法并没有利用到协同过滤,对于用户和项目各自之间的相邻关系没有考虑。因此,我们引入了图正则化的思想将用户和项目的相似性融入到目标函数,相似性越强则对应的隐因子向量越接近。加入图正则化的逻辑矩阵分解可以实现协同过滤,但是实际中往往相似性越高的用户会对同一项目产生偏好,因此我们又根据K近邻的思想保留样本间的最强相似性,提高其在协同过滤中的影响,从而提高预测精确度。最后,我们将改进的矩阵分解算法应用在了生物信息学领域,分别是长非编码RNA-蛋白质相互作用预测和长非编码RNA-微小RNA相互作用预测。我们将长非编码RNA-蛋白质以及长非编码RNA-微小RNA近似为用户-项目模型,其中交互信息可以等价为用户对项目的评分,而长非编码RNA,蛋白质和微小RNA的序列相似性则用作协同过滤信息加入到模型中。在留一交叉验证实验中,两个模型分别取得了0.9025和0.9319的AUC值。进一步地我们又分别基于不同测试集对两个实验做案例分析验证模型的有效性。所有结果表明,虽然增加了邻接正则化会降低计算效率,但是改进的算法在预测准确性上优于其他算法,显示了算法改进后的良好的预测能力和可扩展性。

论文目录

  • 摘要
  • abstract
  • 第1章 绪论
  •   1.1 选题背景及研究意义
  •   1.2 论文研究内容和结构安排
  •     1.2.1 论文的研究内容
  •     1.2.2 论文的结构安排
  •   1.3 论文创新点
  • 第2章 矩阵分解算法的相关理论
  •   2.1 矩阵分解算法简介
  •     2.1.1 矩阵的三角分解
  •     2.1.2 矩阵的满秩分解
  •     2.1.3 矩阵的QR分解
  •     2.1.4 矩阵的奇异值分解
  •   2.2 矩阵分解算法的发展
  •   2.3 隐语义模型
  •   2.4 矩阵分解中的正则化项
  •   2.5 本章小结
  • 第3章 改进矩阵分解算法
  •   3.1 逻辑矩阵分解
  •   3.2 邻接正则化的提出
  •   3.3 邻接正则化逻辑矩阵分解
  •   3.4 本章小结
  • 第4章 矩阵分解算法在长非编码RNA调控预测的应用
  •   4.1 基于邻接正则化逻辑矩阵分解算法的应用
  •     4.1.1 长非编码RNA相似性
  •     4.1.2 蛋白质相似性
  •     4.1.3 微小RNA相似性
  •     4.1.4 算法应用
  •   4.2 长非编码RNA-蛋白质预测实验结果及分析
  •     4.2.1 数据集
  •     4.2.2 评估指标
  •     4.2.3 留一交叉验证
  •     4.2.4 外部验证
  •     4.2.5 局限性分析
  •   4.3 长非编码RNA-微小RNA预测实验结果及分析
  •     4.3.1 数据集
  •     4.3.2 评估指标
  •     4.3.3 模型的指标
  •     4.3.4 与其它方法的比较
  •     4.3.5 不同相似性的验证
  •     4.3.6 时间效率分析
  •   4.4 本章小结
  • 第5章 结论与展望
  •   5.1 结论
  •   5.2 进一步工作的方向
  • 致谢
  • 参考文献
  • 攻读学位期间发表的学术论文及参加科研情况
  • 文章来源

    类型: 硕士论文

    作者: 任国飞

    导师: 刘宏生

    关键词: 数据挖掘,矩阵分解,邻接正则化,长非编码,调控预测

    来源: 辽宁大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,生物学,自动化技术

    单位: 辽宁大学

    分类号: Q522;TP18

    总页数: 65

    文件大小: 4127K

    下载量: 38

    相关论文文献

    • [1].长链非编码RNA、焦亡和心肌缺血-再灌注损伤[J]. 生物化学与生物物理进展 2019(12)
    • [2].非小细胞肺癌的潜在生物标记物:长链非编码RNA[J]. 现代肿瘤医学 2020(01)
    • [3].非编码RNA在细胞自噬中的研究进展[J]. 中国生物工程杂志 2019(12)
    • [4].环状RNA影响肝疾病的发生发展[J]. 中国生物化学与分子生物学报 2019(12)
    • [5].环状RNA在肝细胞癌中的作用及机制[J]. 中国生物化学与分子生物学报 2019(12)
    • [6].环状RNA在胃癌中的研究进展[J]. 生物技术通讯 2019(06)
    • [7].西花蓟马不同RNA干扰技术比较研究[J]. 福建农业学报 2019(10)
    • [8].微小RNA在非酒精性脂肪肝病中调控作用的研究进展[J]. 重庆医科大学学报 2019(12)
    • [9].卵巢上皮性癌中RNA结合基序蛋白3及环氧化酶-2的表达与意义[J]. 医疗装备 2019(23)
    • [10].非编码RNA在周围神经损伤修复中的重要角色和作用[J]. 中国组织工程研究 2020(14)
    • [11].长链非编码RNA在鼻咽癌中的研究进展[J]. 中国医药 2020(01)
    • [12].微小循环RNA在鉴别前列腺增生和前列腺癌的有效性分析[J]. 临床泌尿外科杂志 2020(01)
    • [13].长链非编码RNA调控肝纤维化信号通路的研究进展[J]. 胃肠病学 2019(11)
    • [14].环状RNA在肺腺癌中的差异表达分析[J]. 东南大学学报(医学版) 2019(06)
    • [15].环状RNA调控结肠直肠癌的研究进展[J]. 外科理论与实践 2019(06)
    • [16].RNA干扰药物——下一代治疗药物?[J]. 科学通报 2020(07)
    • [17].环状RNA生物学功能及其在组织修复过程中的作用[J]. 中国组织工程研究 2020(17)
    • [18].Deep Learning Deciphers Protein–RNA Interaction[J]. Genomics,Proteomics & Bioinformatics 2019(05)
    • [19].CIRCexplorer3:A CLEAR Pipeline for Direct Comparison of Circular and Linear RNA Expression[J]. Genomics,Proteomics & Bioinformatics 2019(05)
    • [20].环状RNA在冠状动脉粥样硬化性心脏病中的研究进展[J]. 心血管病学进展 2019(09)
    • [21].心肌纤维化研究的新领域——长链非编码RNA[J]. 心血管病学进展 2019(09)
    • [22].长链非编码RNA及相关调控通路与急性心肌梗死的研究进展[J]. 心血管病学进展 2019(08)
    • [23].微小RNA在自身免疫性甲状腺疾病中的研究进展[J]. 江苏大学学报(医学版) 2020(01)
    • [24].结直肠癌相关长链非编码RNA调控信号通路研究进展[J]. 西部医学 2020(02)
    • [25].环状RNA与肝癌相互关系的研究进展[J]. 中国卫生检验杂志 2020(03)
    • [26].非编码RNA在葡萄膜炎发生发展过程中的调控作用研究进展[J]. 眼科新进展 2020(01)
    • [27].长链非编码RNA在心血管疾病中的研究进展[J]. 临床误诊误治 2020(02)
    • [28].长链非编码RNA影响糖尿病心肌病的研究[J]. 糖尿病新世界 2020(01)
    • [29].骨肉瘤中环状RNA的研究进展[J]. 临床与病理杂志 2020(02)
    • [30].长链非编码RNA作为肾细胞癌预后生物标志物的研究新进展[J]. 现代肿瘤医学 2020(05)

    标签:;  ;  ;  ;  ;  

    基于矩阵分解算法的改进及在长非编RNA调控预测中的应用研究
    下载Doc文档

    猜你喜欢