基于随机森林算法的关键蛋白识别方法研究

基于随机森林算法的关键蛋白识别方法研究

论文摘要

识别出生物体内有用的蛋白质对生物体进化以及医学领域都要极其重要的作用。当前辨别蛋白质重要性的方式有两种。一是基于生物化学方法,但利用生物实验的方法来识别具有一定的缺陷,具体表现为:时间较长、费用较高、以及不能处理数据量较大的问题等等。二是利用计算机为工具对生物进行分析并以生物学的相关知识进行解释的一种方式。利用计算机识别蛋白重要性的方法大多是利用蛋白质交互网络(Protein Interaction Network)提取拓扑中心性度量特征来识别。可是由于一些相关生物实验数据的残缺和蛋白质网络自身的复杂性,一直没有发现可以准确区别关键蛋白质和非关键蛋白质的单一中心性度量特征,并且从目前的相关研究来看,关键蛋白质和非关键蛋白质间的区别不能由单一特征决定,应该是由多种因素共同决定的。单一中心性度量往往不能有效识别关键蛋白质,需要融合多个拓扑中心性度量方法,突破传统的利用排序进行精细选择的方式,建立机器学习模型进行蛋白的分类和识别。随机森林算法属于集成类型的算法,可以集成多个单分类器即集成多棵决策树的分类效果从而组成一个整体意义上的分类器。鉴于之前研究均是利用单一特征进行分类识别,且由于随机森林具有集合多分类器的优点,分类效果具有明显的优势,因此本文选择随机森林机器学习方法来识别蛋白质的重要性。本文将从分析蛋白质网络结构出发,融合多个拓扑中心性度量方法,利用随机森林算法构建模型,对关键蛋白质的识别进行研究与分析。本文选用芽殖酵母蛋白质作为研究对象,具体的研究内容包括将收集到的数据进行清洗,构造蛋白质网络(PPI),选用六种中心性度量方法进行特征的提取,构建识别关键蛋白质的模型,选择随机森林算法,以及将实验结果用统计学指标进行评估分析。结果表明该算法可以准确快速的识别出关键蛋白质,排除假阳性、冗余性等干扰因素,相比较其他算法具有更高的识别能力。综上所述本文提出的融合多个中心性度量方法,利用随机森林算法建立蛋白重要度预测模型能够更有效的识别关键蛋白。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 研究的背景与意义
  •   1.2 国内外的研究现状
  •   1.3 本文的主要工作
  •   1.4 本文的章节安排
  • 第二章 随机森林的基础理论框架
  •   2.1 决策树
  •   2.2 分类器组合方法(集成方法)概述
  •   2.3 随机森林及其理论背景
  •   2.4 本章小结
  • 第三章 基于随机森林的关键蛋白识别方法研究
  •   3.1 概述
  •   3.2 关键蛋白特征提取
  •   3.3 随机森林预测模型构建
  •   3.4 随机森林构建步骤
  •   3.5 本章小结
  • 第四章 相关实验结果分析
  •   4.1 实验数据
  •   4.2 数据集
  •   4.3 实验评价指标
  •   4.4 随机森林实验结果及分析
  •   4.5 本章小结
  • 第五章 总结与展望
  •   5.1 工作总结
  •   5.2 下一步工作展望
  • 参考文献
  • 作者简介
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 张敬垚

    导师: 于合龙

    关键词: 蛋白质相互作用网络,关键蛋白质,机器学习,随机森林

    来源: 吉林农业大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 吉林农业大学

    分类号: Q51;TP181

    DOI: 10.27163/d.cnki.gjlnu.2019.000169

    总页数: 36

    文件大小: 1052K

    下载量: 63

    相关论文文献

    • [1].基于迭代随机森林算法的糖尿病预测[J]. 长春工业大学学报 2019(06)
    • [2].基于改进随机森林的城市河流水生态健康评价研究[J]. 海河水利 2019(06)
    • [3].基于随机森林癫痫患者脑电数据的分析研究[J]. 中国数字医学 2020(01)
    • [4].基于局部均值分解和迭代随机森林的脑电分类[J]. 吉林大学学报(信息科学版) 2020(01)
    • [5].网贷平台数据的随机森林预测模型实证分析[J]. 宜宾学院学报 2019(12)
    • [6].采用单类随机森林的异常检测方法及应用[J]. 西安交通大学学报 2020(02)
    • [7].随机森林数据情感挖掘方法分析[J]. 通讯世界 2020(01)
    • [8].运用最大熵模型和随机森林模型对东北红松分布的模拟[J]. 东北林业大学学报 2020(03)
    • [9].基于随机森林算法的城区土地覆盖分类研究[J]. 河北省科学院学报 2020(01)
    • [10].运用随机森林模型对北京市林分蓄积生长量的预测[J]. 东北林业大学学报 2020(05)
    • [11].融合人工鱼群和随机森林算法的膝关节接触力预测[J]. 中国医学物理学杂志 2020(04)
    • [12].结合特征选择和优化随机森林的无线网络数据丢失重建[J]. 上海电力大学学报 2020(03)
    • [13].基于随机森林算法的耕地质量定级指标体系研究[J]. 华南农业大学学报 2020(04)
    • [14].一种基于随机森林的组合分类算法设计与应用[J]. 电子设计工程 2020(16)
    • [15].基于随机森林算法的日光温室内气温预测模型研究[J]. 中国农学通报 2020(25)
    • [16].基于因子分析和迭代随机森林方法的学生成绩综合评价——以都匀市某高中为例[J]. 黔南民族师范学院学报 2020(04)
    • [17].基于随机森林模拟的辽宁省降水量空间分布研究[J]. 陕西水利 2020(09)
    • [18].随机森林模型在膝关节炎患者结构特征与症状定量分析中的应用(英文)[J]. 磁共振成像 2020(10)
    • [19].基于特征选择的极限随机森林算法研究[J]. 计算机应用研究 2020(09)
    • [20].随机森林回归分析方法在代谢组学批次效应移除中的应用[J]. 中国卫生统计 2020(05)
    • [21].一种面向非均衡分类的随机森林算法[J]. 计算机与现代化 2018(12)
    • [22].随机森林模型和决策树模型在肝硬化上消化道出血预后中的应用[J]. 中国卫生统计 2019(02)
    • [23].基于随机森林的债券违约分析[J]. 当代经济 2018(03)
    • [24].基于改进网格搜索算法的随机森林参数优化[J]. 计算机工程与应用 2018(10)
    • [25].随机森林在城市不透水面提取中的应用研究[J]. 云南师范大学学报(自然科学版) 2017(03)
    • [26].一种顺序响应的随机森林:变量预测和选择[J]. 小型微型计算机系统 2017(08)
    • [27].基于随机森林回归的军械器材需求预测[J]. 自动化应用 2017(09)
    • [28].流式大数据下随机森林方法及应用[J]. 西北工业大学学报 2015(06)
    • [29].面向高维数据的随机森林算法优化探讨[J]. 商 2016(04)
    • [30].深度随机森林在离网预测中的应用[J]. 计算机科学 2016(06)

    标签:;  ;  ;  ;  

    基于随机森林算法的关键蛋白识别方法研究
    下载Doc文档

    猜你喜欢