基于多标签分类算法的植物蛋白功能预测研究

基于多标签分类算法的植物蛋白功能预测研究

论文摘要

大数据时代,热点研究是挖掘有价值信息。本文研究目的是从大量未知蛋白质中挖掘其功能。事实证明蛋白功能具有多样性,因此本文使用能够同时处理多个功能类的多标签分类算法。本文未知植物蛋白来源内蒙古大学生科院,以GO功能为切入对未知蛋白进行挖掘,为得已知蛋白数据集,从GO数据库和uniprot数据库爬取包含43个GO功能类共计66341条蛋白质序列。本文深入研究了基于问题转换的BR、CC、RAKEL算法和基于算法转换的BR-KNN、ML-KNN、BPMLL算法。研究了基于理化性质、基于n-gram、基于k-skip-n-gram的特征提取方法,并使用特征融合,实验证明将n-gram和理化性质特征融合后在平均精度比只使用n-gram提升了0.008。改进理化性质特征提取方法使生成的特征数据集符合多标签分类的要求。本文将六种特征处理方法和六种多标签分类算法两两组合以快速有效的解决多标签分类问题,最后将数据集在36种组合上分别进行交叉实验,实验表明188维MLKNN在海明损失、0-1错误率、覆盖率、排序损失、平均精度上最优,分别比次优组合算法好0.003、0.0215、0.2383、0.0043、0.0176,在训练时间上仅次于用时最少的20维MLKNN2.9分钟,将188维特征提取方法和MLKNN结合形成新的算法,并将整合的算法打包为MultiLabel.jar,应用于地梢瓜未知蛋白得4423个蛋白功能预测结果,其中功能有:DNA结合转录因子活性,RNA聚合酶Ⅱ特异性,内切酶活性等。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  •   1.1 研究背景与意义
  •   1.2 国内外研究现状
  •     1.2.1 多标签分类研究现状
  •     1.2.2 蛋白质功能预测研究现状
  •   1.3 论文的主要内容与组织结构
  •     1.3.1 论文的主要内容
  •     1.3.2 论文的组织结构
  • 第二章 背景知识介绍
  •   2.1 特征处理方法
  •     2.1.1 提取序列特征概述
  •     2.1.2 特征融合与数据降维
  •   2.2 多标签分类数据集评价指标
  •   2.3 多标签分类算法
  •     2.3.1 问题转换方法
  •     2.3.2 算法转换方法
  •   2.4 多标签分类算法评价标准
  •   2.5 本章小结
  • 第三章 数据来源及处理
  •   3.1 待预测集来源及处理
  •     3.1.1 待预测集数据来源
  •     3.1.2 待预测集数据处理
  •   3.2 训练集来源及处理
  •     3.2.1 训练集数据来源
  •     3.2.2 训练集数据处理
  •   3.3 本章小结
  • 第四章 基于不同特征处理方法的多标签分类比较研究
  •   4.1 特征训练集格式
  •   4.2 多标签分类十折交叉验证
  •   4.3 基于不同特征处理方法的多标签分类比较研究
  •     4.3.1 基于N-GRAM的20 维特征
  •     4.3.2 基于理化性质的188 维特征
  •     4.3.3 基于K-SKIP-N-GRAM的400 维特征
  •     4.3.4 基于N-GRAM的420 维特征
  •     4.3.5 基于特征融合的208 维特征
  •     4.3.6 基于特征选择的200 维特征
  •     4.3.7 基于不同维度的最优算法比较
  •   4.4 本章小结
  • 第五章 预测模型的建立与应用
  •   5.1 预测模型的建立
  •     5.1.1 特征格式改进
  •     5.1.2 预测模型的保存与读取
  •     5.1.3 预测过程
  •   5.2 预测模型的应用
  •   5.3 本章小结
  • 第六章 总结与展望
  •   6.1 总结
  •   6.2 展望
  • 致谢
  • 参考文献
  • 文章来源

    类型: 硕士论文

    作者: 张朝

    导师: 王娟

    关键词: 数据挖掘,蛋白质功能预测,多标签分类算法,特征提取

    来源: 内蒙古大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,计算机软件及计算机应用

    单位: 内蒙古大学

    分类号: TP311.13;Q946.1

    总页数: 55

    文件大小: 2183K

    下载量: 137

    相关论文文献

    • [1].大数据挖掘中的数据分类算法技术研究[J]. 电子技术与软件工程 2015(14)
    • [2].基于粒度空间的最小生成树分类算法[J]. 南京大学学报(自然科学) 2017(05)
    • [3].一种心律失常分类算法[J]. 电子世界 2020(04)
    • [4].数据挖掘中数据分类算法的比较分析[J]. 吉林师范大学学报(自然科学版) 2008(04)
    • [5].数据挖掘分类算法研究综述[J]. 中国高新技术企业 2008(24)
    • [6].包分类算法研究综述[J]. 计算机工程 2015(12)
    • [7].传统图像分类与深度学习分类算法比较研究[J]. 荆楚理工学院学报 2020(02)
    • [8].Titanic生存问题常见分类算法对比分析[J]. 电子世界 2017(22)
    • [9].基于贝叶斯理论的分类算法研究[J]. 计算机光盘软件与应用 2014(16)
    • [10].数据挖掘中分类算法综述[J]. 重庆师范大学学报(自然科学版) 2011(04)
    • [11].基于多层感知器神经网络的智能分类算法[J]. 通信电源技术 2020(05)
    • [12].百科实例的分类算法探究[J]. 科技创新与应用 2015(13)
    • [13].一种快速的五元一维包分类算法[J]. 电脑知识与技术 2009(36)
    • [14].因素空间理论下基点分类算法研究[J]. 智能系统学报 2020(03)
    • [15].低代价的数据流分类算法[J]. 计算机系统应用 2016(12)
    • [16].云环境下的信息分类算法研究[J]. 太原师范学院学报(自然科学版) 2015(04)
    • [17].基于距离的粒计算分类算法[J]. 信阳师范学院学报(自然科学版) 2015(02)
    • [18].快速流分类算法的研究[J]. 数字通信 2010(01)
    • [19].基于基因表达式编程的代价敏感分类算法[J]. 吉林大学学报(信息科学版) 2009(04)
    • [20].集成学习之随机森林分类算法的研究与应用[J]. 电脑知识与技术 2020(21)
    • [21].基于组合分类算法的源代码注释质量评估方法[J]. 计算机应用 2016(12)
    • [22].社交地点分类算法设计与实现[J]. 现代计算机(专业版) 2017(20)
    • [23].关于数据挖掘中的数据分类算法的综述[J]. 电子制作 2014(13)
    • [24].稀有类分类算法的研究[J]. 电脑开发与应用 2010(09)
    • [25].基于K近邻分类算法的敏感信息过滤方法研究[J]. 科学技术创新 2020(28)
    • [26].大数据处理中分类算法的数值比较[J]. 数学的实践与认识 2019(13)
    • [27].一种改进的并行K_近邻网络舆情分类算法研究[J]. 微电子学与计算机 2015(06)
    • [28].基于分布式数据流的大数据分类算法[J]. 饮食科学 2019(04)
    • [29].基于聚类核的半监督情感分类算法研究[J]. 计算机技术与发展 2016(12)
    • [30].基于多传感器数据融合的目标分类算法[J]. 航天电子对抗 2013(04)

    标签:;  ;  ;  ;  

    基于多标签分类算法的植物蛋白功能预测研究
    下载Doc文档

    猜你喜欢