基于多核学习的蛋白质序列分类问题的研究与应用

基于多核学习的蛋白质序列分类问题的研究与应用

论文摘要

蛋白质是地球上生物体的必要组成成分,针对蛋白质的功能预测已成为生物蛋白领域的一个研究热点。嗜热蛋白质可作极端环境下的生物催化剂,有着加速化学反应、降低工业制造成本、减少能源消耗等优点,因此针对嗜热蛋白质的有效功能预测在各类制造业中有着极为重要的作用。随着人类基因组计划的推进和实施,越来越多的蛋白质序列被测定,传统的蛋白质功能识别方法因其耗时长、效率低等缺点已无法满足需求,开发实时有效的蛋白质功能预测方法迫在眉睫。机器学习算法的兴起和计算机计算能力的增强,为海量数据的信息挖掘提供了便利。本文主要研究了多核学习算法在蛋白质序列功能预测中的应用,具体研究内容如下:1)为了更好地表示蛋白质,本文提出了一种新的基于word2vec的特征提取方法。该方法将蛋白质序列看作一个文本句子,将二肽看作一个词语,使用word2vec算法将每个二肽转化为词向量表示,然后依据蛋白质序列中出现二肽对应的词向量得到序列的向量表示。实验结果表明,该方法可提升模型预测准确率。2)多核学习方法第一步是选取基础核函数,包括核函数个数、类别及其内部参数,由于常规方法盲目且耗时耗力,本文提出了基于贪心算法的核函数选择方法。该方法考虑特征向量主要源于不同的特征提取方法,故首先将特征提取方法个数作为核函数个数,然后针对特征向量中不同特征提取方法对应的特征组,使用贪心算法选出最佳核函数,从而得到基础核函数的选择结果。3)本文提出了基于多核学习的蛋白质序列分类模型。相对于其它方法,多核学习方法具有更高的灵活性。本文首先使用基于贪心算法的核函数选择方法完成基础核函数的选择,然后使用简单多核学习算法学习最佳组合核函数,最后使用最佳组合核作为核函数的SVM算法训练分类模型。实验结果表明,该模型能够很好地识别出嗜热蛋白质,在本文使用的嗜热蛋白质序列数据集上,10折交叉验证的结果为:准确率94.72%,嗜热蛋白质的召回率为94.84%,MCC值0.8939,ROCAUC值0.9859,优于其它机器学习方法和已有方法。4)开发了针对嗜热蛋白质序列预测的web服务,便于其他相关研究者使用本文提出的模型。

论文目录

  • 摘要
  • abstract
  • 第一章 绪论
  •   1.1 研究背景与意义
  •   1.2 国内外研究现状
  •   1.3 本文主要工作
  •   1.4 本文的结构安排
  • 第二章 相关理论概述
  •   2.1 生物蛋白质相关基础知识简介
  •     2.1.1 蛋白质相关介绍
  •     2.1.2 氨基酸相关介绍
  •     2.1.3 氨基酸理化性质相关介绍
  •   2.2 嗜热蛋白和非嗜热蛋白定义及介绍
  •   2.3 蛋白质序列相关数据库及应用介绍
  •   2.4 特征提取相关理论基础
  •     2.4.1 基于氨基酸组成的特征提取
  •     2.4.2 基于g-gap二肽组成的特征提取
  •     2.4.3 基于伪氨基酸组成的特征提取
  •     2.4.4 基于包含二肽的伪氨基酸组成的特征提取
  •   2.5 word2vec
  •   2.6 特征选择方法
  •     2.6.1 递归式特征消除法
  •     2.6.2 结合交叉验证的递归式特征消除法
  •   2.7 SVM算法相关理论
  •     2.7.1 SVM算法
  •     2.7.2 常用核函数
  •   2.8 多核学习算法
  •   2.9 常用模型评价指标
  •   2.10 本章小结
  • 第三章 基于多核学习的蛋白质序列预测
  •   3.1 蛋白质序列正负样本数据集获取
  •   3.2 数据预处理
  •   3.3 特征提取
  •     3.3.1 使用已有特征提取方法进行特征提取
  •     3.3.2 使用基于word2vec的特征提取方法进行特征提取
  •   3.4 特征融合
  •   3.5 特征选择
  •   3.6 基于多核学习算法的蛋白质序列预测模型
  •     3.6.1 基于贪心算法的核函数选择方法
  •     3.6.2 简单多核学习算法学习最佳组合核
  •     3.6.3 蛋白质序列分类预测
  •   3.7 本章小结
  • 第四章 实验结果分析
  •   4.1 实验环境及实验结果
  •   4.2 实验结果分析
  •     4.2.1 word2vec特征提取方法分析
  •     4.2.2 rfecv特征选择方法分析
  •     4.2.3 多核学习算法对比分析
  •     4.2.4 与单核SVM算法的实验结果对比分析
  •     4.2.5 与经典机器学习算法的实验结果对比分析
  •     4.2.6 与已有方法实验结果的对比分析
  •   4.3 本章小结
  • 第五章 针对嗜热蛋白质序列预测的web服务
  •   5.1 web服务介绍
  •   5.2 使用过程展示
  •   5.3 本章小节
  • 第六章 全文总结与展望
  •   6.1 全文工作总结
  •   6.2 未来工作展望
  • 致谢
  • 参考文献
  • 攻读硕士学位期间取得的成果
  • 文章来源

    类型: 硕士论文

    作者: 连秋雨

    导师: 高辉

    关键词: 嗜热蛋白质序列分类,多核学习,支持向量机,特征提取

    来源: 电子科技大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 电子科技大学

    分类号: Q51;TP181

    总页数: 81

    文件大小: 5586K

    下载量: 102

    相关论文文献

    • [1].蛋白质序列与蛋白质结构关系的研究[J]. 河南教育学院学报(自然科学版) 2017(04)
    • [2].基于小波分析的蛋白质序列分形研究[J]. 科技信息 2009(33)
    • [3].基于数据挖掘的蛋白质序列分析研究[J]. 信息技术与信息化 2017(06)
    • [4].利用蛋白质序列模式识别改善谷氨酸棒杆菌基因组注释[J]. 工业微生物 2014(03)
    • [5].一种新的蛋白质序列二维图形表示方法及应用[J]. 绥化学院学报 2013(11)
    • [6].蛋白质序列基于k-字的数值刻画及应用[J]. 浙江农业学报 2014(06)
    • [7].蛋白质序列图形变换及其相似性聚类分析[J]. 生命科学研究 2018(03)
    • [8].粒计算理论下的进化树建模与应用探讨[J]. 白城师范学院学报 2019(10)
    • [9].蛋白质序列的矩阵图谱表达[J]. 生命科学研究 2011(02)
    • [10].对称蛋白质序列与结构关系研究[J]. 生命科学 2010(11)
    • [11].蛋白质序列的一类新的图形表示[J]. 黑龙江生态工程职业学院学报 2008(06)
    • [12].甲型流感病毒蛋白质序列的长记忆模型[J]. 江南大学学报(自然科学版) 2012(06)
    • [13].蛋白质序列的特征周期研究[J]. 生物物理学报 2008(02)
    • [14].基于功率谱的蛋白质序列特征提取新方法[J]. 食品与生物技术学报 2018(11)
    • [15].AI背景下蛋白质序列音乐研究[J]. 艺术教育 2019(06)
    • [16].基于矩阵图谱表达法的蛋白质序列的相似性分析[J]. 计算机工程与应用 2011(07)
    • [17].DNA和蛋白质序列数据分析工具(第三版)[J]. 新疆农业科学 2012(07)
    • [18].甲型流感病毒HA蛋白质序列的预测[J]. 食品与生物技术学报 2013(08)
    • [19].P53基因蛋白质序列的相似性及其聚类分析[J]. 计算机与应用化学 2013(09)
    • [20].蛋白质序列在频率域上的一种特征提取方法[J]. 南京工业大学学报(自然科学版) 2013(06)
    • [21].基于加权决策树的蛋白质序列分类算法研究[J]. 计算机与数字工程 2012(05)
    • [22].蛋白质序列的图形表示及相似性分析[J]. 浙江农业学报 2010(05)
    • [23].一种新的蛋白质结构类预测方法[J]. 生物信息学 2012(04)
    • [24].荣昌猪SLA-DQB基因β1结构域突变分析及蛋白质序列模式预测[J]. 畜牧兽医学报 2012(08)
    • [25].基于TIGA_S4VM改进算法的蛋白质序列识别方法[J]. 山东大学学报(工学版) 2014(01)
    • [26].基于密码子特征的蛋白质序列图形表示[J]. 浙江理工大学学报(自然科学版) 2018(04)
    • [27].不同特征描述下H1N1病毒血凝素蛋白序列的比较分析[J]. 生命科学研究 2016(02)
    • [28].基于一种新的伪氨酸组成预测蛋白质折叠速率[J]. 大连交通大学学报 2015(03)
    • [29].基于极限学习机的蛋白质相互作用预测[J]. 枣庄学院学报 2017(05)
    • [30].一种基于最优局部信息融合的蛋白质亚细胞定位预测方法[J]. 中山大学学报(自然科学版) 2008(06)

    标签:;  ;  ;  ;  

    基于多核学习的蛋白质序列分类问题的研究与应用
    下载Doc文档

    猜你喜欢