基于分组式的多分类器的蛋白质二级结构预测的算法研究

基于分组式的多分类器的蛋白质二级结构预测的算法研究

论文摘要

蛋白质二级结构预测是蛋白质结构预测和理解蛋白质结构和功能的重要课题,主要工作是依据蛋白质氨基酸序列的编码特征正确识别出对应的蛋白质二级结构标签。本文采用25PDB蛋白质序列数据集,采用PSSM编码﹑正交编码和滑动窗口方法将氨基酸处理成伪图像对蛋白质二级结构预测做了研究,在研究过程中选定了三种训练模型,分别是卷积神经网络﹑LSTM神经网络和随机森林。每个训练模型对应一个分组实验,在每个分组实验中对训练模型做了训练模型的优化设计:在基于卷积神经网络的分组实验中,设计了一个包含两个网络结构单元的一般卷积神经网络,每个网络单元包含主要的卷积层和下采样层,因为蛋白质氨基酸的伪图像对于卷积神经网络来说相对于真正的图像而言数据量较少,所以本文设计了一个可以增加输入冗余,解决一般卷积神经网络梯度偏离的残差卷积神经网络,实验证明这种卷积神经网络更加稳定,预测更准确。在基于LSTM神经网络的分组实验中,分别对伪图像在两个维度上切片生成序列数据对于一般的LSTM神经网络做了实验,因为直接切片会破坏蛋白质氨基酸序列的上下文特,所以本文采用滑动窗口操作在蛋白质序列维度生成了多个BP神经网络隐层,将这些BP神经网络隐层神经元的输出当作序列数据输入LSTM神经网络,实验证明添加BP神经网络隐层的LSTM神经网络能更好的提取蛋白质序列的上下文特征。在基于随机森林的分组实验中,本文将残差卷积神经网络在最后一个平均池化层提取的样本特征作为随机森林的输入,相当于为随机森林做了一个特征提取器,实验证明添加了特征提取器的随机森林预测结果会有很大提升。在分组实验结束之后,本文利用ensemble方法将实验中三种优化设计之后的模型进行了整合,将残差卷积神经网络﹑加入了BP神经网络隐层的LSTM神经网络和添加了特征提取器的随机森林模型在每个蛋白质二级标签上的输出概率相加,取最大概率对应的标签作为ensemble模型的输出,实验证明ensemble模型相对于三类成员模型的预测结果均有提高。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  •   1.1 研究的背景和意义
  •   1.2 国内外研究现状
  •   1.3 本文的研究内容和创新点
  •   1.4 组织结构
  • 第2章 蛋白质数据预处理与训练模型实现
  •   2.1 将蛋白质序列编码成正交编码
  •     2.1.1 蛋白质序列的构成
  •     2.1.2 正交编码
  •   2.2 将蛋白质序列编码成PSSM
  •     2.2.1 序列联配与BLOSUM62 替代打分矩阵
  •     2.2.2 PSSM打分矩阵
  •   2.3 将正交编码和PSSM矩阵组合
  •     2.3.1 滑动窗口
  •     2.3.2 一个蛋白质氨基酸的表示
  •   2.4 DSSP算法
  •   2.5 蛋白质二级结构预测的评估方法
  •   2.6 模型编程环境搭建
  •     2.6.1 基于Python的深度学习环境搭建
  •     2.6.2 使用Keras实现简单的深度学习算法
  •   2.7 本章小结
  • 第3章 基于深度卷积神经网络的分组实验
  •   3.1 卷积神经网络的主体架构
  •     3.1.1 三种模式的卷积计算层
  •     3.1.2 下采样计算
  •     3.1.3 激活函数ReLU
  •     3.1.4 全连接层
  •   3.2 卷积神经网络的原理
  •     3.2.1 卷积神经网络的特点
  •     3.2.2 卷积神经网络的设计原则
  •     3.2.3 卷积神经网络的数学表达
  •   3.3 一般卷积神经网络的实验
  •     3.3.1 将氨基酸编码输入卷积神经网络
  •     3.3.2 卷积核大小的确定
  •     3.3.3 卷积神经网络的结构设计
  •     3.3.4 实验结果
  •   3.4 残差卷积神经网络的实验
  •     3.4.1 残差卷积神经网络结构的原理
  •     3.4.2 残差卷积神经网络的设计
  •     3.4.3 实验结果
  •   3.5 本章小结
  • 第4章 基于长短时记忆神经网络的分组实验
  •   4.1 LSTM神经网络的原理
  •     4.1.1 LSTM神经网络的数学表达
  •     4.1.2 LSTM神经网络时间维度的填充
  •   4.2 一般 LSTM 神经网络的实验
  •     4.2.1 基于PSSM按长度切片的LSTM的设计和实验结果
  •     4.2.2 基于PSSM按宽度切片的LSTM的设计和实验结果
  •   4.3 基于并行BP神经网络隐层LSTM的实验
  •     4.3.1 并行BP神经网络隐层的设计
  •     4.3.2 将神经网络隐层填充到LSTM
  •     4.3.3 实验结果
  •   4.4 本章小结
  • 第5章 基于随机森林的分组实验
  •   5.1 三种决策树
  •     5.1.1 一般的决策树
  •     5.1.2 ID3 决策树
  •     5.1.3 CART决策树
  •   5.2 随机森林的原理
  •   5.3 实验结果
  •   5.4 本章小结
  • 第6章 多分类器的整合
  •   6.1 Ensemble方法的原理
  •     6.1.1 Ensemble方法的优点
  •     6.1.2 创建Ensemble的方法
  •   6.2 Ensemble实现
  •     6.2.1 整合策略的选择
  •     6.2.2 整合策略的数学表达
  •   6.3 Ensemble方法的实验结果
  •   6.4 本章小结
  • 第7章 总结与展望
  •   7.1 总结
  •   7.2 展望
  • 参考文献
  • 致谢
  • 在学期间主要科研成果
  • 文章来源

    类型: 硕士论文

    作者: 王剑

    导师: 成金勇,舒明雷

    关键词: 蛋白质二级结构预测,卷积神经网络,随机森林

    来源: 齐鲁工业大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,自动化技术

    单位: 齐鲁工业大学

    分类号: TP18;Q518.1

    总页数: 69

    文件大小: 2485K

    下载量: 105

    相关论文文献

    • [1].蛋白质二级结构指定[J]. 生物信息学 2016(03)
    • [2].蛋白质二级结构在线服务器预测评估[J]. 生物信息学 2019(01)
    • [3].表面增强拉曼光谱对于蛋白质二级结构的酰胺Ⅲ谱带表征(英文)[J]. Chinese Journal of Chemical Physics 2019(05)
    • [4].蛋白质二级结构预测的一种新的编码方式[J]. 工业控制计算机 2015(04)
    • [5].蛋白质二级结构预测的多核学习方法[J]. 计算机应用 2013(S1)
    • [6].蛋白质和变性蛋白质二级结构的FTIR分析进展[J]. 化学研究与应用 2012(08)
    • [7].基于遗传算法的蛋白质二级结构预测方法研究进展[J]. 农机化研究 2009(05)
    • [8].基于混合并行遗传算法的蛋白质二级结构预测[J]. 农机化研究 2009(06)
    • [9].不同贮藏条件对鸡蛋蛋白质二级结构的影响[J]. 黑龙江畜牧兽医 2019(02)
    • [10].蛋白质二级结构预测的一种新的编码方式[J]. 计算机工程与应用 2011(18)
    • [11].基于级联神经网络的蛋白质二级结构预测[J]. 计算机工程 2010(04)
    • [12].蛋白质二级结构预测的结构表达方法研究[J]. 河南师范大学学报(自然科学版) 2009(06)
    • [13].蛋白质二级结构预测方法研究[J]. 计算机工程与应用 2009(36)
    • [14].基于神经网络的蛋白质二级结构预测[J]. 济南大学学报(自然科学版) 2008(02)
    • [15].基于蛋白质二级结构序列的结构型预测[J]. 河北理工大学学报(自然科学版) 2008(03)
    • [16].蛋白质二级结构的二维红外相关光谱模拟研究[J]. 光散射学报 2013(04)
    • [17].蛋白质二级结构预测方法的评价[J]. 生物信息学 2010(03)
    • [18].基于深度学习的八类蛋白质二级结构预测算法[J]. 计算机应用 2017(05)
    • [19].傅里叶红外光谱法研究肌肉蛋白质的二级结构[J]. 食品与发酵工业 2015(10)
    • [20].蛋白质二级结构预测方法初探[J]. 生物技术世界 2014(11)
    • [21].杨树蛋白质二级结构的人工神经网络预测[J]. 西北林学院学报 2014(05)
    • [22].糟蛋减压加工过程中蛋黄蛋白质二级结构的变化研究[J]. 现代食品科技 2013(06)
    • [23].基于多模集成神经网络的蛋白质二级结构预测[J]. 四川理工学院学报(自然科学版) 2011(06)
    • [24].基于条件随机场进行蛋白质二级结构预测[J]. 计算机应用研究 2009(03)
    • [25].基于多度量学习方法的蛋白质二级结构预测[J]. 智能计算机与应用 2014(05)
    • [26].基于复合金字塔模型的蛋白质二级结构预测系统[J]. 科学通报 2009(21)
    • [27].基于红外光谱法的古代丝织品蛋白质二级结构变化分析[J]. 现代丝绸科学与技术 2011(05)
    • [28].网格中基于结构分类和位矩阵编码并行遗传算法的蛋白质二级结构预测[J]. 科学技术与工程 2008(05)
    • [29].储藏微环境对小麦蛋白质二级结构影响[J]. 粮食与油脂 2014(01)
    • [30].基于并行粒子群优化算法的蛋白质二级结构预测[J]. 周口师范学院学报 2014(05)

    标签:;  ;  ;  

    基于分组式的多分类器的蛋白质二级结构预测的算法研究
    下载Doc文档

    猜你喜欢