基于语言处理模型的蛋白结构分类的实验分析

基于语言处理模型的蛋白结构分类的实验分析

论文摘要

通过计算机手段对蛋白质进行空间结构的研究,可以作为实验手段的有效补充,应用于蛋白质空间结构的预测、设计和比对当中。该领域的研究已经成为蛋白质工程的一项重要内容。蛋白质的空间结构是以不同种类氨基酸的排列顺序为基础的,不同氨基酸在肽键、氢键、范德华力以及静电作用等因素的影响下形成复杂的空间结构,但存在一定规律。因此,研究氨基酸序列与蛋白质空间结构的对应关系称为结构生物学中至关重要的内容。本文将语言处理的思想用于研究蛋白结构分类的研究中,将蛋白质结构中的不同氨基酸序列视为一种自然语言。在以前的研究中主要使用生成式模型进行从氨基酸序列到蛋白空间结构的预测,本文选用判别式模型展开研究,这在以前是没有被提出过的。本文选择了UniProt蛋白质库作为蛋白质分子序列的实验数据集,根据PDB数据集中的蛋白质的结构信息进行数据集标注,最终数据集包含2985181个蛋白质分子序列,每个分子序列包含50个氨基酸。本文在单词向量化方法上选取skip-gram和FastText中文本分类两种方法,分词量分别选取了6和9,单词向量维数分别选取了5和50,通过非线性的LSTM和线性的FastText两种模型进行分类,使用了测试集和拓展测试集进行测试,在以上5组变量基础上进行了10组对比实验,获得了20个实验结果。最终得到使用FastText中的文本分类按照分词量为6、维数为5对训练集进行单词向量化,再使用LSTM模型进行分类的合适方法。该方法在两种不同的测试集进行测试最高预测准确率分别可以达到68.61%和80.89%

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  •   1.1 研究背景
  •   1.2 国内外研究现状
  •     1.2.1 计算机预测蛋白质空间结构的一般步骤
  •     1.2.2 计算机预测蛋白质空间结构的经典工具
  •   1.3 研究意义
  •   1.4 研究的创新点
  •   1.5 论文主题与组织结构
  •     1.5.1 论文主题
  •     1.5.2 论文组织结构
  • 2 相关工作与技术
  •   2.1 深度学习方法
  •     2.1.1 生成性深度结构
  •     2.1.2 区分性深度结构
  •     2.1.3 混合结构
  •     2.1.4 深度学习方法在生物学中的广泛应用
  •   2.2 自然语言处理方法
  •     2.2.1 分布式方法
  •     2.2.2 基于卷积神经网络方法
  •     2.2.3 基于循环神经网络方法
  • 3 蛋白结构分类模型与具体方法
  •   3.1 模型介绍
  •   3.2 数据集准备
  •     3.2.1 UniProt数据集处理
  •     3.2.2 PDB数据集处理
  •     3.2.3 数据集拓展处理
  •   3.3 单词向量化
  •     3.3.1 分词过程
  •     3.3.2 向量化过程
  •   3.4 分类过程
  •     3.4.1 非线性分类模型
  •     3.4.2 线性分类模型
  • 4 实验设计
  •   4.1 实验环境介绍
  •   4.2 实验主要步骤
  •   4.3 实验对比变量设置
  •   4.4 实验具体流程
  • 5 实验结果和分析
  •   5.1 实验结果
  •   5.2 实验对比分析
  •     5.2.1 测试集对比实验
  •     5.2.2 单词向量维数对比实验
  •     5.2.3 分词量对比实验
  •     5.2.4 单词向量化方法对比实验
  •     5.2.5 分类模型对比实验
  • 结论
  • 参考文献
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 张天宇

    导师: 周勇

    关键词: 蛋白结构,语言处理,机器学习

    来源: 大连理工大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,计算机软件及计算机应用

    单位: 大连理工大学

    分类号: Q51;TP391.1

    DOI: 10.26991/d.cnki.gdllu.2019.003040

    总页数: 61

    文件大小: 4154K

    下载量: 18

    相关论文文献

    • [1].冻鱼营养并不差[J]. 益寿宝典 2017(26)
    • [2].一个新的导致血小板无力症的ITGA2B基因无义突变[J]. 汕头大学医学院学报 2020(03)
    • [3].利用灰度纹理分析方法识别蛋白质空间结构[J]. 计算机工程与应用 2011(20)
    • [4].蛋白质空间结构数字特性统计分析及应用[J]. 武汉工程大学学报 2010(05)
    • [5].生物艺术的道路[J]. 画刊 2015(11)
    • [6].Shannon熵在统计分析中的应用——蛋白质空间结构的统计分析[J]. 北京教育学院学报(自然科学版) 2008(04)
    • [7].人IP_3R蛋白的分子结构和理化性质分析[J]. 军事医学 2020(07)
    • [8].蛋白质空间结构的统计分析[J]. 山西大同大学学报(自然科学版) 2008(05)
    • [9].结合蛋白质二级结构信息预测蛋白质空间结构中的二硫键[J]. 计算机应用研究 2011(06)
    • [10].氢氘交换质谱技术及其在蛋白质相互作用研究中的应用[J]. 生物物理学报 2013(11)
    • [11].2007国家科学技术进步二等奖 大豆蛋白复合纤维纺织染整关键技术研究及产品开发[J]. 纺织服装周刊 2008(07)
    • [12].EM18-GST原核表达载体的构建及空间结构的生物信息学分析[J]. 中国病原生物学杂志 2013(10)
    • [13].蛋白质结构研究先驱——理查兹[J]. 生物学通报 2009(12)
    • [14].基于SOFM神经网络的蛋白质结构类预测[J]. 数字技术与应用 2015(01)
    • [15].秘鲁鱿鱼丝加工中回潮工艺的作用机理研究[J]. 食品工业科技 2010(03)
    • [16].甲型H1N1流感病毒三维空间结构预测[J]. 食品与生物技术学报 2014(05)
    • [17].蛋白质空间结构相似度多参数算法模型的建立[J]. 郑州大学学报(理学版) 2016(02)
    • [18].“蛋白质三维空间结构形成”模拟活动的设计与评价[J]. 中学生物教学 2020(03)
    • [19].改进的遗传算法在蛋白质结构预测中的应用[J]. 华南师范大学学报(自然科学版) 2009(01)
    • [20].ClC-0氯离子通道蛋白质空间结构的同源建模[J]. 江汉大学学报(自然科学版) 2015(02)
    • [21].多特征框架下的蛋白质相似性比较与分类[J]. 工程图学学报 2010(01)
    • [22].高活性β-内酰胺酶的分离、表达和性质[J]. 细胞生物学杂志 2008(05)

    标签:;  ;  ;  

    基于语言处理模型的蛋白结构分类的实验分析
    下载Doc文档

    猜你喜欢