基因表达预测深度学习平台构建与研究

基因表达预测深度学习平台构建与研究

论文摘要

随着机器学习和深度学习的发展,越来越多的算法开始被应用到生物信息领域,近些年由于微阵列技术的蓬勃发展,人体基因信息逐渐被挖掘出来。经过调查研究,人体内已经有两万多条基因被发现,虽然现在的基因技术在不断的发展,但是进行一次人体的全基因组成本还是非常昂贵的。经过美国国立卫生院研究表明,人体内的基因表达通常都是高度相关的,由此他们发现人体内的大约1000个标志性基因包含了人体内其余80%基因的信息。为了有效利用这些标志性基因,可以把这大约1000个标志性基因作为输入,利用机器学习或深度学习的算法进行建模,去预测剩余的基因表达数据。然而目前很少有用于基因表达预测的平台,使用机器学习深度学习算法对基因表达预测进行建模并建立可供相关研究者和学习者使用的基因预测表达平台,是本文要解决的主要问题。机器学习中的回归算法主要有线性回归、核岭回归、支持向量回归等,深度学习主要采用神经网络去做回归。LINCS项目组的成员采用线性回归进行基因表达预测。Yifei Chen等人也使用深度学习算法。但是其深度学习算法模型受限于当时的机器设备配置,建立了两个神经网络进行基因表达预测,尽管准确度上表现不错,但是在训练和预测需要耗费大量的时间。在本研究中,主要使用深度学习模型,并辅之以机器学习模型,如线性回归、核岭回归和支持向量回归,并搭建基因表达预测平台,用户只需要输入少部分的基因表达值,即标志性基因的表达值,然后平台使用后台已经训练好的模型对基因表达进行预测,并将输出的9520个基因表达值反馈给用户。在对基因数据集进行预处理后,使用scikit-learn学习包建立线性回归、核岭回归和支持向量回归模型,使用多层全连接神经网络,并采用Drop Out等技巧进行参数调优,建立深度学习模型,对模型参数进行调优后把模型保存到本地,以供平台加载使用。本文对平台所使用的模型原理、建模过程和使用进行详细阐述,并针对用户不同的输入进行分析,如本地化Blast序列比对。最后采用Django框架对基因表达预测平台进行搭建开发,并将相关数据持久化保存到My Sql数据库中。本研究旨在更好的帮助相关研究者和学习者进行使用,从而对基因表达研究起到辅助作用。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  •   1.1 课题背景和研究意义
  •   1.2 相关领域研究现状
  •   1.3 本文主要工作
  •   1.4 本文组织结构
  • 第2章 研究背景
  •   2.1 生物基因背景介绍
  •   2.2 基因表达预测平台介绍
  •   2.3 平台相关算法介绍
  •     2.3.1 线性回归
  •     2.3.2 核岭回归
  •     2.3.3 支持向量回归
  •     2.3.4 多隐层前馈神经网络
  •   2.4 深度学习和Blast序列匹配
  •     2.4.1 深度学习的发展
  •     2.4.2 神经网络分类
  •     2.4.3 Tensor Layer介绍
  •     2.4.4 Django框架
  •     2.4.5 Blast序列比对本地化
  •   2.5 本章小结
  • 第3章 基因表达预测平台研究
  •   3.1 使用数据介绍
  •     3.1.1 数据来源
  •     3.1.2 数据预处理
  •     3.1.3 数据集划分
  •   3.2 模型评估方法
  •   3.3 Blast本地数据库构建研究
  •   3.4 基于线性回归的基因表达预测
  •     3.4.1 算法模型构建
  •     3.4.2 模型评估
  •   3.5 基于核岭回归的基因表达预测
  •     3.5.1 算法模型构建
  •     3.5.2 模型评估
  •   3.6 基于支持向量回归的基因表达预测
  •     3.6.1 算法模型构建
  •     3.6.2 模型评估
  •   3.7 基于深度学习的基因表达预测
  •     3.7.1 算法模型构建
  •     3.7.2 模型评估
  •   3.8 本章小结
  • 第4章 基因表达预测平台实现与测试
  •   4.1 平台概述
  •   4.2 平台需求分析
  •     4.2.1 系统功能分析
  •     4.2.2 具体业务流程分析
  •   4.3 平台架构设计
  •   4.4 详细设计
  •     4.4.1 数据库详细设计
  •     4.4.2 业务逻辑详细设计
  •   4.5 平台功能和测试
  •   4.6 本章小结
  • 第5章 总结与展望
  •   5.1 总结
  •   5.2 工作展望
  • 参考文献
  • 作者简介及在学期间所取得的科研成果
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 徐昊

    导师: 王岩

    关键词: 标志性基因,深度学习,基因表达值,神经网络,基因表达预测平台

    来源: 吉林大学

    年度: 2019

    分类: 基础科学,医药卫生科技,信息科技

    专业: 生物学,生物学,生物医学工程,自动化技术

    单位: 吉林大学

    分类号: Q811.4;TP181

    总页数: 59

    文件大小: 2918K

    下载量: 99

    相关论文文献

    标签:;  ;  ;  ;  ;  

    基因表达预测深度学习平台构建与研究
    下载Doc文档

    猜你喜欢