论文摘要
随着机器学习和深度学习的发展,越来越多的算法开始被应用到生物信息领域,近些年由于微阵列技术的蓬勃发展,人体基因信息逐渐被挖掘出来。经过调查研究,人体内已经有两万多条基因被发现,虽然现在的基因技术在不断的发展,但是进行一次人体的全基因组成本还是非常昂贵的。经过美国国立卫生院研究表明,人体内的基因表达通常都是高度相关的,由此他们发现人体内的大约1000个标志性基因包含了人体内其余80%基因的信息。为了有效利用这些标志性基因,可以把这大约1000个标志性基因作为输入,利用机器学习或深度学习的算法进行建模,去预测剩余的基因表达数据。然而目前很少有用于基因表达预测的平台,使用机器学习深度学习算法对基因表达预测进行建模并建立可供相关研究者和学习者使用的基因预测表达平台,是本文要解决的主要问题。机器学习中的回归算法主要有线性回归、核岭回归、支持向量回归等,深度学习主要采用神经网络去做回归。LINCS项目组的成员采用线性回归进行基因表达预测。Yifei Chen等人也使用深度学习算法。但是其深度学习算法模型受限于当时的机器设备配置,建立了两个神经网络进行基因表达预测,尽管准确度上表现不错,但是在训练和预测需要耗费大量的时间。在本研究中,主要使用深度学习模型,并辅之以机器学习模型,如线性回归、核岭回归和支持向量回归,并搭建基因表达预测平台,用户只需要输入少部分的基因表达值,即标志性基因的表达值,然后平台使用后台已经训练好的模型对基因表达进行预测,并将输出的9520个基因表达值反馈给用户。在对基因数据集进行预处理后,使用scikit-learn学习包建立线性回归、核岭回归和支持向量回归模型,使用多层全连接神经网络,并采用Drop Out等技巧进行参数调优,建立深度学习模型,对模型参数进行调优后把模型保存到本地,以供平台加载使用。本文对平台所使用的模型原理、建模过程和使用进行详细阐述,并针对用户不同的输入进行分析,如本地化Blast序列比对。最后采用Django框架对基因表达预测平台进行搭建开发,并将相关数据持久化保存到My Sql数据库中。本研究旨在更好的帮助相关研究者和学习者进行使用,从而对基因表达研究起到辅助作用。
论文目录
文章来源
类型: 硕士论文
作者: 徐昊
导师: 王岩
关键词: 标志性基因,深度学习,基因表达值,神经网络,基因表达预测平台
来源: 吉林大学
年度: 2019
分类: 基础科学,医药卫生科技,信息科技
专业: 生物学,生物学,生物医学工程,自动化技术
单位: 吉林大学
分类号: Q811.4;TP181
总页数: 59
文件大小: 2918K
下载量: 99
相关论文文献
标签:标志性基因论文; 深度学习论文; 基因表达值论文; 神经网络论文; 基因表达预测平台论文;