论文摘要
蛋白质是生命的物质基础之一,其相互作用(protein-protein interaction,PPI)几乎控制所有细胞过程,对生物体内各种生理功能的执行发挥着至关重要的作用,掌握这种作用关系不仅有助于理解生命活动的执行机制,也能够为疾病形成与发展、药物设计等提供重要理论支撑。传统生物实验每次能够测定的蛋白质对数目有限,且时间等花销较大,存在局限性。相比之下,使用计算的方法具有省时省力且灵活性高的特点,因此受到了较多关注,其中,基于机器学习的计算方法已成为了研究热点。在后基因组时代,基因序列数据等资源丰富,为基于机器学习方法预测蛋白质间相互作用关系的广泛应用奠定了基础,众多预测方法应运而生。随着机器学习算法的发展,模型的性能得到了持续的提升,但是一些新的模型在蛋白质互作预测研究中却并未得到充分利用。其次,生物数据类别较多,如何充分利用已有数据进行预测并没有统一标准,且不同的特征提取方法与分类器之间常互相限制,当替换分类器时有时需要同时更换数据和特征提取方法才能够维持好的预测性能。针对这些问题,本文提出了基于深度神经网络和基于集成学习模型的两种PPI预测方法。基于深度神经网络的PPI预测框架整合了多种生物信息,包括序列相似性、重要性、亚细胞定位信息以及GO语义相似性信息,组成抽象层次较高的低维特征向量,然后构建深度神经网络,学习蛋白质的特征数据并对未知蛋白质对进行预测。实验结果表明,本文整合的生物特征能够有效降低分类器的时间花销并提高分类准确性,较适用于PPI预测研究,此外,我们构建的神经网络也有较好的泛化能力。基于深度网络的预测方法需整合多个数据源的信息,存在前期人力成本较高的缺点。而且有些蛋白质不具有实验所需的完备生物信息记录,无法获取对应特征向量,相对而言,蛋白质序列数据资源则更丰富且容易获取。鉴于此,我们又提出了一种基于连续小波变换和集成学习模型的PPI预测方法作为补充。该方法综合考虑了氨基酸的不同物理化学性质,利用对应数值将蛋白质序列转化成数字表示形式,然后使用连续小波变换和尺度-小波能量谱从长度不一的序列数据中提取出等长的特征向量。基于此特征向量,我们训练了7个随机森林,通过整合不同随机森林的输出结果,完成预测。实验证明,该方法在多种蛋白质数据上都具有较高的预测性能,值得进一步深入研究。
论文目录
文章来源
类型: 硕士论文
作者: 王沫沅
导师: 刘桂霞
关键词: 蛋白质相互作用,蛋白质特征,蛋白质序列,深度神经网络,连续小波变换,集成方法
来源: 吉林大学
年度: 2019
分类: 基础科学,信息科技
专业: 生物学,自动化技术
单位: 吉林大学
分类号: Q811.4;TP183
总页数: 55
文件大小: 2381K
下载量: 105