论文摘要
LINCS是近期公开的一项大数据计划,它基于典型人体细胞在小分子化合物刺激下的反应而测定,数据丰富而规整,配套处理工具完善。由于基因表达具有高度相关性,探究LINCS基因表达的相似性对于基因推断、药物发现、多组数据融合分析、通路发现等具有重要的意义和参考价值。GSEA算法是目前研究LINCS数据相似性的主流算法,需要先预测实验结果然后再进行计算比对,由于其计算过程的复杂性,GSEA算法在相似性判定和时间开销上难以满足海量表达谱数据的分析需求。度量学习算法立足点在于学习,通过学习训练数据获得适合的度量空间从而进行相似度的计算,是比较理想的表达谱相似性判定方法,目前针对表达谱数据尤其是LINCS数据相似度分析的度量学习模型很少。基于此,本文以LINCS数据之间的相似度为出发点搭建了两种不同的的度量学习模型,另外,本文还提出了新的分类方法以拓展LINCS数据相似性的应用。课题主要工作包括:1.基于改进余弦距离的基因表达谱距离度量算法。本文首先提出基于H5py的数据提取优化方法用于LINCS数据提取,然后通过实验得出余弦距离是较为适合的相似度计算函数,接着对余弦距离进行改进,通过中心化和归一化使得算法对于基因表达谱各维度上的值更加敏感,结合NCA算法,组成基于改进余弦距离的近邻成分分析度量算法。在多个数据集上验证得出,该算法是一种对于基因表达谱相似度分析较为适用的度量算法。2.基于深度学习的基因表达谱距离度量算法。本文基于Siamese框架,构建DenseNet网络和Cosine距离相结合的深度学习模型,拓展了隐式的度量学习,采用Center loss和Cross-entropy loss结合的损失函数计算损失,在减少人工干预的同时提高了模型学习到的高层次特征表达的判别性。该方法的一个关键点在于数据的转换处理,需要预先将基因表达谱转换成基因方阵。在多组细胞系数据验证得出,该算法度量效果效果远远好于常用的度量学习方法和GSEA算法。3.基于共享字典学习的LINCS数据分类算法。本文设计了一种基于判别投影的共享字典学习模型,在训练字典时,还训练投影矩阵,并且投影矩阵对测试样本的投影可以加宽不同类型样本之间的距离间隔。另外,通过共享性能获取所有类别的样本,提高分类的判别性。最后,利用重构误差和均值向量之间的距离来判定样本的类别。在多组实验数据验证得出,该方法的分类准确率要高于当前主流分类方法。
论文目录
文章来源
类型: 硕士论文
作者: 刘伟
导师: 彭绍亮,邓子云
关键词: 相似度分析,度量学习,基因表达谱,深度学习
来源: 湖南大学
年度: 2019
分类: 基础科学,信息科技
专业: 生物学,计算机软件及计算机应用
单位: 湖南大学
基金: 2018年至2020年国家重点研发计划项目《精准医学大数据的有效挖掘与关键信息技术研发》(2018YFC0910405),深圳市科技计划项目《面向生物大数据药物重定位的小样本机器学习方法》(JCYJ20170818110101726)
分类号: Q811.4;TP311.13
DOI: 10.27135/d.cnki.ghudu.2019.000371
总页数: 80
文件大小: 5232K
下载量: 18
相关论文文献
- [1].基于LINCS转录组大数据的药物诱导基因共表达网络构建[J]. 军事医学 2018(06)
- [2].LINCS——面向转化医学的细胞反应大数据计划[J]. 生物化学与生物物理进展 2017(11)
- [3].分子动力学模拟LINCS约束算法的GPU并行化[J]. 计算机与应用化学 2012(08)