LINCS数据相似性度量研究

LINCS数据相似性度量研究

论文摘要

LINCS是近期公开的一项大数据计划,它基于典型人体细胞在小分子化合物刺激下的反应而测定,数据丰富而规整,配套处理工具完善。由于基因表达具有高度相关性,探究LINCS基因表达的相似性对于基因推断、药物发现、多组数据融合分析、通路发现等具有重要的意义和参考价值。GSEA算法是目前研究LINCS数据相似性的主流算法,需要先预测实验结果然后再进行计算比对,由于其计算过程的复杂性,GSEA算法在相似性判定和时间开销上难以满足海量表达谱数据的分析需求。度量学习算法立足点在于学习,通过学习训练数据获得适合的度量空间从而进行相似度的计算,是比较理想的表达谱相似性判定方法,目前针对表达谱数据尤其是LINCS数据相似度分析的度量学习模型很少。基于此,本文以LINCS数据之间的相似度为出发点搭建了两种不同的的度量学习模型,另外,本文还提出了新的分类方法以拓展LINCS数据相似性的应用。课题主要工作包括:1.基于改进余弦距离的基因表达谱距离度量算法。本文首先提出基于H5py的数据提取优化方法用于LINCS数据提取,然后通过实验得出余弦距离是较为适合的相似度计算函数,接着对余弦距离进行改进,通过中心化和归一化使得算法对于基因表达谱各维度上的值更加敏感,结合NCA算法,组成基于改进余弦距离的近邻成分分析度量算法。在多个数据集上验证得出,该算法是一种对于基因表达谱相似度分析较为适用的度量算法。2.基于深度学习的基因表达谱距离度量算法。本文基于Siamese框架,构建DenseNet网络和Cosine距离相结合的深度学习模型,拓展了隐式的度量学习,采用Center loss和Cross-entropy loss结合的损失函数计算损失,在减少人工干预的同时提高了模型学习到的高层次特征表达的判别性。该方法的一个关键点在于数据的转换处理,需要预先将基因表达谱转换成基因方阵。在多组细胞系数据验证得出,该算法度量效果效果远远好于常用的度量学习方法和GSEA算法。3.基于共享字典学习的LINCS数据分类算法。本文设计了一种基于判别投影的共享字典学习模型,在训练字典时,还训练投影矩阵,并且投影矩阵对测试样本的投影可以加宽不同类型样本之间的距离间隔。另外,通过共享性能获取所有类别的样本,提高分类的判别性。最后,利用重构误差和均值向量之间的距离来判定样本的类别。在多组实验数据验证得出,该方法的分类准确率要高于当前主流分类方法。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 课题背景和意义
  •     1.1.1 课题来源
  •     1.1.2 研究背景
  •     1.1.3 问题描述
  •     1.1.4 研究意义
  •   1.2 国内外研究现状
  •   1.3 研究困难和挑战
  •   1.4 论文的主要内容
  •     1.4.1 论文的主要工作及贡献
  •     1.4.2 论文的组织构架
  • 第二章 LINCS数据分析和GSEA方法
  •   2.1 LINCS来源和基本组成
  •   2.2 基于H5py的数据提取方法
  •   2.3 GSEA相似度算法分析
  •   2.4 本章小结
  • 第三章 优化度量函数的近邻成分分析算法
  •   3.1 引言
  •   3.2 典型度量学习模型分析
  •     3.2.1 LMNN
  •     3.2.2 LFDA
  •     3.2.3 ITML
  •     3.2.4 KISS
  •   3.3 PC-NCA距离度量算法
  •     3.3.1 近邻成分分析算法(NCA)
  •     3.3.2 改进的余弦度量距离
  •   3.4 实验评估
  •     3.4.1 实验平台和数据集
  •     3.4.2 实验一:度量算法和GSEA比对
  •     3.4.3 实验二:距离度量函数性能比对
  •     3.4.4 实验三:PC-NCA算法的性能评估
  •   3.5 本章小结
  • 第四章 基于深度学习的表达谱度量学习算法
  •   4.1 引言
  •   4.2 卷积神经网络
  •     4.2.1 卷积神经网络的结构和作用
  •     4.2.2 卷积神经网络的训练过程
  •   4.3 Siamese CNN网络
  •   4.4 DenseNet网络
  •   4.5 DeepCDNet距离度量算法
  •     4.5.1 网络结构
  •     4.5.2 训练过程与收敛
  •   4.6 实验评估
  •     4.6.1 数据集
  •     4.6.2 实验结果和分析
  •   4.7 本章小结
  • 第五章 基于字典学习的表达谱分类算法
  •   5.1 引言
  •   5.2 稀疏表示和字典学习
  •     5.2.1 稀疏表达模型优化
  •     5.2.2 字典学习分类算法
  •   5.3 DPSDL算法
  •     5.3.1 DPSDL模型
  •     5.3.2 DPSDL模型优化
  •     5.3.3 分类判定标准
  •     5.3.4 模型的收敛
  •   5.4 实验评估
  •     5.4.1 实验平台和数据集
  •     5.4.2 实验结果及分析
  •   5.5 本章小结
  • 结论
  •   工作总结
  •   未来展望
  • 参考文献
  • 致谢
  • 附录 A 攻读学位期间所发表的学术论文
  • 附录 B 攻读学位期间参与的研究项目
  • 文章来源

    类型: 硕士论文

    作者: 刘伟

    导师: 彭绍亮,邓子云

    关键词: 相似度分析,度量学习,基因表达谱,深度学习

    来源: 湖南大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,计算机软件及计算机应用

    单位: 湖南大学

    基金: 2018年至2020年国家重点研发计划项目《精准医学大数据的有效挖掘与关键信息技术研发》(2018YFC0910405),深圳市科技计划项目《面向生物大数据药物重定位的小样本机器学习方法》(JCYJ20170818110101726)

    分类号: Q811.4;TP311.13

    DOI: 10.27135/d.cnki.ghudu.2019.000371

    总页数: 80

    文件大小: 5232K

    下载量: 18

    相关论文文献

    • [1].基于LINCS转录组大数据的药物诱导基因共表达网络构建[J]. 军事医学 2018(06)
    • [2].LINCS——面向转化医学的细胞反应大数据计划[J]. 生物化学与生物物理进展 2017(11)
    • [3].分子动力学模拟LINCS约束算法的GPU并行化[J]. 计算机与应用化学 2012(08)

    标签:;  ;  ;  ;  

    LINCS数据相似性度量研究
    下载Doc文档

    猜你喜欢