面向单细胞RNA-seq数据的聚类方法研究

面向单细胞RNA-seq数据的聚类方法研究

论文摘要

单细胞RNA测序(scRNA-seq)允许生物学家收集大量详细描述单个细胞转录组的RNA-seq数据,无监督聚类对于这些数据的分析非常重要,因为它可用于识别出未知的细胞类型。通过基于转录组相似性的无监督聚类来定义细胞类型已经成为单细胞RNAseq最强有力的应用之一。广义的来看,无监督聚类的目的是发现一组对象的自然分组。在转录组的基础上定义细胞类型是有吸引力的,因为无监督聚类提供了一组数据驱动的,一致性并且无偏倚的方法。基于此思想,一些基因测序项目应运而生,这些测序项目旨在为生物体或组织在不同发育阶段存在的所有细胞类型建立全面的参考资料。许多scRNA-seq数据集非常大,可以达到数十万个细胞,这带来了挑战和机遇。单细胞RNA-seq表达数据集是基因组学中遇到的较为复杂的数据集。即使是最小的单细胞RNA-seq实验,也会取样数百个细胞,测量每个细胞中超过10000个基因的表达水平。大数据集确保分析具有高准确率的同时也提高了检测罕见细胞类型的能力。聚类的效率和准确性成为了数据分析的一大挑战。为了使细胞图谱具有实际的应用价值,细胞聚类将是计算的关键挑战之一。为了能够在scRNA-seq数据集上得到较为准确的聚类结果,便于研究学者进一步的分析生物数据,我们对单细胞RNA-seq数据的聚类方法进行了研究。由于降维可以减少噪声,还原低维流形,加快数据处理速度,我们尝试在聚类之前对数据进行降维。我们研究了一些可以应用在scRNA-seq数据上的降维和聚类的算法。降维算法主要包括主成分分析(PCA),独立成分分析(ICA)和非负矩阵分解(NMF),聚类算法则包括Kmeans,层次聚类(Hierarchical Clustering)和Louvain。Louvain算法是用来研究图数据的一种社区发现算法,其被认为是性能最好的社区发现算法。基于scRNA-seq数据的特征,我们将KNN的近邻思想与Louvain相结合使其更好的应用于scRNA-seq数据。我们在两个大型scRNA-seq数据集上共进行了四次实验并分别对聚类结果进行了定量分析,同时使用t-SNE方法进行了可视化分析。结果显示Louvain算法在聚类的准确性上表现非常优秀。我们对其它两种聚类方法也进行了分析,并且发现层次聚类在区分大规模样本时表现很好。另外原始数据未降维前的聚类结果与降维之后的聚类结果存在很大的差距,以此也验证了降维在scRNA-seq数据聚类过程中的必要性。

论文目录

  • 摘要
  • abstract
  • 第1章 绪论
  •   1.1 研究背景
  •   1.2 国内外研究现状
  •   1.3 面临的挑战
  •   1.4 研究意义
  • 第2章 单细胞RNA-seq数据相关技术
  •   2.1 单细胞RNA-seq数据降维算法
  •     2.1.1 主成分分析(PCA)
  •     2.1.2 t-SNE降维
  •     2.1.3 独立成分分析(ICA)
  •     2.1.4 非负矩阵分解(NMF)
  •   2.2 单细胞RNA-seq数据聚类算法
  •     2.2.1 K-means
  •     2.2.2 Hierarchical Clustering
  •     2.2.3 Louvain
  • 第3章 单细胞RNA-seq数据聚类分析
  •   3.1 流程设计
  •   3.2 降维和聚类算法设计
  •   3.3 聚类结果评价指标
  • 第4章 实验与分析
  •   4.1 实验数据
  •     4.1.1 数据准备
  •     4.1.2 数据预处理
  •   4.2 实验结果分析
  • 第5章 总结与展望
  •   5.1 总结
  •   5.2 展望
  • 参考文献
  • 作者简介及科研成果
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 杨其跃

    导师: 管仁初

    关键词: 单细胞测序,降维,聚类

    来源: 吉林大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,计算机软件及计算机应用

    单位: 吉林大学

    分类号: TP311.13;Q811.4

    总页数: 57

    文件大小: 3392K

    下载量: 344

    相关论文文献

    • [1].基于聚类树的多类标文本分类算法研究[J]. 信阳师范学院学报(自然科学版) 2017(01)
    • [2].一种基于启发式的分层聚类[J]. 计算机应用与软件 2014(05)
    • [3].一种基于GMM-聚类树的面向大规模服装图像检索的索引结构[J]. 北京服装学院学报(自然科学版) 2016(03)
    • [4].基于自寻优层次聚类的孤立点分析[J]. 计算机系统应用 2008(04)
    • [5].基于顶点重要度和层次聚类树的地形网格简化[J]. 计算机工程与设计 2016(06)
    • [6].一种基于层次聚类的全局孤立点识别方法[J]. 计算机应用研究 2011(05)
    • [7].新生儿坏死性小肠结肠炎研究趋势的共词分析[J]. 临床儿科杂志 2015(01)
    • [8].我国高校知识服务领域研究热点的可视化分析[J]. 知识经济 2016(05)
    • [9].Ward系统聚类法在农村居民收入情况分析中的应用研究[J]. 大理学院学报 2015(06)
    • [10].国内图书馆嵌入式服务研究热点可视化分析[J]. 图书馆工作与研究 2013(12)
    • [11].地沟油的高光谱数据聚类分析[J]. 国土资源遥感 2014(01)
    • [12].聚类集成技术在地铁站点类型研究中的应用[J]. 小型微型计算机系统 2019(01)
    • [13].基于聚类的连续型数据缺失值充填方法[J]. 计算机工程 2019(09)
    • [14].中国城市化的出路在中小城市[J]. 调研世界 2011(03)
    • [15].棘腹蛙线粒体局部重复序列非排序聚类[J]. 四川动物 2018(03)
    • [16].运用生物信息学方法鉴别易混种射干和鸢尾[J]. 佳木斯职业学院学报 2014(12)
    • [17].角倍蚜mtDNA基因序列遗传多样性分析[J]. 科技与创新 2014(04)
    • [18].k-modes聚类方法的改进与在可追溯猪肉消费偏好研究中的应用[J]. 系统管理学报 2019(04)
    • [19].四川泸州桂圆的RAPD分析[J]. 安徽农业科学 2012(23)
    • [20].基于形态距离的日负荷数据自适应稳健聚类算法[J]. 中国电机工程学报 2019(12)
    • [21].聚类分析在汉语方言研究中的运用[J]. 语文研究 2015(04)
    • [22].基于新型图论聚类法的物流系统多设施选址策略研究[J]. 中国管理科学 2012(06)
    • [23].国内儿童语言发育研究的文献计量分析[J]. 中国儿童保健杂志 2013(03)
    • [24].政务公开研究的共词网络可视化分析[J]. 现代情报 2014(07)
    • [25].一种基于凝聚K-means的决策簇分类器[J]. 信阳师范学院学报(自然科学版) 2013(04)
    • [26].鸽(Columbam)ESRα基因的扩增及序列分析[J]. 畜牧兽医科技信息 2012(08)
    • [27].孤立点检测改进径向基神经网络动态预测模型[J]. 计算机工程与应用 2009(28)
    • [28].芡种质资源及其杂种后代的初步遗传分析与评价[J]. 长江蔬菜 2012(16)
    • [29].MapReduce框架下常用聚类算法比较研究[J]. 河北省科学院学报 2019(02)
    • [30].船舶AIS轨迹聚类方法研究进展综述[J]. 广州航海学院学报 2019(02)

    标签:;  ;  ;  

    面向单细胞RNA-seq数据的聚类方法研究
    下载Doc文档

    猜你喜欢