基于MDR的全基因组关联分析算法研究

基于MDR的全基因组关联分析算法研究

论文摘要

全基因组关联分析(Genome-Wide Association Studies,GWAS)是通过利用人类基因组中的几百万个SNPs位点上的基因型信息作为遗传标记,对案例-对照数据或者随机人群数据进行分析,筛选出与疾病相关的SNPs的有效方法。人类的复杂疾病主要受基因-基因交互作用(Gene-Gene Interaction,GGI)的影响。目前,全基因组关联分析大多数使用疾病与单个SNP位点相关统计的方法,然而,仅限于单基因效应的研究将使大部分复杂疾病遗传和复杂性状无法得到解释,因此需要更多高效的算法探测与疾病相关的多基因交互作用。多因子降维(Multifactor Dimensionality Reduction,MDR)是一种非参数、无模型的用于揭示与常见复杂疾病有关的基因-基因交互作用和基因-环境交互作用的分析方法,适用于病例-对照数据(case-control)研究。K最邻近算法是一种效率高和原理简单的分类算法,多目标优化是一种解决多个相互影响或冲突的目标组成的问题的机制。在此基础上,针对MDR算法在某些情况下易出现假阳性错误以及效率不理想等问题,本文提出了一种新的基于多目标优化机制与K-NN分类的多因子降维算法(Multifactor Dimensionality Reduction based on Multi-objective Optimization Mechanism and K-NN Classification,MK-MDR)用于探测全基因组关联分析中基因-基因交互作用。MK-MDR算法分为四个部分:第一部分,初始化参数,划分数据集。第二部分,利用K最邻近算法对样本进行高-低风险分类,基于样本的高-低风险和病例-对照属性生成双向列联表。第三部分,将该表转化为评估SNP位点组合与疾病关联度的两个数值——平衡正确分类率(Balanced Correct Classification Rate,BCCR)与似然比(Likelihood Ratio,LR)。利用BCCR与LR构成多目标函数,对SNP位点组合进行多目标优化。第四部分,进行交叉验证,最终选择具有最高交叉验证一致性和最低误差率的SNP位点组合作为最终模型。本文在模拟和真实的数据集上对MK-MDR算法进行性能的测试,并且与TEAM,BOOST等流行的全基因组关联分析算法进行比较。实验结果验证了MK-MDR算法在效率等方面优于其他算法。在真实的AMD数据集上,MK-MDR算法在探测与疾病关联的基因-基因交互作用上是可行的。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  •   1.1 研究背景及意义
  •   1.2 生物学相关概念
  •     1.2.1 DNA
  •     1.2.2 染色体与基因
  •     1.2.3 SNP与基因型
  •     1.2.4 遗传疾病
  •   1.3 研究现状及难点
  •   1.4 研究内容与创新
  •   1.5 论文结构安排
  • 第二章 基于MDR的全基因组关联分析算法的概述
  •   2.1 MDR算法
  •     2.1.1 MDR算法原理和步骤
  •     2.1.2 MDR模型的评估与检验
  •     2.1.3 MDR算法的优缺点
  •   2.2 改进的MDR算法概述
  •   2.3 MDR算法在疾病数据集上的应用
  •   2.4 本章小结
  • 第三章 基于MDR改进的全基因组关联分析算法
  •   3.1 K-NN算法
  •     3.1.1 K-NN算法原理
  •     3.1.2 K-NN算法的优缺点
  •   3.2 多目标优化
  •   3.3 MK-MDR算法
  •     3.3.1 MK-MDR算法概述
  •     3.3.2 K-NN算法对样本的高-低风险的分类
  •     3.3.3 SNP位点组合的多目标优化
  •     3.3.4 MK-MDR算法流程与步骤
  •   3.4 本章小结
  • 第四章 实验设计与结果分析
  •   4.1 模拟数据的生成
  •   4.2 模拟数据实验与结果分析
  •     4.2.1 算法效率对比
  •     4.2.2 算法假阳性率对比
  •   4.3 真实数据实验与结果分析
  •   4.4 本章小结
  • 第五章 总结与展望
  •   5.1 总结
  •   5.2 展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间发表学术论文和参与项目情况
  • 文章来源

    类型: 硕士论文

    作者: 唐紫珺

    导师: 谢民主

    关键词: 全基因组关联分析,多因子降维,基因基因交互作用,最近邻,多目标优化

    来源: 湖南师范大学

    年度: 2019

    分类: 基础科学,医药卫生科技,信息科技

    专业: 生物学,基础医学,计算机软件及计算机应用

    单位: 湖南师范大学

    分类号: R394;TP301.6

    总页数: 66

    文件大小: 4471K

    下载量: 68

    相关论文文献

    标签:;  ;  ;  ;  ;  

    基于MDR的全基因组关联分析算法研究
    下载Doc文档

    猜你喜欢