论文摘要
全基因组关联分析(Genome-Wide Association Studies,GWAS)是通过利用人类基因组中的几百万个SNPs位点上的基因型信息作为遗传标记,对案例-对照数据或者随机人群数据进行分析,筛选出与疾病相关的SNPs的有效方法。人类的复杂疾病主要受基因-基因交互作用(Gene-Gene Interaction,GGI)的影响。目前,全基因组关联分析大多数使用疾病与单个SNP位点相关统计的方法,然而,仅限于单基因效应的研究将使大部分复杂疾病遗传和复杂性状无法得到解释,因此需要更多高效的算法探测与疾病相关的多基因交互作用。多因子降维(Multifactor Dimensionality Reduction,MDR)是一种非参数、无模型的用于揭示与常见复杂疾病有关的基因-基因交互作用和基因-环境交互作用的分析方法,适用于病例-对照数据(case-control)研究。K最邻近算法是一种效率高和原理简单的分类算法,多目标优化是一种解决多个相互影响或冲突的目标组成的问题的机制。在此基础上,针对MDR算法在某些情况下易出现假阳性错误以及效率不理想等问题,本文提出了一种新的基于多目标优化机制与K-NN分类的多因子降维算法(Multifactor Dimensionality Reduction based on Multi-objective Optimization Mechanism and K-NN Classification,MK-MDR)用于探测全基因组关联分析中基因-基因交互作用。MK-MDR算法分为四个部分:第一部分,初始化参数,划分数据集。第二部分,利用K最邻近算法对样本进行高-低风险分类,基于样本的高-低风险和病例-对照属性生成双向列联表。第三部分,将该表转化为评估SNP位点组合与疾病关联度的两个数值——平衡正确分类率(Balanced Correct Classification Rate,BCCR)与似然比(Likelihood Ratio,LR)。利用BCCR与LR构成多目标函数,对SNP位点组合进行多目标优化。第四部分,进行交叉验证,最终选择具有最高交叉验证一致性和最低误差率的SNP位点组合作为最终模型。本文在模拟和真实的数据集上对MK-MDR算法进行性能的测试,并且与TEAM,BOOST等流行的全基因组关联分析算法进行比较。实验结果验证了MK-MDR算法在效率等方面优于其他算法。在真实的AMD数据集上,MK-MDR算法在探测与疾病关联的基因-基因交互作用上是可行的。
论文目录
文章来源
类型: 硕士论文
作者: 唐紫珺
导师: 谢民主
关键词: 全基因组关联分析,多因子降维,基因基因交互作用,最近邻,多目标优化
来源: 湖南师范大学
年度: 2019
分类: 基础科学,医药卫生科技,信息科技
专业: 生物学,基础医学,计算机软件及计算机应用
单位: 湖南师范大学
分类号: R394;TP301.6
总页数: 66
文件大小: 4471K
下载量: 68
相关论文文献
标签:全基因组关联分析论文; 多因子降维论文; 基因基因交互作用论文; 最近邻论文; 多目标优化论文;