海量数据相关性判别算法研究及应用

海量数据相关性判别算法研究及应用

论文摘要

数据增长速度比以往任何时候都快,到2020年,地球上的每个人每秒创造大约1.7兆字节的新信息。检测大数据集中变量之间的关系在基因组学,物理学,政治学和经济学领域变得越来越普遍,这使得发现变量之间的关系成为一个日益严峻的挑战。一般而言,在样本量足够大的情况下,我们希望能够找到变量之间广泛的关联,不仅限于特定的函数(如线性),而应该是所有的函数关系。我们希望找到在不同类型的关系中具有相同噪音下的相似的分数度量。在对基因数据的研究中,检测与疾病关联的致病基因的研究占有重要地位,是人们研究的重点问题。然而现有的大部分方法检测手段时间长、代价大,因此希望通过其他手段对致病基因做出检测。而传统的计算方法对于非线性的函数检测效果差,为此,本文针对这两点提出新的解决方法。本文的主要研究成果有:1.最大信息系数(MIC)是一种有效的探索数据关系的工具。MIC在将变量划分成网格时穷尽所有划分方法,并且该过程决定了MIC算法的时间在大数据集中计算复杂。我们通过提出一种新的近似算法,对MIC在大数据集中的应用做出了重大改进,称为CDMIC(使用Cluster Division的最大信息系数)。首先,我们使用快速聚类方法来生成相似数据的中心节点,并使用中心节点来表示密切相关的点,形成聚类。其次,计算每个区域的MIC值,最后,我们使用加权MIC值的总和。实验结果表明,CDMIC保留了MIC的优点,可以准确识别相关数据对的存在。而CDMIC算法在时间有效方面远优于MIC算法。该方法可以用于致病基因的检测。2.传统的检测致病基因的方法为线性回归,但线性回归的方法在非线性的函数下检测效果差,而非线性回归的方法检测时间长。本文整合了两种方法的优点,提出了基于装袋的区域逐步非线性回归模型,并采用最小角度回归(LARS)算法快速的得到结果,最后验证该算法的正确性与时间效率。实验结果表明:相对于传统方法使用的线性回归模型,本文提出的基于装袋的逐步非线性回归模型在基因数据上得到的效果更好。

论文目录

  • 中文摘要
  • Abstract
  • 第1章 绪论
  •   1.1 研究背景和意义
  •   1.2 国内外研究现状
  •   1.3 本文研究的主要内容
  •     1.3.1 研究问题
  •     1.3.2 本文的主要研究成果
  •   1.4 本文的组织安排
  • 第2章 课题研究的理论基础
  •   2.1 皮尔逊相关系数
  •   2.2 斯皮尔曼相关系数
  •   2.3 最大信息系数(Maximal Information Coefficient,MIC)
  •   2.4 多元线性回归模型
  •     2.4.1 最小二乘法
  •     2.4.2 Lasso回归
  •   2.5 本章小结
  • 第3章 基于聚类分割的最大信息系数
  •   3.1 引言
  •   3.2 问题定义
  •     3.2.1 k-means聚类算法
  •     3.2.2 差分法计算波峰波谷
  •   3.3 基于聚类分割的最大信息系数(CDMIC)
  •   3.4 实验结果及分析
  •   3.5 本章小结
  • 第4章 基于装袋的区域逐步非线性回归
  •   4.1 引言
  •   4.2 问题定义
  •     4.2.1 最小角度回归LARS(Least Angle Regression)
  •     4.2.2 非线性回归
  •   4.3 基于装袋的区域逐步非线性回归
  •   4.4 实验结果及分析
  •   4.5 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 攻读硕士学位期间发表的学术论文
  • 文章来源

    类型: 硕士论文

    作者: 许俊钊

    导师: 李建中

    关键词: 相关系数,最大信息系数,线性回归模型,非线性回归模型,最小角度回归

    来源: 黑龙江大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 数学,生物学,计算机软件及计算机应用

    单位: 黑龙江大学

    分类号: Q811.4;TP311.13;O212.1

    DOI: 10.27123/d.cnki.ghlju.2019.001603

    总页数: 56

    文件大小: 2061K

    下载量: 41

    相关论文文献

    • [1].房价非线性回归模型及期权定价[J]. 大连理工大学学报 2017(05)
    • [2].金融支持农村的发展研究——基于非线性回归模型[J]. 商 2016(08)
    • [3].偏态数据下混合非线性回归模型的统计推断[J]. 曲阜师范大学学报(自然科学版) 2015(04)
    • [4].基于非线性回归模型的线切割工艺参数优化分析[J]. 制造业自动化 2011(17)
    • [5].带有线性约束的指数族非线性回归模型[J]. 南京师大学报(自然科学版) 2010(01)
    • [6].候诊成功率与候诊时间的非线性回归模型[J]. 中国卫生统计 2013(03)
    • [7].非线性回归模型的经验似然诊断[J]. 应用数学学报 2012(04)
    • [8].基于非线性回归模型的铁路客运需求预测[J]. 西部皮革 2019(18)
    • [9].非线性回归模型的曲率降低问题研究[J]. 统计与决策 2013(03)
    • [10].线切割工艺参数优化的非线性回归模型[J]. 西安工业大学学报 2011(07)
    • [11].基于移动平均线改进的多元非线性回归模型[J]. 首都师范大学学报(自然科学版) 2017(03)
    • [12].一种多元非线性回归模型的发音评测技术[J]. 大众科技 2012(12)
    • [13].中国城镇居民消费支出的多元非线性回归模型研究[J]. 数学的实践与认识 2011(10)
    • [14].基于多元非线性回归模型的彩色扫描仪特征化[J]. 包装工程 2011(15)
    • [15].一种多元非线性回归模型的建立方法及其应用[J]. 中国考试 2010(11)
    • [16].三角进化算法在非线性回归模型建立中的应用[J]. 承德石油高等专科学校学报 2009(01)
    • [17].非线性回归模型在边坡变形监测中的应用[J]. 测绘与空间地理信息 2018(04)
    • [18].基于MATLAB的多元非线性回归模型[J]. 云南师范大学学报(自然科学版) 2009(02)
    • [19].世界淡水资源开发管理策略的数学建模与分析[J]. 鞍山师范学院学报 2017(02)
    • [20].Bayes条件下非线性模型参数估计的渐近展开[J]. 淮阴师范学院学报(自然科学版) 2012(03)
    • [21].一元非线性回归模型参数估计的ExcelVBA算法与程序实现[J]. 西北林学院学报 2011(03)
    • [22].带有线性约束的指数族非线性回归模型置信域的曲率表示[J]. 曲阜师范大学学报(自然科学版) 2010(01)
    • [23].引入模型误差的非线性回归模型[J]. 海洋测绘 2009(03)
    • [24].乌鲁木齐市PM2.5及其影响因素间非线性关系研究[J]. 襄阳职业技术学院学报 2017(05)
    • [25].学位论文盲审与预测系统的设计与实现[J]. 软件导刊(教育技术) 2019(12)
    • [26].多元非线性回归模型GLS估计的渐近性质[J]. 合肥工业大学学报(自然科学版) 2009(06)
    • [27].经济危机中小型城市GDP增长研究与仿真[J]. 计算机仿真 2013(01)
    • [28].带约束非线性回归模型参数的广义LS估计的存在性[J]. 统计与决策 2008(11)
    • [29].海南人口增长模型的统计分析[J]. 数学的实践与认识 2017(12)
    • [30].基于多元非线性回归模型的环型中压配电网最大供电能力评估方法[J]. 电力自动化设备 2013(12)

    标签:;  ;  ;  ;  ;  

    海量数据相关性判别算法研究及应用
    下载Doc文档

    猜你喜欢