基于Sparse Group Lasso惩罚的整合分析

基于Sparse Group Lasso惩罚的整合分析

论文摘要

大数据往往具有高维度、稀疏性、来源差异性的特点,如何合理有效地挖掘、分析此类数据集之间的关联信息和差异性,同时完成数据特征的降维去噪,是值得深思和研究的问题.整合分析不同于以往的单数据集分析和统合分析,它将多个独立数据集联合起来,同时分析多个数据集,为直接从原始数据中挖掘信息提供了手段.基于惩罚函数的整合分析将整合分析与惩罚函数变量选择思想结合起来,通过惩罚函数对系数进行压缩,从而筛选出重要特征变量,完成降维的作用.惩罚整合分析不同于单个数据集的群组惩罚,它的特点是将每个解释变量在所有数据集中的回归系数视为一组.基于二层变量选择的惩罚整合分析则不仅要筛选出显著的特征变量,还要识别出已挑选的重要变量在哪些数据集中显著,从而研究不同数据集间的关联性和差异性.本文将双层变量选择新罚Sparse Group Lasso运用到具有相似稀疏结构的整合分析中,并采用一个具有促进稀疏结构相似性作用的罚来促成这样的稀疏结构,然后创建了相应的分块坐标下降求解算法,并提出了若干模型评价指标和参数调优方法.该模型方法成功解决了在预先未知数据集结构但又有一定先验信息可知其具有相似稀疏结构的情况下整合分析的建模问题.在若干评价准则下,本文对不同模拟结果进行分析,证实了模型的可行性和不输于已有方法的优良性能,又在两个实例分析中,证实了模型方法的实用性.在模拟过程中,本文提出的基于Sparse Group Lasso罚的整合分析与已有的基于Composite MCP罚的整合分析的表现不相上下,各有优势,但在计算时间成本上,本文的模型方法更有优势.在实例分析中,两例数据集依据本文模型建模求解的结果具有相应的可解释性,有效地选出了影响不同葡萄酒品质的重要因素及五个城市PM2.5浓度的影响因素,并依此作了相应的差异性和关联性分析.

论文目录

  • 摘要
  • Abstract
  • 符号说明
  • 第1章 绪论
  •   1.1 引言
  •   1.2 整合分析方法综述
  •   1.3 本文创新点和研究内容
  • 第2章 数据集和模型设定
  •   2.1 模型的基本形式
  •   2.2 回归系数的结构
  • 第3章 方法介绍
  •   3.1 基于SGL罚的整合分析方法
  •     3.1.1 双层变量选择惩罚方法SGL
  •     3.1.2 促进数据集相似稀疏结构的惩罚方法
  •   3.2 分块坐标下降算法
  • 第4章 模型评价和选择
  •   4.1 模型评价指标
  •   4.2 参数调优
  • 第5章 模拟分析
  •   5.1 模拟设定
  •   5.2 模拟结果与分析
  •     5.2.1 系数固定的模拟结果
  •     5.2.2 系数随机的模拟结果
  •     5.2.3 分析小结
  • 第6章 实例分析
  •   6.1 葡萄酒的品质分析
  •   6.2 中国五大城市PM2.5 浓度分析
  • 第7章 总结与展望
  • 参考文献
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 李志娟

    导师: 明瑞星

    关键词: 双层变量选择,稀疏组,整合分析,分块坐标下降法,模型评价

    来源: 浙江工商大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 数学,计算机软件及计算机应用

    单位: 浙江工商大学

    分类号: TP311.13;O212

    DOI: 10.27462/d.cnki.ghzhc.2019.000453

    总页数: 56

    文件大小: 2031k

    相关论文文献

    • [1].六个全球历史土地覆盖数据集数据来源的对比分析[J]. 北京师范大学学报(自然科学版) 2019(06)
    • [2].基于多数据集动态潜变量的在线性能分级评估方法[J]. 控制理论与应用 2020(03)
    • [3].代表性人口空间分布数据集的精度评价——以2010年广东省为例[J]. 热带地理 2020(02)
    • [4].高速公路场景下基于深度学习的数据集建立[J]. 数字技术与应用 2020(02)
    • [5].构建图形图像数据集的方法概述[J]. 计算机产品与流通 2020(08)
    • [6].多国议会数据集及平台建设研究[J]. 情报工程 2020(02)
    • [7].国际主要科学数据集检索平台对比研究[J]. 情报工程 2020(01)
    • [8].实验室化学品纯化方法数据集[J]. 中国科学数据(中英文网络版) 2020(02)
    • [9].化学药物数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [10].中亚地区陆表物候逐年数据集(1982–2015)[J]. 全球变化数据学报(中英文) 2020(01)
    • [11].南京百年人物数据集[J]. 中国科学数据(中英文网络版) 2020(03)
    • [12].替代计量学视角下科学数据集价值的定量测度研究[J]. 情报理论与实践 2020(09)
    • [13].数据集采器在临床护理工作中的应用价值探讨[J]. 基层医学论坛 2017(12)
    • [14].医院感染监测基本数据集的建立及作用[J]. 中华医院感染学杂志 2016(11)
    • [15].TextGen:用于新型存储系统基准测试的真实文本数据集生成方法(英文)[J]. Frontiers of Information Technology & Electronic Engineering 2016(10)
    • [16].卫星气候数据集的应用研究与发展分析[J]. 地球信息科学学报 2015(11)
    • [17].用于生命之树重建的数据集[J]. 中国科学数据(中英文网络版) 2017(03)
    • [18].中国有毒动物数据集[J]. 中国科学数据(中英文网络版) 2017(04)
    • [19].基于次序依赖的电力数据集修复[J]. 电测与仪表 2019(24)
    • [20].粤港澳湾区1:50000斗门镇幅工程地质调查及岩土样品试验数据集[J]. 中国地质 2019(S2)
    • [21].全集水网数据集更新方法研究[J]. 经纬天地 2020(01)
    • [22].智能城市产业资讯汇总[J]. 智能城市 2020(11)
    • [23].基于神经网络的机器阅读理解综述[J]. 软件学报 2020(07)
    • [24].2002–2010年中国典型生态系统辐射及光能利用效率数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [25].基于镶嵌数据集的海量数据存储管理——以青海湖流域为例[J]. 地球环境学报 2013(04)
    • [26].基于数据集相似性的分类算法推荐[J]. 计算机应用与软件 2016(08)
    • [27].数字数据集揭示文化遗产促进城市可持续发展[J]. 世界遗产 2016(05)
    • [28].洞庭湖区堤垸1949—2013空间分布数据集[J]. 全球变化数据学报(中英文) 2017(01)
    • [29].云南省标准化降水蒸散指数数据集(1998-2012)[J]. 全球变化数据学报(中英文) 2017(04)
    • [30].1979~1998年工业腐蚀失效分析数据集[J]. 中国科学数据(中英文网络版) 2017(01)

    标签:;  ;  ;  ;  ;  

    基于Sparse Group Lasso惩罚的整合分析
    下载Doc文档

    猜你喜欢