含曝光变量的超高维分类数据特征筛选

含曝光变量的超高维分类数据特征筛选

论文摘要

随着信息获取和信息传输技术的飞速发展,我们收集到的数据表征维度变高,含有大量无关的冗余信息,推动了特征筛选方法的研究.伴随数据挖掘技术的提升,越来越多的隐含变量被曝光,发现更多的协变量对响应变量的影响以某种方式依赖着曝光变量,比如时间或者坏境指数.因此在曝光变量下,筛选出与响应变量条件相关的协变量变得非常重要.本文在协变量对响应变量的影响依赖于某一曝光变量情形下,当响应变量分别为两分类变量和多分类变量时,从信息熵的特点出发,基于信息量的差异性提出了超高维分类数据的条件特筛征选方法.在响应变量是两分类数据的情形下,提出了基于曝光变量的条件信息熵特征筛选方法(C-CIES).本文在CIES方法的基础上引入曝光变量,利用曝光变量与响应变量在不同类别的条件下,协变量的条件信息熵的差异,构建一个新的筛选指标.在无任何模型假设条件下,理论上证明了该筛选指标的真实筛选性质,排序一致性性质.在两种情形(1.协变量与响应变量独立但条件相关,2.协变量与响应变量相关且条件相关)下进行蒙特卡罗模拟,并与PC-SIS、IG-SIS、CIES方法进行比较,模拟结果表明在上述两种情形下,C-CIES都能较好的筛选出真实变量,并且在情形1下,只有C-CIES方法能筛选出与响应变量条件相关的协变量.在响应变量是多类别数据的情形下,提出了基于曝光变量的加权条件信息熵特征筛选方法(CW-CIES).本文采用W-CIES方法的思想,在给定曝光变量条件下,利用协变量的边缘条件信息熵和边缘无条件信息熵的差异,将曝光变量与响应变量的边际类别概率当作权重,构建一个新的筛选指标.在无任何模型假设条件下,理论上证明了该筛选指标的真实筛选性质,排序一致性性质.在两种情形(1.协变量与响应变量独立但条件相关,2.协变量与响应变量相关且条件相关)下进行蒙特卡罗模拟,并与PC-SIS、IG-SIS、W-CIES方法进行比较,模拟结果表明在上述两种情形下,CW-CIES都能较好的筛选出真实变量,并且在情形1下,只有CW-CIES方法能筛选出与响应变量条件相关的协变量.本文提出的筛选方法依赖于信息熵,信息熵由概率组成,所以该方法适用于任何模型,具有自由模型性质,从模拟结果可以看出更适用于协变量和响应变量独立但条件相关的情形.

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  •   1.1 研究背景及意义
  •   1.2 文献综述
  •     1.2.1 超高维数据特征筛选的研究现状
  •     1.2.2 信息熵的研究现状
  •   1.3 研究内容及创新
  •     1.3.1 研究内容
  •     1.3.2 创新
  • 第二章 含曝光变量的超高维两分类数据特征筛选
  •   2.1 筛选方法和理论研究
  •     2.1.1 信息熵简介
  •     2.1.2 两分类筛选指标及性质
  •   2.2 理论证明
  •   2.3 数值模拟
  •   2.4 小结
  • 第三章 含曝光变量的超高维多分类数据特征筛选
  •   3.1 多分类筛选指标及其性质
  •   3.2 理论证明
  •   3.3 数值模拟
  •   3.4 小结
  • 结论
  • 参考文献
  • 致谢
  • 附录A (攻读学位期间所发表的学术论文)
  • 文章来源

    类型: 硕士论文

    作者: 王娟

    导师: 梁小林,谢永钦

    关键词: 曝光变量,特征筛选,条件信息熵,超高维分类数据,条件相关

    来源: 长沙理工大学

    年度: 2019

    分类: 基础科学

    专业: 数学

    单位: 长沙理工大学

    分类号: O212.1

    DOI: 10.26985/d.cnki.gcsjc.2019.000518

    总页数: 53

    文件大小: 2386K

    下载量: 9

    相关论文文献

    • [1].有序响应变量的贝叶斯模型选择及其在COPD疾病防治中的应用[J]. 统计研究 2020(03)
    • [2].响应变量随机缺失下超高维模型特征筛选方法[J]. 统计与决策 2017(13)
    • [3].贝叶斯响应变量适应性随机化模拟预测评价方法初探[J]. 中国卫生统计 2020(03)
    • [4].基于多响应变量分析的组织间知识链风险评估[J]. 科技进步与对策 2009(09)
    • [5].响应变量缺失时偏线性测量误差模型的变量选择[J]. 厦门大学学报(自然科学版) 2014(01)
    • [6].非正态响应变量的最优线性预测[J]. 经济数学 2009(03)
    • [7].多个响应变量的纵向数据联合建模方法及应用[J]. 世界科学技术-中医药现代化 2017(09)
    • [8].响应变量缺失下变系数部分线性测量误差模型的约束估计[J]. 数学的实践与认识 2018(08)
    • [9].响应变量缺失下非线性回归模型的加权半参数估计[J]. 数学的实践与认识 2016(24)
    • [10].一种二元响应变量模型的分布式贝叶斯估计方法[J]. 华东理工大学学报(自然科学版) 2017(04)
    • [11].响应变量随机缺失下广义线性模型的经验似然[J]. 陕西师范大学学报(自然科学版) 2015(03)
    • [12].高维回归中的几种变量选择方法[J]. 科学技术创新 2019(30)
    • [13].缺失数据下线性模型中缺失值处理方法的比较[J]. 广西科学 2009(04)
    • [14].二分类响应变量下判别分析与Logistic回归比较[J]. 长春工业大学学报 2019(05)
    • [15].响应变量缺失下线性模型的模型平均[J]. 山东师范大学学报(自然科学版) 2020(02)
    • [16].基于Alpha稳定分布的二元响应变量回归模型[J]. 华东理工大学学报(自然科学版) 2017(01)
    • [17].基于贝叶斯学习的惩罚因子的选择[J]. 统计与决策 2017(14)
    • [18].基于逻辑回归的手机APP付费问题研究[J]. 大众投资指南 2018(09)
    • [19].响应变量随机缺失下部分线性单指标模型的非参数判别检验[J]. 南京信息工程大学学报(自然科学版) 2013(05)
    • [20].响应变量缺失情形下非线性EV模型的估计[J]. 福州大学学报(自然科学版) 2010(04)
    • [21].核实数据下响应变量缺失的线性模型均值估计[J]. 山东大学学报(理学版) 2010(08)
    • [22].自适应临床试验设计的近期进展及展望[J]. 数理统计与管理 2020(04)
    • [23].基于广义线性模型的基因表达水平预测[J]. 大连理工大学学报 2020(01)
    • [24].中国老年多维贫困的测度和致贫因素——基于社区和家庭的分层研究[J]. 经济问题 2016(10)
    • [25].响应变量缺失下变系数部分线性模型的参数估计[J]. 重庆理工大学学报(自然科学) 2017(10)
    • [26].基于产品质量改进的动态多响应稳健性集成建模策略[J]. 统计与决策 2020(21)
    • [27].响应变量缺失下半变系数部分线性EV模型估计的渐进性[J]. 甘肃科学学报 2015(05)
    • [28].函数型非参数回归模型及其在金融中的应用[J]. 滁州学院学报 2016(05)
    • [29].响应变量缺失下部分线性模型均值的稳健估计[J]. 北京工业大学学报 2017(02)
    • [30].响应变量缺失时纵向数据下变系数部分线性测量误差模型的经验似然推断[J]. 山东大学学报(理学版) 2015(11)

    标签:;  ;  ;  ;  ;  

    含曝光变量的超高维分类数据特征筛选
    下载Doc文档

    猜你喜欢