超高维离散变量筛选方法

超高维离散变量筛选方法

论文摘要

作为一种降维技术,变量筛选在超高维数据分析中发挥至关重要的作用,并且在过去十年间许多文献对其进行了讨论.无论响应变量是连续的还是离散的,大部分的现有变量筛选方法均明示或暗含着一个假设,协变量是连续的.Huang,Li&Wang(2014)[37]首先提出了一种基于Pearson卡方统计量的变量筛选方法(PC-SIS).该方法解决了在分类问题中如何筛选超高维离散变量,虽然这是一个常见的实际问题,却很少在以往文献中进行讨论.当不同协变量的分类个数不同时,变量筛选方法采用原始筛选统计量或其p值调整值的筛选表现均欠佳.本论文的主要工作具体如下:在一个分类问题中,本文发展了一种全新的且无模型假设的变量筛选方法,可用于筛选超高维的离散协变量.其独特性在于不但允许协变量的分类个数是不相等的,而且允许协变量的分类个数是发散的.响应变量的分类个数也被允许是发散的.该方法所采用的筛选信号结合了决策树算法ID3中所定义的信息增益与一个定义为协变量分类个数的对数的倒数的校正因子.而这个变量筛选方法可表示为IG-SIS.在这个方法中,每一个筛选统计量可度量响应变量和某一特定的协变量之间的相关性并用于评判这个协变量的预测能力.本文从理论和实际两个角度改进了 Huang,Li&Wang(2014)[37]所提出的变量筛选方法和调整参数的选择方法.该改进后的筛选统计量是由原本的Pearson卡方筛选统计量乘以在变量筛选方法IG-SIS中所采用的校正因子而定义的.这个变量筛选方法可称为调整后的Pearson卡方变量筛选方法(APC-SIS).当协变量分类个数不相等时,APC-SIS的筛选表现远比PC-SIS好得多.在超高维数据分析中,缺失数据是一个很常见的现象.在缺失数据中发展变量筛选的方法是非常具有挑战的,这是因为无法将传统的缺失数据处理方法直接运用于超高维的情况.本文提供了一种无模型假设的方法,可用于筛选存在可忽略缺失值的离散协变量(IMC-SIS).这种变量筛选方法可适用于有大量的存在缺失值和不存在缺失数据的协变量的数据,其中某一协变量取值的缺失仅仅与响应变量和一小部分无缺失值的协变量有关.这个缺失机制的假设就是随机缺失.本文提出了一种“两步”的变量筛选方法.对于每一个存在缺失值的协变量,第1步在无缺失概率函数的假定下筛选与缺失指示器相关的协变量;第2步基于离散数据的特殊结构,通过第1步所确定的协变量的调整,从而估计该缺失协变量与响应变量的联合概率.在给定联合概率的估计之后,本文进一步定义了变量筛选统计量,由此可以选出具有良好预测能力的协变量.就理论而言,本文证明了所提出的变量筛选方法都具有变量筛选(选择)一致性.从实际的角度,本文在多个模拟数据中验证了所提出的变量筛选方法的实际筛选效果.结果表明,其一,IG-SIS和APC-SIS在有限样本中表现相似,且比其他现有的离散数据的变量筛选方法具有优势;其二,不管缺失概率较大且协变量的相关性较高,IMC-SIS可以成功地挑选出活具有良好预测能力的协变量.另外,本文将所提出的变量筛选方法应用于信用卡评级和网络招聘的两个实际数据,其筛选结果是具有解释性且有助于下一步分析。

论文目录

  • 中文摘要
  • Abstract
  • 主要符号对照表
  • 第一章 绪论
  •   §1.1 研究背景介绍
  •   §1.2 问题基本定义
  •   §1.3 文献综述
  •   §1.4 本文的主要内容
  • 第二章 基于信息熵的变量筛选方法
  •   §2.1 引言
  •   §2.2 变量筛选方法及其理论性质
  •     §2.2.1 变量筛选方法的介绍
  •     §2.2.2 变量筛选方法的理论性质
  •   §2.3 定理证明
  • 第三章 调整后的基于Pearson卡方检验统计量的变量筛选方法
  •   §3.1 引言
  •   §3.2 变量筛选方法及其理论性质
  •     §3.2.1 变量筛选方法的介绍
  •     §3.2.2 变量筛选方法的理论性质
  •   §3.3 定理证明
  • 第四章 模拟实验和实例分析一
  •   §4.1 引言
  •   §4.2 调整参数的选择方法
  •   §4.3 数据模拟
  •     §4.3.1 评价指标
  •     §4.3.2 变量筛选方法
  •     §4.3.3 三个随机模拟的例子
  •     §4.3.4 主要结论
  •   §4.4 实际数据分析一:信用评级
  • 第五章 离散协变量中存在随机缺失值的变量筛选方法
  •   §5.1 引言
  •   §5.2 问题基本定义的扩展
  •   §5.3 变量筛选方法及其性质
  •     §5.3.1 缺失协变量与响应变量联合概率的“两步”估计法
  •     §5.3.2 IG-SIS变量筛选方法的拓展及其理论性质
  •     §5.3.3 APC-SIS变量筛选方法的拓展及其理论性质
  •   §5.4 定理证明
  • 第六章 模拟实验和实例分析二
  •   §6.1 引言
  •   §6.2 调整参数的选择方法
  •   §6.3 数据模拟
  •     §6.3.1 变量筛选方法
  •     §6.3.2 模拟数据的构造
  •     §6.3.3 模拟数据的结论
  •   §6.4 实际数据分析二:招聘信息
  • 第七章 结论与展望
  •   §7.1 本文主要内容与结论
  •   §7.2 未来研究展望
  • 参考文献
  • 致谢
  • 在学期间的研究成果及发表的论文
  • 文章来源

    类型: 博士论文

    作者: 倪葎

    导师: 邵军

    关键词: 超高维变量筛选,离散数据分类个数,卡方统计量,信息熵和信息增益,协变量随机缺失

    来源: 华东师范大学

    年度: 2019

    分类: 基础科学

    专业: 数学

    单位: 华东师范大学

    分类号: O212.1

    总页数: 136

    文件大小: 5275K

    下载量: 201

    相关论文文献

    • [1].基于协变量平衡加权的平均处理效应的稳健有效估计[J]. 统计研究 2020(04)
    • [2].具有协变量的高斯图模型的结构学习[J]. 工程数学学报 2018(05)
    • [3].协变量缺失下基于诱导光滑方法的加权分位数回归[J]. 吉林大学学报(理学版) 2016(06)
    • [4].间断性状关联分析中复杂群体分层的快速矫正[J]. 黑龙江八一农垦大学学报 2020(03)
    • [5].非劣效性临床试验中两组率差值的协变量调整方法[J]. 中国卫生统计 2012(02)
    • [6].协变量存在缺失的因果效应稳健估计[J]. 统计与决策 2020(14)
    • [7].多组间协变量均衡性评价方法的研究[J]. 中国卫生统计 2018(02)
    • [8].具有连续辅助协变量的均值剩余寿命模型的统计推断[J]. 中国科学:数学 2020(11)
    • [9].欧洲医药产品管理局关于临床研究中基线协变量的考虑要点[J]. 中国临床药理学杂志 2009(05)
    • [10].基于运行协变量分析的机床主轴备件预测[J]. 机床与液压 2019(17)
    • [11].平衡组间协变量后射频消融术和经皮穿刺无水乙醇瘤内注射治疗原发性肝癌效果的比较[J]. 吉林大学学报(医学版) 2012(06)
    • [12].神经网络在倾向分数值估计中的研究[J]. 中国循证医学杂志 2020(09)
    • [13].临床试验中率差及其置信区间的估计方法[J]. 中国新药与临床杂志 2016(04)
    • [14].数据驱动的可靠性评估与寿命预测研究进展:基于协变量的方法[J]. 自动化学报 2018(02)
    • [15].协变量调整回归模型的经验似然推断[J]. 数学物理学报 2011(02)
    • [16].主题互文视域下企业年报语篇的协变量结构与企业身份建构[J]. 解放军外国语学院学报 2020(04)
    • [17].时间相依协变量Cox模型的变量选择[J]. 黑龙江科学 2019(06)
    • [18].时间序列中的协变量调整非参数回归模型(英文)[J]. 应用概率统计 2015(04)
    • [19].含时间相依协变量的Cox模型与SAS软件实现[J]. 中国慢性病预防与控制 2008(04)
    • [20].内生性协变量下广义变系数模型的工具变量估计[J]. 数学的实践与认识 2017(13)
    • [21].协变量随机缺失下线性模型的经验似然推断及其应用[J]. 数理统计与管理 2011(04)
    • [22].可迁移测度准则下的协变量偏移修正多源集成方法[J]. 电子与信息学报 2015(12)
    • [23].协变量含缺失数据的因果推断研究[J]. 统计与决策 2014(08)
    • [24].协变量缺失下线性模型中参数的经验似然推断[J]. 山东大学学报(理学版) 2011(01)
    • [25].含内生协变量的泊松回归模型的经验似然推断[J]. 百色学院学报 2014(03)
    • [26].协变量维数趋于无穷的复合次序模型的GEE估计的渐近性质[J]. 纯粹数学与应用数学 2017(06)
    • [27].协变量缺失下变系数部分非线性模型的统计推断[J]. 山东师范大学学报(自然科学版) 2019(02)
    • [28].协变量缺失下变系数模型基于经验似然的加权分位数回归[J]. 吉林大学学报(理学版) 2017(02)
    • [29].协方差分析的原理及其实证研究[J]. 齐齐哈尔大学学报(自然科学版) 2014(02)
    • [30].带辅助协变量的分组相关失效时间数据的边际模型(英文)[J]. 数学杂志 2014(06)

    标签:;  ;  ;  ;  ;  

    超高维离散变量筛选方法
    下载Doc文档

    猜你喜欢