论文摘要
高维统计处理的是统计模型的参数个数n远大于样本量m的情形。在高维情形下,如何估计未知的真实参数,被普遍认为是当下统计学的一项重要挑战,因为如果没有其它的约束条件,人们往往不可能得到统计一致的估计量。幸运的是,大量实际应用的经验研究表明,高维数据通常存在某种低维结构,从而给参数估计带来方便。其中最常用的低维结构是稀疏结构,被广泛应用于稀疏线性回归、低秩矩阵回归、稀疏协方差和逆协方差矩阵估计等。与此同时,参数估计通常是通过求解相应的优化问题完成的。这样一来,数据的高维特性对计算的效率和效力都提出了要求。已有的研究主要集中在使用凸优化方法进行参数估计,并且获得了一系列理论和计算方面的成果。近年来,研究发现非凸优化方法具有更强的增进稀疏性的能力,因此逐渐被用于稀疏估计问题。由于问题本身的非凸性,一般而言,局部最优解并不一定是全局最优解。而数值方法通常只能得到某些特定的局部解,关于全局解和任意局部解的研究结果依然十分有限。这使得理论与实际应用之间存在着显著差距。在这一背景下,本文主要研究了几类非凸优化方法在高维数据的稀疏估计中的应用,探讨了全局解和局部解的统计理论性质并对计算性能进行了分析。最后在应用层面,我们结合理论结果,利用超高维全基因组关联分析数据潜在的稀疏性,探索了生命科学领域的遗传度估计问题,并提出了一个新的估计方法。本文的主要内容分为以下三部分。在第2章中,我们考虑了稀疏优化领域一个重要的非凸正则项——q(0<q<1)范数,并以高维线性回归为例,研究了参数估计问题。我们分析了q(0<q≤1)优化方法,包括q最小化和正则化方法的统计性质。为此,我们引入了较弱的q-限制特征值条件并且以几个常用正规条件的形式给出了其成立的充分条件,包括稀疏特征值条件,限制等距性质以及互不相关性质。随后,利用q-限制特征值条件,在设计矩阵为确定的和随机的情形下,我们分别以很高的概率得到了q最小化和正则化方法全局解的2误差界和oracle性质。这些结果表明q优化方法只需较弱的条件,就可以获得统计一致的参数估计量,并且为分析q优化方法的统计性质建立了统一的框架。最后,我们进行了数值实验对理论结果进行了验证,展示了q优化方法相比于现有几种常用的稀疏优化方法的优势。在第3章中,我们分析了一类一般的非凸正则化M-估计问题任意局部解的统计和算法性质,其中非凸正则项以常见的SCAD和MCP为特例。统计方面,在损失函数满足限制强凸性和正则项满足某些正规条件的假设下,我们建立了任意非凸正则化M-估计量局部解的2误差界,表明这类非凸优化问题的任意局部解都位于真实参数的小邻域内。这一结果不依赖于具体的算法,且提供了对所有局部解的统计一致性保证。算法方面,为了求解该非凸优化问题,我们分解了优化目标函数,然后应用邻近梯度法,证明了算法的线性收敛率,这达到了一阶算法所能取得的最快收敛速度。特别而言,对SCAD和MCP,我们对正则项的一般化假设使得一种简单的分解成为可能,借助这一分解可以构造更为简便易行的算法迭代并取得更好的参数估计效果。最后,我们在扰动线性回归模型上进行了一系列数值实验,显示了与理论结果高度的一致性。遗传度是探索人类复杂特征遗传结构的一个重要途径,衡量了人群中复杂特征的表型差异在多大程度上是由遗传因素的差异导致的。近年来,超高维全基因组关联分析的数据被用来估计遗传度。现有的遗传度估计方法基于线性混合模型,假设遗传效应是随机的,这与经典数量遗传学的确定效应假设相反。并且,现有方法估计的遗传度通常带有较大的标准误,使得估计结果的可靠性值得怀疑。在第4章中,我们首先研究了确定效应和随机效应假设对遗传度估计的影响,在理论层面上证明了一定条件下,这两个假设是等价的。然后,我们提出了一个两步方法:先通过交叉验证的elastic net进行稀疏正则化,再在简化的模型上进行方差估计以构造可靠的估计量。最后,模拟和真实数据上的结果显示了该方法能很大程度地降低遗传度估计量的标准误。这一方法表明如果考虑了数据潜在的稀疏性,即使只有相对较少的样本,依然能够得到标准误较小的估计量,这对基因组时代大规模的遗传度分析十分重要。
论文目录
文章来源
类型: 博士论文
作者: 李欣
导师: 李冲,蒋田仔
关键词: 高维,稀疏性,参数估计,非凸优化方法,误差界,一致性,收敛率,遗传度
来源: 浙江大学
年度: 2019
分类: 基础科学
专业: 数学
单位: 浙江大学
分类号: O212
DOI: 10.27461/d.cnki.gzjdx.2019.002050
总页数: 134
文件大小: 7455K
下载量: 77
相关论文文献
- [1].基于分层索引的高维数据对象检索[J]. 指挥信息系统与技术 2019(06)
- [2].高维数据流异常节点动态跟踪仿真研究[J]. 计算机仿真 2020(10)
- [3].高维数据的交互式沉浸可视化——以城市生活质量数据为例[J]. 装饰 2019(06)
- [4].基于大数据的高维数据挖掘探究[J]. 通讯世界 2018(03)
- [5].智能电网中高维数据聚类方法研究[J]. 智能计算机与应用 2016(01)
- [6].浅谈高维数据变量选择现状与方法[J]. 数码世界 2016(07)
- [7].基于高维数据流的异常检测算法[J]. 计算机工程 2018(01)
- [8].大数据环境下的高维数据挖掘在入侵检测中的有效应用[J]. 电脑编程技巧与维护 2016(22)
- [9].一种高维数据流的稳健监控方法[J]. 天津职业技术师范大学学报 2016(02)
- [10].基于大数据的高维数据挖掘研究[J]. 信息与电脑(理论版) 2015(15)
- [11].浅谈高维数据挖掘的现状与方法[J]. 福建电脑 2014(07)
- [12].高维数据空间的一种网格划分方法[J]. 计算机工程与应用 2011(05)
- [13].面向精细农业的高维数据本征维数估计方法研究进展[J]. 中国科学:信息科学 2010(S1)
- [14].数学建模中的高维数据挖掘技术优化研究[J]. 计算机测量与控制 2017(09)
- [15].采用高维数据聚类的目标跟踪(英文)[J]. 红外与激光工程 2016(04)
- [16].非规则流中高维数据流典型相关性分析并行计算方法[J]. 软件学报 2012(05)
- [17].基于控制过度遗漏发现概率的高维数据流异常诊断[J]. 数理统计与管理 2020(03)
- [18].相关高维数据流在线监控方法研究[J]. 天津职业技术师范大学学报 2016(03)
- [19].高维数据挖掘技术在教学质量监控与评价的应用研究[J]. 全国商情(理论研究) 2010(11)
- [20].一种高维数据聚类遗传算法[J]. 计算机工程与科学 2010(08)
- [21].基于联合树的隐私高维数据发布方法[J]. 计算机研究与发展 2018(12)
- [22].基于正则化回归的变量选择方法在高维数据中的应用[J]. 实用预防医学 2018(06)
- [23].一种支持高维数据查询的并行索引机制[J]. 华中科技大学学报(自然科学版) 2011(S1)
- [24].矩阵奇异值分解及其在高维数据处理中的应用[J]. 数学的实践与认识 2011(15)
- [25].高维数据变量选择方法综述[J]. 数理统计与管理 2017(04)
- [26].高维数据空间索引方法的研究[J]. 电脑知识与技术 2009(16)
- [27].基于聚类融合算法的高维数据聚类的研究[J]. 电子测量技术 2008(04)
- [28].高维数据固有维数的自适应极大似然估计[J]. 计算机应用 2008(08)
- [29].基于超网络和投影降维的高维数据流在线分类算法[J]. 计算机应用与软件 2020(10)
- [30].面向高维数据的安全半监督分类算法[J]. 计算机系统应用 2019(05)
标签:高维论文; 稀疏性论文; 参数估计论文; 非凸优化方法论文; 误差界论文; 一致性论文; 收敛率论文; 遗传度论文;