论文摘要
因子分析(FA)是一种概率模型的降维方法。它针对的观测值是向量型数据,拟合时必须先将矩阵型数据拉直为向量,这样既破坏了矩阵结构行与列之间的潜在相关关系,也使拉直数据维数很高。近年,针对矩阵型数据的降维方法已被提出,如双线性概率主成分分析(BPPCA)。它直接对矩阵型数据进行双边降维,而不是拉直向量,降低了计算复杂度,而且无论数据是否包含潜在隐性变量,均可有效地更新参数的解析解。双线性因子分析模型(BFA)同样解决复杂度、潜在变量等问题。然而,以上模型是建立在矩阵变元正态分布模型之上,对不规则的观测非常敏感,当数据集有比正常值更厚的尾巴或多的离群点、异常值时,利用矩阵正态分布得到的估计量将受到影响。为了解这一问题,我们将模型从矩阵变元正态分布推广到t分布,提出基于矩阵变元t分布的双线性因子分析模型(tBFA)。用矩阵变元t分布拟合因子分析,更重尾并且包含一个更自由的参数,在实践中对不规则的观测值具有稳定性。为了得到稳健双线性因子分析模型的极大似然估计,本文提出ECM、ECME、AECM1和AECM2四种算法来拟合该模型。这四种算法均具有简便和稳定的特性。ECM、ECME与AECM1、AECM2的区别在于ECM、ECME只引入变量?,不引入潜在变量Z,AECM1、AECM2是既引入变量?,也引入潜在变量Z;ECM、ECME两种算法的区别在于ECM分别关于包括自由度?在内各参数极大化期望的完全数据似然函数,ECME关于自由度?极大化的是观测数据的似然函数;AECM1、AECM2的不同也是AECM2关于自由度?极大化的是观测数据的似然函数。实验验证了四种算法的性能,由于ECM、ECME不包含缺失数据,ECME收敛最快,AECM2则享有最低的计算复杂度。模拟实证研究表明,当收敛到相同的似然值时,ECME算法所需的迭代次数和算法时间最少,而AECM2迭代次数最多,与理论相符。我们验证了四种算法对参数初始值都不敏感,在不同初始值下可收敛到几乎相同的似然值,并且得到自由度、均值矩阵、因子载荷矩阵、方差-协方差矩阵的稳健估计。实验在模拟数据上对比tBFA模型及BFA模型,无异常值时,二者估计精度都随样本量增加到较高水平;有异常值的数据tBFA模型的参数估计精度远高于BFA模型。后运用Latin等(2003)讨论的一组对谷物25种属性进行评估的调查的数据,再次验证tBFA模型较BFA更具稳健性,并对人们关注的谷物属性因子作出合理解释。
论文目录
文章来源
类型: 硕士论文
作者: 白婧毓
导师: 赵建华
关键词: 稳健,双线性,降维,因子分析
来源: 云南财经大学
年度: 2019
分类: 基础科学
专业: 数学
单位: 云南财经大学
分类号: O212.4
DOI: 10.27455/d.cnki.gycmc.2019.000604
总页数: 63
文件大小: 3032K
下载量: 16