稳健双线性因子分析

论文摘要

因子分析（FA）是一种概率模型的降维方法。它针对的观测值是向量型数据,拟合时必须先将矩阵型数据拉直为向量,这样既破坏了矩阵结构行与列之间的潜在相关关系,也使拉直数据维数很高。近年,针对矩阵型数据的降维方法已被提出,如双线性概率主成分分析（BPPCA）。它直接对矩阵型数据进行双边降维,而不是拉直向量,降低了计算复杂度,而且无论数据是否包含潜在隐性变量,均可有效地更新参数的解析解。双线性因子分析模型（BFA）同样解决复杂度、潜在变量等问题。然而,以上模型是建立在矩阵变元正态分布模型之上,对不规则的观测非常敏感,当数据集有比正常值更厚的尾巴或多的离群点、异常值时,利用矩阵正态分布得到的估计量将受到影响。为了解这一问题,我们将模型从矩阵变元正态分布推广到t分布,提出基于矩阵变元t分布的双线性因子分析模型（tBFA）。用矩阵变元t分布拟合因子分析,更重尾并且包含一个更自由的参数,在实践中对不规则的观测值具有稳定性。为了得到稳健双线性因子分析模型的极大似然估计,本文提出ECM、ECME、AECM1和AECM2四种算法来拟合该模型。这四种算法均具有简便和稳定的特性。ECM、ECME与AECM1、AECM2的区别在于ECM、ECME只引入变量?,不引入潜在变量Z,AECM1、AECM2是既引入变量?,也引入潜在变量Z;ECM、ECME两种算法的区别在于ECM分别关于包括自由度?在内各参数极大化期望的完全数据似然函数,ECME关于自由度?极大化的是观测数据的似然函数;AECM1、AECM2的不同也是AECM2关于自由度?极大化的是观测数据的似然函数。实验验证了四种算法的性能,由于ECM、ECME不包含缺失数据,ECME收敛最快,AECM2则享有最低的计算复杂度。模拟实证研究表明,当收敛到相同的似然值时,ECME算法所需的迭代次数和算法时间最少,而AECM2迭代次数最多,与理论相符。我们验证了四种算法对参数初始值都不敏感,在不同初始值下可收敛到几乎相同的似然值,并且得到自由度、均值矩阵、因子载荷矩阵、方差-协方差矩阵的稳健估计。实验在模拟数据上对比tBFA模型及BFA模型,无异常值时,二者估计精度都随样本量增加到较高水平;有异常值的数据tBFA模型的参数估计精度远高于BFA模型。后运用Latin等（2003）讨论的一组对谷物25种属性进行评估的调查的数据,再次验证tBFA模型较BFA更具稳健性,并对人们关注的谷物属性因子作出合理解释。

论文目录

摘要

abstract

第一章引言

第一节选题背景

第二节问题提出

第三节研究目的和意义

第四节文献综述

一、降维模型

二、实现模型的算法

第五节研究方法

第六节论文结构安排

第二章前期相关工作

第一节分离的协方差

第二节双线性因子分析

一、BFA模型

二、BFA的最大似然估计

第三节矩阵变元t分布

第四节本章小结

第三章稳健双线性因子分析模型（TBFA）

第一节 tBFA模型的一般形式

第二节 tBFA模型的概率图模型

第三节概率分布

第四节 tBFA（不完整数据）对数似然函数

第五节本章小结

第四章求极大似然估计的算法

第一节只引入变量?,不引入潜在变量Z的算法

一、ECM算法

二、ECME算法

第二节既引入变量?,也引入潜在变量Z的算法

一、AECM1 算法

二、AECM2 算法

第三节本章小结

第五章实验

第一节模拟数据验证模型效率

一、tBFA模型的估计精度

二、初值敏感性

三、四种算法的收敛性

第二节在真实数据上的实验

一、数据来源与介绍

二、验证 t BFA 模型的稳定性

三、针对cereals谷物数据的分析描述

第三节本章小结

第六章总结

第一节研究结论

第二节不足与展望

参考文献

致谢

在读期间完成的研究成果

文章来源

类型: 硕士论文

作者: 白婧毓

导师: 赵建华

关键词: 稳健,双线性,降维,因子分析

来源: 云南财经大学

年度: 2019

分类: 基础科学

专业: 数学

单位: 云南财经大学

分类号: O212.4

DOI: 10.27455/d.cnki.gycmc.2019.000604

总页数: 63

文件大小: 3032K

下载量: 16

稳健双线性因子分析

论文摘要

论文目录

文章来源

相关论文文献

猜你喜欢