孙丰霖:基于潜变量模型的多元有序数据轮廓分析法论文

孙丰霖:基于潜变量模型的多元有序数据轮廓分析法论文

【统计理论与方法】

摘要:提出了一种适用于多元有序数据的轮廓分析方法。鉴于有序数据无法满足轮廓分析对数据正态性的要求,采用潜变量模型对有序变量进行赋值,利用Bootstrap方法重构样本,使重构后的新数据满足正态性且总体均值与原样本一致,因而可以将轮廓分析法应用于有序数据均值向量的比较问题。讨论了单样本情形的同水平假设、两样本和多样本情形的平行、同水平和平坦性假设,并给出相应的检验统计量和拒绝域。最后,通过随机模拟来检验该方法的合理性,并得到结论:样本质量较高时,该方法在控制第一类错误和提高检验的功效上效果很好;对于一般样本而言,该方法的实际第一类错误较名义值有所增大,可通过提高原始样本量、降低名义第一类错误和进行多次试验来解决。

关键词:多元有序数据;潜变量模型;轮廓分析;Bootstrap方法

一、引言

定量数据和定性数据是数据的两种基本类型。前者包括取值连续的计量数据和取值为整数的计数数据;后者包括无序的名义数据(Nominal Data)和有顺序概念的有序数据(Ordinal Data)[1],名义数据和有序数据产生于名义变量和有序变量。“有序”是指按照一定的顺序对变量进行分类,不同类别之间的距离并不需要相等的一种测量尺度。在处理有序数据时,以一种定量的方式进行赋值在数据处理中十分有益[2]。虽然可以对有序数据进行人为的赋值1,2,…,但不能假定这些类别之间的差距是一致的[3]。如果简单地将其看作等距,得到的结果往往不准确甚至完全错误。因此,用于计量数据的模型和方法一般不能直接推广到有序数据上。国内外已经有一些学者研究有序变量在模型中的赋值问题[4-6]。对于有序数据,一般不能直接计算均值、方差等统计量,但如果能够将其客观合理地赋值,令该值能够代表该类别的“数量”关系,那么应用于连续数据的方法就可以应用到有序数据上来。所以,一种合理的赋值方法对有序数据分析而言尤为重要。

多总体位置参数比较问题在实际数据分析中十分常见。对于正态数据而言,常用方法是方差分析,当数据不满足正态性和方差齐性时,方差分析就不再稳健[7]。对于连续型非正态数据,有一些学者研究适用于这类数据的方差分析方法[8]。除此以外,还存在许多非参数方法,例如Brown-Mood中位数检验和Wilcoxon-Mann-Whitney秩和检验,不过后者仅仅适用于两样本总体分布函数形状相似,只在位置上有所不同的情况(如平移),样本量、偏度、方差会对这种检验的稳健性有较大的影响[9]。多总体的Kruskal-Wallis秩和检验、Jonkheere-Terpstra检验和Friedman秩和检验也有取值连续的假定,相比较于方差分析,即使正态性成立,Friedman秩和检验也能够保证安全和合理的渐进相对效率,是一种十分稳健的非参数方法。对于非连续的数据,二元响应Cochran检验仅适用于取值为1或0的定性数据,研究多个一元总体的位置参数是否一致的问题[10]。

除了Cochran检验,上述方法都适用于连续数据。由于有序数据的不连续性和打结现象(数据中存在相同的数字),前面的方法都不够稳健甚至无法使用,这就对新的检验方法提出了要求。如果假定有序变量是潜变量的粗略度量,那么某些参数方法就可以适用于这类变量,Lu等提出了针对有序数据的多重比较方法,通过正态潜变量模型解决有序数据的一元多总体期望是否一致的问题,该方法假定观测到的有序数据是对某一潜在的连续正态变量的一种粗略度量,通过对潜变量总体均值的两两比较来得出结果[11]。在此基础上,一元有序数据的多组别问题可通过方差分析的方法解决。事实上,这些方法都是针对一元数据而言的。对于多元数据,由于缺少秩的概念,多数非参数方法无法使用。但在社会调查等领域中,经常会遇到有序数据的多元多组别比较问题。这时,各元之间往往不是相互独立的,而会存在一定相关性,再加上数据不连续性,使得这个问题更加难以解决。轮廓分析可以解决多总体均值向量的比较问题。近十几年来,有不少轮廓分析的研究成果出现[12-14]。不过,这些成果都是针对连续型数据而言。目前,国内外还没有将轮廓分析应用到有序数据的研究成果。

(4)公犬的去势。治疗前列腺脓肿的最为常用的方法。具体操作过程为阴囊部剪毛、清洗、消毒。左手沿着阴囊颈部握住犬的睾丸,将其轻轻压向阴囊底部,使两个睾丸正好位于阴囊缝际的两侧,固定住睾丸;切口分别位于阴囊缝际的两侧0.5 cm处,后手持刀平行于阴囊缝切开阴囊的皮肤和总鞘膜,且勿伤及睾丸实质,切口长3~4 cm,将睾丸轻轻的挤出阴囊。在睾丸上方的4 cm左右处,贯穿结扎精索,结扎要确实,以防术后出血。在结扎线下方1~2 cm处切断精索,除去睾丸,精索断端用碘酊消毒,伤口不用缝合,消毒即可。

本文介绍了采用潜变量模型对有序数据进行赋值,利用轮廓分析解决多元有序数据的多个总体均值向量的比较问题。当有序变量看作潜变量的粗略度量时,可根据样本频率计算各个区间的临界值,将各个区间的积分平均值作为有序变量各类别的代表值。此时,均值、方差等统计量就可以进行计算。轮廓分析要求数据满足多元正态性。为了使非连续非正态的有序数据变为连续正态的数据,本文采用Bootstrap方法重构数据。这个过程将原始数据中有关总体均值的信息保留到重构数据中,二者有着相同的总体均值,对重构数据总体均值的轮廓分析也就是对原始数据总体均值的轮廓分析。轮廓分析包括单总体、两总体和多总体三种情形,本文介绍了各情形下的假设检验方法,给出相应的检验统计量和拒绝域。

乐视网所在的互联网视频行业在2010年在中国仍是新兴行业,创立伊始的几年来公司结合行业特征和公司自身的具体特点,着力打造“平台+内容+终端+应用”的“乐视生态系统”,乐视网基于其可持续业务生态模式不断调整上下游及周边领域战略,不断完善“乐视生态”模式,大力提高品牌宣传投入吸引用户以提高用户规模并同步推动公司各主营业务持续发展。

二、方法

(一)潜变量模型

对于有序变量z,假定存在一个潜在的连续变量x,代表z在各类别下潜在的真实值。通常假设x的取值范围是从-∞到+∞,潜变量x可以用于有连续性要求的统计方法和模型。若z有m个类别,记为1,2,…,m,则z和x的对应关系是:

(2)夏季强辐射和高温使得大气的氧化性提高。夏季O3能够显著地影响大气氧化性,强的大气氧化性促进二次颗粒物形成。在冬季,O3对于大气氧化性的贡献不显著,NO2对于大气氧化性的增强有更多的贡献。

ξiai1ai2…aiti

pi=Pr[z=i]=Pr[τi-1≤x<τi]

=Φ(τi)-Φ(τi-1)

1.3.1 对照组采用的呼吸道管理措施:①呼吸机:反复使用的呼吸机管路及呼吸机湿化罐,每周更换。②使用开放式吸痰法,2人协同操作,常规先用生理盐水进行吸痰前的湿化,然后1人专管吸引,另1人接复苏囊加压给氧,吸痰频次每2~3小时1次[3]。③体位:患儿床头抬高15°。④口腔护理:对患儿进行口腔护理每12小时1次。

在实际中,未知量pi一般用所对应的类别的样本频率来代替,于是

各个类别的临界值确定后,可以通过计算积分平均值的方法得到各类别的代表值,即:

这样就解决了有序变量z的赋值问题,接下来就可以将ai作为各类别的真实代表值来计算均值、方差等统计量。陈民恳所介绍的秩方法也可以视为一种潜变量方法,该方法假设潜变量服从固定区间上的均匀分布[16]。

(二)重构数据和轮廓分析

对于多元有序数据,对每个变量按照潜变量模型中的方法进行赋值,赋值后的多元变量可以视为来自以下定义的离散分布,记ξ=(ξ1,ξ2,…,ξp)′是p维随机变量,其中ξi的概率分布为:

其中-=τ0<τ1<…<τm-1<τm=+,τi(i=0,1,2,…,m)称为临界值[15]。因为在有序数据中所获得的都是z的信息,而对x的分布一无所知。原则上,可以选择任何连续型分布作为x的分布。但在实际应用中,正态分布应该是潜变量最常见的分布,因此在处理问题时假设x服从标准正态分布对处理问题是十分方便的[16]。记标准正态分布的密度函数为φ(x),分布函数为Φ(x)。有序变量z取值为i的概率为:

pipi1pi2…piti

其中记ξ的均值向量为υ=(υ1,υ2,...,υp)′,协方差阵为Σ=(σij)p×p,σij=cov(ξi,ξj)。若上述ξ的各个分量同度量,在平面直角坐标系上将点(1,υ1),(2,υ2),…,(p,υp)用直线连接起来,这条直线就叫做轮廓曲线。轮廓分析就是对一条或者多条轮廓曲线的多元分析方法[17]。实际中,一般使用样本均值向量代替总体期望得到样本轮廓曲线,即:

其中,x1,x2,…,xs是来自ξ的s个样本,记Xs×p=(x1,x2,…,xs)′为样本阵。假设存在k个p维分布总体G1,G2,…,Gk,第i个总体的均值向量为μi=(μi1,μi2,…,μip)′,协方差阵为Σ,k个总体产生的样本阵分别记为

1.单总体情形

以总体G1为例,通过样本阵X1来检验μ1=(μ11,μ12,…,μ1p)′中的各个分量μ11,μ12,…,μ1p是否在同一水平上(见图1),即:

H0:μ11=μ12=…=μ1pH1:μ1i≠μ1j∃i,j

图1单总体同水平假设图

首先介绍Bootstrap重构数据方法:已知有序数据样本给定自助样本容量m和自助样本数量n1,从中有放回地随机抽取m个样本组成自助样本记Y11的均值为重复n1次,可以得到n1个自助样本Y1i(i=1,2,…,n1)和自助样本均值y1i(i=1,2,…,n1),根据多元中心极限定理,当m足够大时,y1i~Np(μ1,Σ/m)。所以,只要确定合适的m,就能够满足轮廓分析的正态性条件,又由于样本来自有序数据,各个变量必定是同度量的,于是可以对重构后的数据阵(y11,y12,…,y1n1)′进行轮廓分析,下面进行单样本同水平假设检验。

通过随机模拟验证本文模型方法的合理性。首先对重构数据进行多元正态性检验。然后,以单总体和两总体情形下的平行假设为例,检验该方法在控制两类错误上的能力,得到结论:当原始样本均值、协方差阵等与总体一致时,该方法在控制假设检验第一类错误上有很好的效果且保证了较好的检验功效;而在一般情况下,该方法的实际第一类错误(简称“实际error I”)较于名义第一类错误(简称“名义error I”)发生一定程度的“膨胀”现象。不过,该问题可以通过增大原始样本量、降低名义error I和进行多次试验来解决。文章最后对方法的适用范围和未来的研究方向进行了讨论。

记(p-1)×p维矩阵

则原假设可进一步表示为H0:Cμ1=0,当然C的形式并不唯一,任何(p-1)×p维且行满秩使得C1=0(其中p维列向量1=(1,1,…,1)′,p-1维列向量0=(0,0,…,0)′)的矩阵均可。对于重构数据y11,y12,...,y1n1,记样本均值样本方差阵当H0:Cμ1=0成立时,有其中是p-1维自由度为n1-1的HotellingT2分布,给定显著性水平α,当时,拒绝H0。

2.两总体情形

以总体G1,G2为例,通过样本阵X1,X2来检验μ1,μ2的两条轮廓线是否平行(见图2),是否同水平(见图3)和是否平坦(见图4),即:

平行假设

同水平假设

平坦性假设

图2两总体平行假设图

图3两总体同水平假设图

图4两总体平坦性假设图

(1)平行假设

平行假设可以表示为H01:Cμ1=Cμ2。与单总体类似,通过Bootstrap方法从X1,X2得到两组相互独立的重构数据(y11,y12,…,y1n1)和(y21,y22,…,y2n2),其中自助样本的容量均为m,记当m充分大时且H01:Cμ1=Cμ2成立的情况下,则给定显著性水平α,拒绝域为

平均路径长度是网络中所有节点对之间的平均最短距离。在自组网络中,平均路径长度L为所有节点间最短路径长度的算术平均值,即

(2)同水平假设

通过p维列向量1=(1,1,…,1)′,同水平假设可以表述为当H02成立时,因此,给定显著性水平α,拒绝域为{|t|≥tα/2(n1+n2-2)}。当平行假设H01和同一水平假设H02均通过时,意味着两个总体均值μ1与μ2十分接近。

(3)平坦性假设

平坦性假设H03是基于H01平行假设成立的基础上进行的,若H01不成立,则只需对单个样本进行同水平检验。通过矩阵C,H03可以表述为当H01和H03成立时,则给定显著性水平α,拒绝域为

(三)多总体情形

多样本问题类似于两样本问题,对于总体G1,G2,…,Gk,通过样本阵X1,X2,…,Xk来检验k条轮廓线是否平行,是否同水平和是否平坦。

1.平行假设

从原始样本X1,X2,…,Xk得到重构样本(y11,y12,…,y1n1),(y21,y22,…,y2n2),…,(yk1,yk2,…,yknk),其中自助样本容量均为m,当m足够大时,yij~Np(μi,Σ/m)。类比两样本平行假设,平行假设可以表示为H01:Cμ1=Cμ2=…=Cμk。令则服从参数为(p-1,k-1,N-k)的Wilks Λ 分布,给定显著性水平α,拒绝域为Λ<Λα,p-1(k-1,N-k)。

2.同水平假设

将表面活性剂和助表面活性剂按质量比(Km)混匀,得到混合表面活性剂(Smix);将油相(Oil)和Smix混匀,得到混合油相;在混合油相中缓慢滴加水相,不断搅拌,直至形成透明的体系,记下体系发生透明或浑浊变化时的各组分用量,用origin8.5绘制伪三元相图。根据纳米乳区大小,筛选合适的纳米乳体系。

第七,河川径流变化。通过对全国19个重要水文站资料的分析可知,1980年以来,我国江河径流总体上呈减少的趋势,北方河流径流以减少为主,其中海河、黄河中下游、辽河等减少比较明显。其他河流,呈现弱减少或弱增加趋势。

(4)通过规范推演计算与高应变动力检测对比分析,认为本文推演得出的可运用于水运工程规范公式计算开口钢管桩竖向极限承载力的土塞效应折减系数总体上是合理且偏于安全的,对于以密实砂层为持力层的开口钢管桩竖向极限承载力计算具有一定的参考意义。

类比两样本情况,原假设可以表示为H02:1′μ1=1′μ2=…=1′μk,记有:

利用矩阵C,H03可以表示为记当H01和H03都成立时,给定显著性水平α,拒绝域为

z=i⟺τi-1<x<τii=1,2,…,m

3.平坦性检验

是参数为k-1和N-k的F分布,给定显著性水平α,拒绝域为{F≥Fα(k-1,N-k)}。

教师要精心设计作业,选材贴近学生,为学生所喜欢,并有一定的思想性和开放性,让学生有自我发挥的余地。在内容上要体现生活性,促使学生运用所学知识和方法寻求解决问题的办法,发现书本知识在现实生活中的价值;在形式上追求开放合作、自主参与、不拘一格,提高学生做作业的兴趣。通过生活化的作业教会学生怎样做人、怎样求知、怎样生活,通过作业把书本知识内化为学生良好的道德品质。

三、随机模拟

(一)正态性检验

为了简化过程,本节省略赋值过程,只对赋值后的数据进行随机模拟,即直接随机生成各元服从给定离散分布的数据。以维数p=5为例,随机变量ξ=(ξ1,ξ2,ξ3,ξ4,ξ5)的均值向量μ=(0,0,0,0,0),从ξ中生成随机样本,选择不同的自助样本容量m和自助样本数量n进行重构数据,对重构数据进行多元正态性检验(每个m和n组合进行105次试验),结果见表1。

表1多元正态假设拒绝率(α=0.05)

mn=100n=200n=300n=400n=500100.010.050.140.310.53150.010.020.060.110.21200.010.010.030.060.10250.010.010.020.040.05300.010.010.020.020.04350.010.010.010.020.03400.010.010.010.020.02450.010.010.010.010.02500.010.010.010.010.01

从表1可以看出,固定n时,随着m的增大,正态拒绝率均逐渐减小,这与中心极限定理的渐进正态性相吻合。当m<25,n不大时,正态拒绝率十分低,而随着n增大,正态拒绝率急剧上升。在m=25时,拒绝率随n的提高上升比较缓慢,且不高于给定的α=0.05。结论:重构数据至少使得自助样本容量m达到25,才能有效地保证数据的正态性。

(二)单样本同水平检验

首先考虑样本质量十分高的情况,即样本是总体的很好代表,样本均值、样本协方差阵与总体期望、总体协方差阵基本相同。以均值向量μ是锯齿形的5维随机变量为例进行模拟。定义轮廓线的极差:锯齿的高峰与低谷之间的最大差距。按照不同的极差,分别进行同水平的轮廓分析,计算同水平假设的拒绝率(每个组合进行105次试验),结果见表2。

不同处理间的茶叶品质详见表8。2017年的化肥减施处理中,与CK相比,F1处理中夏茶的水浸出物含量显著升高,且夏茶酚氨比显著降低(P<0.05),春茶和秋茶的酚氨比略有降低,酚氨比降低有利于提高绿茶品质。2017年,F2处理中春茶的氨基酸、咖啡碱和茶多酚显著降低,夏茶中水浸出物、咖啡碱、茶多酚和氨基酸含量显著降低,秋茶中水浸出物含量显著降低(P<0.05)。2018年,各化肥减施处理中,茶叶品质虽有差别但均无显著性差异。

从模拟结果来看,当同水平原假设成立的时候(表2第1列),无论n取何值,实际error I基本在0.05左右徘徊,这个结果符合假设检验中α=0.05的含义:在原假设成立的情况下,有5%的概率拒绝原假设,所以该方法可以有效地控制第一类错误。对于不满足原假设的总体(表2第2~4列),检验的通过率会随着极差的增大而降低,即使对于极差较小的第2列,假设检验结果也会随着n的提高更加准确,所以检验的功效会随着极差和n增大而提高。此外,不同的原始样本量s并不会对上述结果产生影响。所以,对单样本情形,从第一类错误和检验的功效来看,此方法在样本质量较高时有很好的效果。

表2单样本同水平假设拒绝率(α=0.05,m=25)

nμ(0,0,0,0,0)(0,0.2,0,0.2,0)(0,0.4,0,0.4,0)(0,0.6,0,0.6,0)100.0500.2830.8780.996150.0510.5420.9971.000200.0500.7341.0001.000250.0500.8621.0001.000300.0500.9331.0001.000350.0510.9701.0001.000400.0510.9871.0001.000

不过在实际中样本质量往往是未知的,此时样本均值、样本协方差等与总体可能存在一定差异。于是按照给定的原始样本数量s=100,200,…,500,先随机抽样得到原始样本(这些原始样本与表2的样本不同之处在于,由于随机性,前者的样本均值、样本协方差阵不一定与总体相同),再从原始样本中按照n=10,15,…,40进行重构样本,以均值向量μ=(0,0,0,0,0)为例,检验该方法对同水平假设的拒绝率,即实际error I,每个组合进行105次试验,结果见表3。

表3单样本同水平假设拒绝率(m=25)

nα=0.05α=0.01s=100s=200s=300s=400s=500s=100s=200s=300s=400s=500100.1230.0850.0740.0700.0640.0260.0170.0150.0130.013150.2550.1480.1120.0950.0860.0730.0360.0260.0220.019200.3850.2160.1590.1270.1110.1530.0650.0410.0320.025250.4980.2880.2070.1620.1390.2450.1050.0640.0450.037300.6190.3820.2750.2150.1800.3860.1750.1050.0730.057350.7040.4680.3420.2690.2240.5010.2510.1520.1040.078400.7450.5180.3820.3040.2510.5650.3010.1850.1280.096

从表3中可以看出,对于不同的s和n的组合,该方法的实际error I会发生不同程度的“膨胀”现象,根本原因在于该方法是基于原始样本进行的重抽样,随着n的增加,自助样本的均值会偏向原始样本的均值而不是总体均值,这一点也会随着n的增加而更加明显。如果原始样本均值与原总体有一定差异的话,那么对自助样本的检验会倾向于拒绝原假设,这样会导致实际error I增加。此外,实际error I会随s增大而减小且越来越接近α。对于发生的“膨胀”现象,本文给出3种解决方法:

由图1和图2可以看出,当含水量和温度共同作用时,温度分别为-3 ℃和- 7 ℃,无侧限抗压强度随着含水量的增加呈现下降的趋势,而且含水率在14%左右时,随着冻融循环次数的增加,土体强度减小的较明显。冻融由1~3次强度减小的较为明显,冻融7次与9次的土体强度越来越较为接近,这说明可能在冻融7次附近,土体强度已经降到最低。

(1)增大样本量s。随着样本量s的增大,样本会越来越能代表总体,与总体的差距会越来越小,也就越来越趋近表2的情况,此时error I和error II都会得到有效控制。

(2)适当降低名义error I-α。虽然当α=0.05时,没有组合的实际error I达到0.05,但当α调低至0.01时,有很多情况可以使实际error I达到0.05。

(3)多次进行试验。由于该方法是以重构样本为基础的检验方法,所以能够进行多次抽样和假设检验。例如,当α=0.05,s=200,n=20时实际error I为0.216,制定策略:进行7次试验,当有4次或4次以上拒绝时才拒绝原假设,此时的实际error I就会降低为0.043<0.05。能够多次进行试验是该方法最大的优势所在。

在控制error I方面,一般不会采取降低n的方式,因为随着n的降低的确可以使实际error I减低,但这样也会使实际error II提高,令检验功效降低。在实际中,由于客观因素的限制,原始样本量可能不能任意增加,所以比较合适的方法是降低名义error I和进行多次抽样试验两者配合使用。

(三)两样本平行检验

与单样本类似,对两样本平行假设也按照样本质量分两种情况进行随机模拟,样本质量较高时,对总体平行和不平行两种情况进行模拟。在平行情况下,两个均值向量的轮廓线为锯齿形,并定义两条轮廓线的差距是两条线通过平移达到重合所经过的最小距离。在不同的极差和差距下,探究随着n增大,对原假设的拒绝率的变化,结果见表4。

表4两样本平行假设拒绝率(α=0.05,m=25)

μ1μ2n=10n=15n=20n=25n=30n=35n=40平行μ1= (0,0.2,0,0.2,0)μ2=(0.2,0.4,0.2,0.4,0.2)0.0510.0520.0510.0510.0500.0500.049μ1= (0,0.2,0,0.2,0)μ2=(0.4,0.6,0.4,0.6,0.4)0.0510.0510.0500.0510.0510.0500.051μ1= (0,0.2,0,0.2,0)μ2=(0.6,0.8,0.6,0.8,0.6)0.0500.0500.0500.0510.0500.0490.050μ1= (0,0.4,0,0.4,0)μ2=(0.2,0.6,0.2,0.6,0.2)0.0510.0520.0510.0500.0510.0500.050μ1= (0,0.6,0,0.6,0)μ2=(0.2,0.8,0.2,0.2,0.8)0.0500.0500.0510.0520.0500.0510.051不平行μ1= (0,0.2,0,0.2,0)μ2=(0.2,0,0.2,0,0.2)0.7450.9420.9890.9981.0001.0001.000

从表4中可以看出:无论是轮廓线的极差r和差距l,还是自助样本数量n都不会影响该方法的实际error I,随着n的增加也能保证较好的检验功效。同样原始样本量s也不会产生显著影响。所以,在样本质量较高的情况下,对两样本平行假设,该方法有很好的效果。针对一般样本情况,实际error I见表5,结论与单样本情形类似:该方法也会产生一定的实际error I的“膨胀”现象,同样可以通过增大原始样本数量、降低名义error I和进行多次试验来解决。

表5两样本平行假设拒绝率(m=25)

nα=0.05α=0.01s=100s=200s=300s=400s=500s=100s=200s=300s=400s=500100.2770.1580.1180.1010.0880.0960.0430.0290.0240.020150.4090.2320.1660.1360.1140.1930.0810.0500.0360.030200.5130.3030.2160.1680.1430.2950.1260.0760.0540.042250.5990.3680.2610.2070.1710.3850.1750.1040.0740.056300.6900.4550.3310.2570.2150.5020.2500.1500.1080.080350.7550.5290.3940.3120.2570.5940.3260.2030.1430.106400.7880.5700.4340.3490.2870.6430.3750.2410.1690.128

对于两样本的其他检验和多样本检验,通过随机模拟可以得到类似于平行假设的结论。

四、总结与展望

本文的方法实际上是将原始样本作为一个新的总体,通过对新总体的重构样本进行检验来得出结论。在这个过程中,合适的自助样本容量m保证了重构数据的正态性,合适的自助样本数量n和名义第一类错误α保证了假设检验结论的正确性,减少误判的发生。由于Bootstrap方法重构数据的过程是可放回的随机抽样,原则上该方法对原始样本数量并没有要求。采用这种重抽样的方法能够让不连续的原始样本数据从离散分布转换为服从多元正态分布的重构数据,且在这一转换过程中保证了原始样本和重构样本拥有相同的总体均值。

从随机模拟的结果看,当样本能够很好地代表总体时,即样本均值和协方差阵偏离总体均值和协方差阵较少,即使是小样本也能够产生很好的效果。不过这在实际中一般是无法保证的,所以,大样本应该是更适合的应用范围。事实上,针对该方法可能会出现实际error I膨胀现象,可以通过增大样本量s、适当减小α和多次进行试验来解决这个问题,灵活调整试验的次数恰恰是Bootstrap重抽样方法所带来的优势之一。

随着我国社会经济的发展和城市化进程的加快,用户对用电量的需求不断加大。配电线路承载着电能输送的任务,在电力系统中处于重要的地位。配电线路的设计会直接影响到电力系统的正常运行,因此要不断优化配电线路的设计,重视配电工程中的线路设计,慎重选择相应的配电装置,而且应该对电器以及导线的选用以及设计进行重视,最后对配电线路进行初步设计。以确保配电线路能够安全运行,使其有利于电力系统的平稳运行,满足广大用户的用电需求。

本文随机模拟结果仅仅考虑了维数为5的情况,而更高维的数据会对该方法产生怎样的影响和小样本情况下如何对该方法进行改进还有待进一步研究。

参考文献:

[1] 张尧庭.定性资料的统计分析[M].桂林:广西师范大学出版社,1991:1-3.

[2] Agresti A.An Introduction to Categorical Data Analysis[M].New Jersey:John Wiley & Sons,2007:2-3.

[3] Romano J,Kromrey J D,Coraggio J,et al.Appropriate Statistics for Ordinal Level Data:Should We Really be Using T-test and Cohen’sd for Evaluating Group Differences on the NSSE and Other Surveys[C].Annual Meeting of the Florida Association of Institutional Research,2006.

[4] Gautam S,Kimeldorf G,Sampson A R.Optimized Scorings for Ordinal Data for the General Linear Model[J].Statistics & Probability Letters,1996,27(3).

[5] Singer J M,Poleto F Z,Rosa P.Parametric and Nonparametric Analyses of Repeated Ordinal Categorical Data[J].Biometrical Journal,2004,46(4).

[6] 丁元林,孔丹莉.对比标度权重法在量化有序多分类变量中的应用[J].数理医药学杂志,2005,18(1).

[7] Wilcox R R.ANOVA:A Paradigm for Low Power and Misleading Measures of Effect Size[J].Review of Educational Research,1995,65(1).

[8] Luh W M,Guo J H.A Powerful Transformation Trimmed Mean Method for One-way Fixed Effects ANOVA Model Under Non-normality and Inequality of Variances[J].British Journal of Mathematical and Statistical Psychology,1999(2).

[9] Fagerland M W,Sandvik L.The Wilcoxon-mann-whitney Test Under Scrutiny[J].Statistics in Medicine,2009,28(10).

[10]吴喜之.非参数统计[M].北京:中国统计出版社,1999:70-82.

[11]Lu T Y,Poon W Y,Cheung S H.Multiple Comparisons with a Control for a Latent Variable Model with Ordered Categorical Responses[J].Statistical Methods in Medical Research,2015,24(6).

[12]Onozawa M,Takahashi S,Seo T.Tests for Profile Analysis Based on Two-step Monotone Missing Data[J].Discussiones Mathematicae Probability and Statistics,2013,33(1-2).

[13]Takahashi S,Shutoh N.Tests for Parallelism and Flatness Hypotheses of Two Mean Cectors in High-dimensional Settings[J].Journal of Statistical Computation and Simulation,2016,86(6).

[14]Maruyama Y.Asymptotic Approximations for Distributions of Test Statistics of Profile Hypotheses for Several Groups Under Non-normality[J].Journal of Mathematical Sciences Advances and Applications,2010,4(1).

[15]Jöreskog K G.Structural Equation Modeling with Ordinal Variables Using LISREL[R].Chicago:Scientific Software International,2005.

[16]陈民恳.多分类有序变量间距差异的统计分析与实际应用[D].厦门:厦门大学,2007.

[17]Rencher A C.Methods of Multivariate Analysis[M].New York:John Wiley & Sons,2003:139-203.

TheProfileAnalysisofMulti-ordinalDataBasedonUnderlyingVariableModel

SUN Feng-lin1a,LU Tong-yu2,LEI Shu-he1b

(a.College of Oceanic and Atmospheric Sciences,b.School of Mathematical Sciences,1.Ocean University of China,Qingdao 266100,China;2.School of Economics and Management,China Jiliang University,Hangzhou 310018,China)

Abstract:The method of profile analysis for multi-ordinal data is proposed in this paper.Because of the non-continuity,the multi-ordinal variables can not meet the requirement of profile analysis that the variables should obey multi-normal distribution,so we assign the variable according to the underlying variable model,resample the original data by bootstrap and retain the mean information into reconstructed sample obeying multi-normal distribution.The reconstructed sample has the same population mean vector with original data,and then we can use profile analysis to compare the mean vectors of the reconstructed sample include the level hypothesis for single sample,the parallelism hypothesis,the level hypothesis and the flatness hypothesis for two-sample problems and several-sample problems.The test statistics and refused domains for different tests are provided.At last,the stochastic simulation was used for feasibility.For restricting the probabilities of two types of error,this method can offer good results for samples with high quality.And the real error I is slightly above the nominal error I for general samples,this problems can be solved by increasing original sample size,decreasing the nominal error I and repeating tests.

Keywords:multi-ordinal data; underlying variable model; profile analysis; Bootstrap

中图分类号:O212∶F224

文献标志码:A

文章编号:1007-3116(2019)05-0003-07

收稿日期:2018-06-20

基金项目:国家社会科学基金项目《大数据背景下定序数据的统计推断研究》(15BTJ016)

作者简介:

孙丰霖,男,山东淄博人,博士生,研究方向:应用统计方法;

鲁统宇,男,山东莒县人,哲学博士,副教授,研究方向:定序数据多重检验,潜变量模型;

2017年3月,发生在山东聊城的“于欢案”引发了一场全国范围内的自媒体舆论风暴。2018年8月,发生在江苏昆山的“反杀案”再度触发了自媒体舆论围观的敏感神经。两起案件虽时隔近一年半,并在案情焦点、诉讼阶段、处置机关等要素层面存有差异,但却殊途同归般体现出自媒体舆论监督权规约效能的作用历程。

类淑河(通讯作者),男,山东沂水人,理学博士,副教授,研究方向:时间序列分析,随机点过程应用。

(责任编辑:马 慧)

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

孙丰霖:基于潜变量模型的多元有序数据轮廓分析法论文
下载Doc文档

猜你喜欢