吕恕:分层抽样下的变体平行模型及其实证研究论文

吕恕:分层抽样下的变体平行模型及其实证研究论文

经济纵横

[摘 要]敏感问题的专业调查方法近年来得到不断完善,同时伴随着互联网的发展,网络调查开始渗透到敏感问题调查的实证研究中。变体平行模型是目前应用范围最广的敏感问题专业调查方法,将分层抽样方法引入到变体平行模型中,可以适用于调查总体较为复杂、单位间差异较大的情况,极大地提高调查效率及调查结果的准确性。分层抽样下的变体平行模型也有效地降低了网络调查的误差,使得敏感问题调查与网络调查的结合有了更坚实的基础。

[关键词]敏感问题;变体平行模型;分层抽样;网络调查

一、引言

互联网飞速发展的现代社会,充斥着复杂多变的信息,其中敏感性信息因涉及个人隐私,如吸毒、性取向等,其调查结果获取的难度极大。针对敏感性问题调查发展起来的专业调查方法,主要有随机化应答技术和非随机化应答技术,这些专业调查方法确保了受访者在调查中的匿名性,提高了敏感性问题调查结果的有效性。其中非随机化应答技术不需要复杂的随机化装置,使调查更简单便捷,还可与网络调查相结合,这一特点打破了以往敏感问题专业调查技术只能面对面、一对一,调查结果回答率和真实回答率不高的缺点,扩大了调查范围、降低了调查成本、提高了调查效率。但非随机化应答技术尚处于发展中,其各个方面的研究都还不完善,实际应用也不够广泛,因此对非随机化应答技术的研究还有待于进一步深化。

非随机化应答技术是针对二项选择属性特征敏感问题的调查模型,即是否具有某种敏感特征。变体平行模型[1]是非随机化应答技术中应用范围最广且最高效的模型,其既解决了三角模型和交叉模型[2]的局限问题——不能用于敏感问题中两分类都敏感的情况(如吸毒三次以上和吸毒三次以下),也解决了平行模型[3]中受访者非敏感性特征的比例不易得的问题(如喜欢吃辣的人群比例)。目前国内外对于敏感问题调查中非随机化应答技术的应用,大多限于小范围特定群体小样本的简单随机抽样,即使遇到复杂样本也只是利用简单随机抽样下的非随机化应答技术进行调查,导致调查结果出现较大误差。[4]分层抽样划分了总体类别,增大了各个类别中样本的共同性,抽取的样本代表性更好,抽样误差较小,因此分层抽样常常被用于样本间差异较大或样本较多的复杂情况。

本文将分层抽样引进变体平行模型中,对分层抽样下变体平行模型的敏感比例估计值、估计值方差和样本量的确定做出了详细推导。介绍了网络调查及其数据误差[5],分析了分层抽样下变体平行模型与网络调查结合的效果。利用新设计进行实证研究——吸毒人员复吸比例调查研究,使用蒙特卡罗方法模拟实际的调查过程。

二、变体平行模型介绍

变体平行模型的设计如下:令X=1表示具有敏感性特征的人的类别(吸毒),X=0表示不具有敏感性特征的人的类别(不吸毒)。引入两个二分随机变量Y和W,假设Y和W都是非敏感的且X、Y、W相互独立,p=P(W=1)已知而q=P(Y=1)未知。例如,Y=1表示受访者喜欢吃辣,Y=0表示受访者不喜欢吃辣,W=1表示受访者ID最后一位是奇数,W=0表示受访者ID最后一位是偶数。可以合理地认为p≈0.5,要求估计具有敏感性特征的人群比例πv=P(X=1)(下标v表示变体平行模型the variant of Parallel Model)。

受访者被要求如实回答表1左侧部分,并选择自己对应情况的符号。

表1变体平行模型设计及其对应概率

类别W=0W=1类别W=0W=1总计Y=0○Y=0(1-q)(1-p)1-qY=1□Y=1q(1-p)qX=0△X=0(1-πv)p1-πvX=1□X=1πvpπv总计1-pp1

由表1知,当受访者选择“○”时,受访者属于{Y=0,W=0}这一子类;当受访者选择“△”时,受访者属于{X=0,W=1}这一子类;当受访者选择“□”时,受访者属于{Y=1,W=0}∪{X=1,W=1}这一子类。因为{X=0}、{Y=0}、{Y=1}、{W=0}、{W=1}均是非敏感的,所以{Y=0,W=0}、{X=0,W=1}和{Y=1,W=0}∪{X=1,W=1}这三个子类都是非敏感的,无论受访者做出什么样的选择都是非敏感的,都不会被采访者知道他的真实分类,即受访者是否具有敏感性特征。

三、分层抽样下的变体平行模型

分层抽样的具体方法为:按总体各单位的显著特征(如性别、年龄等)将总体分层;根据各层单位数、总体单位数和样本容量,确定每一层的抽样比例(抽样比);依据抽样比在每层以简单随机抽样的方法抽取样本;汇总每层抽样结果,组成总体抽样样本。在分层时需做到使层内各单位间的差异尽可能小,层间各单位间的差异尽可能大,层与层相互独立,总体各单位在划分时不重不漏。

其中ωi=Ni/N为第i层的权重,即第i层的抽样比例,∑ωi=1。

令πi表示第i层子总体中具有敏感性特征X的人群比例,qi表示第i层子总体中具有非敏感性特征Y的人群比例,pi表示第i层子总体中具有非敏感性特征W的人群比例。pi已知而qi未知。根据表1,设mi1、mi2、mi3分别表示第i层ni个子样本中受访者选择“○”、“△”、“□”的人数,λi1、λi2、λi3分别表示第i层ni个子样本中受访者选择“○”、“△”、“□”的人群比例。

第i层子总体中:

由λi1=(1-qi)(1-pi),λi2=(1-πi)pi可得

根据分层抽样样本量最优分配原则可知,当且仅当

3.将饧好的面团擀制成0.1~0.2 cm厚的一张大面皮,面皮四周边沿抹上鸡蛋液。在面皮一边,每隔2.5~3 cm的距离,放上一小堆肉馅,将面皮的另一边折起,盖住肉馅,压实后,用小碗或酒盅抠出饺子。剩余的面皮重新团起,再擀皮,照上法制作饺子。有的人将两个包好的饺子再捏死一起,成为连环的圆饺子。饺子制好后,摆在撒有面粉的面板上,置于冷处。吃时用放了盐的开水煮5~7 min即熟。

各层之间相互独立,因此的方差为

且和分别是πi和qi的无偏估计。

调查总体中,πv的估计量为:

设调查总体容量为N,将总体划分为L层,第i层容量为Ni(i=1,2,…,L),分别在各层以简单随机抽样的方法独立抽样,调查共抽取总样本容量为n,第i层样本容量为ni(i=1,2,…,L),对抽取的每个单位,采用非随机化应答技术进行调查。

检查患者的循环系统以及呼吸系统的相关功能,以保障氧气的足够供给,是患者成功进行手术的必要条件和基础。如果患者存在心肺功能的相关问题,会在一定程度上阻碍氧气的吸入,导致患者出现缺氧。

其中πi(1-πi)/ni表示在第i层ni个子样本中采用直接问答调查的方差,且与qi无关。显然当pi=1时模型失效变为直接调查,失去了对受访者的保护性。同时与pi成反比,当pi→0时,

调查中预先给定一个精度α,

此时可达到预定的精度,取最小样本量即可满足要求,[x]为不大于x的最大整数。

因此调查总样本容量

则可知第i层样本容量

λi1、λi2的无偏估计量分别为由变体平行模型中的结论可知:

方差达到最小值,此时

1.在当前全面开展旅游经济的管理活动时,企业必须注重融入系统化的时代元素以及文化创意,在整合旅游产业资源的基础上,全面推进整个管理活动,实现全面创新。在进行旅游经济的管理活动时,国家既要注重立足于大众的旅游习惯,又要聚焦时代特点,在丰富管理元素的基础上,为旅游经济管理的科学创新搭建高效平台。

③河道生态护坡:对于稳定河道护坡,采用自然型护坡,即保持河道两岸原有的草地、树林、灌木以及岸边自然生长的挺水和沉水植物所组成的自然生态系统,使其免受扰动,利用植物自身的功能净化水体;同时能吸引更多的野生动物和昆虫在此栖居、繁衍,形成良性的生物链。对于不稳定河道护坡,考虑对河岸进行人工护砌,以抵御洪水冲蚀;另外为防止因雨水冲刷造成的水土流失,也需要对局部河岸进行护岸。护坡建设中可采用土工材料绿化网或生态混凝土、干砌石、钢丝网碎石护坡等。在河堤上适当植草、花、灌木与水土保持涵养林,用于防止入土流失、削减噪音、滞尘净化、改善生态环境。

四、实证研究

网络调查的误差分为覆盖误差、抽样误差、无回答误差和计量误差,分层抽样下的变体平行模型可以有效降低四类误差,用于网络调查两分类均敏感的问题。本文实证研究主题为“吸毒人员复吸比例调查研究”,调查的目标人群是吸毒人员,以蒙特卡洛模拟的方式进行研究。吸毒人员分为被查获一次且无戒毒史的偶吸人员和复吸(成瘾)人员,复吸人员相比偶吸人员更难戒断,同时男女在戒毒时产生的反应也有所不同,因此在戒毒方案的制定上要有所区分。

令X=1表示受访者(吸毒人员)复吸,W=1表示受访者编号ID尾数为偶数,Y=1表示受访者喜欢吃辣。则p=P(W=1)=0.5,q=P(Y=1)未知,求吸毒人员中复吸的人群比例π=P(X=1)的估计值。

首先将所有吸毒人员按性别分层,据《2015年中国毒品形势报告》统计[6],截至2015年底,全国共有吸毒人员234.5万(不含戒断三年未发现复吸人数、死亡人数和离境人数),其中男性200.7万名,女性33.8万名,分别占85.6%和14.4%。设调查总体容量为N=5 000 000,男性层容量为Nm=4 280 000,层权重ωm=85.6%,女性层容量为Nf=720 000,层权重ωf=14.4%。令πm表示男性层中复吸人群比例,πf表示女性层中复吸人群比例,男性层和女性层中具有非敏感性特征W和Y的人群比例均与总体相同。

利用蒙特卡洛方法对男性层和女性层分别进行模拟,实现了变体平行模型的整个问卷调查过程,假设样本量的设定是合理且有效的。在软件中生成吸毒人员的信息矩阵,每个人的信息包括{X,Y,W},其中X、Y、W分别以一定的概率生成。据统计,截至2015年底,全国吸毒人员中偶吸人员106.9万名,复吸人员127.6万名,分别占45.6%和54.4%。因此在生成吸毒人员的信息矩阵时可将概率设定为:πs=P(X=1)=0.544,p=P(W=1)=0.5,其中s表示实际调查中敏感人群比重。

高文鹏怎么知道的呢?我幽了一默,小布什给你来电话了?高文鹏说,我现在打工的这间厂,老板的哥哥在钟表行业协会挂职,他要他弟弟及时转行,寻求突破。老板很信任我,找我商量,他准备开一家传媒公司,专营网站营销,像百度、淘宝、分红那些网站,这些行业受金融危机的冲击力不大。我是学计算机的,以前和别人搞过出行网,后因为资金不足,倒闭了。

表2分层抽样下的变体平行模型

编号ID尾数为奇数W=0编号ID尾数为偶数W=1不喜欢吃辣Y=0○喜欢吃辣Y=1□偶吸X=0△复吸X=1□

生成信息矩阵后,需要对信息矩阵进行筛选,按照表2分层抽样下的变体平行模型选出符合条件的信息,即{X=0,W=1},得到受访者中选择“△”的人数。设mm、mf分别表示男性层和女性层中受访者选择 “△”的人数,通过公式(1)、公式(2)计算可以得出实验中男性层和女性层的敏感人群比例。

1930年,国立青岛大学成立,并于9月正式开学。闻一多被聘为该校文学院院长兼中文系主任。臧克家正是在此受业于闻一多。在青岛大学,闻一多发表了专攻中国文学的第一篇考证论文,并制订了长远的唐诗研究计划。其研究大致可以分为两个阶段。

把所有护士在考核期间得到的数据用SPSS 19.0统计学软件进行处理分析,计量资料用均数±标准差表示,比较用t检验,差异显著(P﹤0.05)时,表示有统计学意义。

(1)

的方差为

最后,话题设置推动民意整合。以微博为例,“话题”功能将主题相近的微博文本进行有效聚合,便于关注同一话题的大众交流互动;话题排名、热门话题首页呈现等功能设计则量化反映了话题热度,使得高热度的政策话题进入公众视野,民意反馈进一步增加,形成舆论的“马太效应”,最终引发决策者的关注。在微博上,“#计划生育#”话题阅读量192.3万,“#废除计划生育#”阅读量86万,“#单独二孩#”204万,“#全面二孩修法#”更是高达2 019万,这些话题成为大众表达对计划生育政策见解的“大本营”,反映了全民讨论计划生育政策的舆论热潮。

(2)

重复实验100次,男性层和女性层的实验结果分别如图1、图2所示。

图1男性层敏感人群比例重复实验100次的结果

图2女性层敏感人群比例重复实验100次的结果

再将重复100次实验的男性层、女性层敏感人群比例代入计算公式(3),可以得到重复100次实验情况下调查总体中敏感人群的比例,如图3所示。

Brookings:欧洲科技创新加剧收入不平等。近日,布鲁金斯学会发文称,全球金融危机后,欧洲经济持续复苏,但科技创新使收入不平等问题日益严峻。自动化、3D打印和人工智能等新技术为拥有良好技能的工人和前沿公司创造了更多机会,帮助其进一步提高生产率,但缺乏技能的工人和落后的公司则处于不利形势,导致生产率和工资差距不断拉大。

2)针对凯斯4000甘蔗联合收获机进行了作业性能测试、收获机组系统的性能测试,并与凯斯7000性能对比试验,通过试验测定得出:其破头率为7.45%、损失率为11.68%、含杂率为8.46%;油耗为2.23L/t、生产效率为15.46t/h;凯斯4000甘蔗联合收获机含杂率、碎蔗和瀑蔗比凯斯7000的高,并且易堵塞。

(3)

图3调查总体中敏感人群比例重复实验100次的结果

由上述男性层、女性层和调查总体中的敏感人群比例图可以看出,重复实验100次,实验结果总在预设值附近波动,因此蒙特卡洛模拟可以很好地实现敏感性问题调查的物理过程,且打破了抽样调查在相同情况下只能进行一次有效调查的限制,得到了重复实验100次的结果。

但是从图中也可以看出,每个群体中波动的大小不同,分析男性层和女性层的敏感人群比例的方差可知,见公式(4)、公式(5),在设定的各层敏感人群比例与非敏感人群比例与总体保持一致的情况下,各层敏感人群比例的方差只与样本量的大小有关,且两者成反比。本实证研究中男性层的样本量比女性层大,因此男性层敏感人群比例的方差比女性层小,很好地解释了实验结果中男性层波动更小的情形。

(4)

(5)

五、研究结论

通过上述分析可知,分层抽样下的非随机化应答技术应用范围更广、精度更高,相比简单随机抽样下的非随机化应答技术,更适用于调查较为复杂、单位间差异较大的总体。其与网络调查相结合可以使得敏感性问题的调查变得更加便捷。分层抽样下的变体平行模型需要注意以下三点:

1.总体敏感比例估计值的确定。用每层敏感比例估计值来推导总体敏感比例估计值时,不能简单地进行叠加,用确定各层敏感人数,相加后得到总体敏感人数,再求总体敏感比例的估计值

自从2004年国内初步接触到机构知识库,我国高校图书馆在机构库的理论研究和工作实践上都有了长足的发展,在机构库的建设内容和质量上也有了很大的提高。但是,我们也应该承认,高校机构库的整体建设并不乐观,机构库要想健康发展,还需要克服很多困难和障碍。主要集中在以下几个方面。

2.总体样本量的确定。由于总体方差为各层加权求和,直接与精度比较求样本量无法实现,因此将各层方差与精度比较,求出各层样本量ni,再求和得到总体样本量n。

3.各层样本量分配比例的确定。每层在抽样时的抽样比例不能简单地用层权来衡量,而应该根据分层抽样样本量最优分配原则来确定。

实证研究中对于吸毒人员复吸比例的调查研究,成功地实现了相同条件下的重复实验,实验结果在真实值附近波动,模拟了敏感性问题调查的实际过程。该项实证有助于戒毒管理单位更加科学有效地帮助吸毒人员戒毒。本文对于变体平行模型的改进及其实证研究敏感性问题调查方法的进一步完善提供了可靠有效的理论参考和指导原则。

[参考文献]

[1]Liu Y,Tian G L.A Variant of the Parallel Model for Sample Surveys with Sensitive Characteristics[J].Computational Statistics &Data Analysis,2013,67:115-135.

[2]Yu J W,Tian G L,Tang M L.Two New Models for Survey Sampling with Sensitive Characteristic:Design and Analysis[J].Metrika,2008,67(3).

[3]Tian G L.A New Non-randomized Response Model:The Parallel Model[J].Statistica Neerlandica,2014,68(4):293-323.

[4]吴琴.敏感性调查中两总体下 NRR模型的应用[D].哈尔滨:东北师范大学,2010.

[5]樊茗玥.网络调查数据质量控制研究[D].镇江:江苏大学,2011.

[6]中国国家禁毒委员会办公室.2015年中国毒品形势报告[R/OL].[2016-02-18]http://www.nncc626.com/2016-02/18/c_128731173.htm.

Parallel Model of Variants under Stratified Sampling and Its Empirical Study

LüShu,Song Ying-xiao

(School of Mathematical Sciences,UESTC,Chengdu 611731,China)

Abstract:The professional investigation methods for sensitive issues have been continuously improved in recent years.At the same time,with the development of the Internet,network surveys have begun to penetrate into the empirical research of sensitive issues.The variant parallel model is the most widely used professional survey method for sensitive problems.When the stratified sampling method is introduced into the variant parallel model,it can be applied to the investigation of complex and differences between units at larger,which greatly improves the efficiency and accuracy of survey results.The variant parallel model under stratified sampling also effectively reduces the error of network survey,which makes the combination of sensitive problem investigation and network survey have a more solid foundation.

Keyword:sensitive issues,variant parallel model,stratified sampling,network survey

[中图分类号]O212.2

[文献标识码]A

[文章编号]1004-9339(2019)04-0062-06

[收稿日期]2019-04-05

[作者简介]吕恕(1963-),女,吉林长春人,电子科技大学数学科学学院教授,统计学博士;宋颖潇(1994-),女,陕西渭南人,电子科技大学数学科学学院统计学硕士研究生。

责任编辑:任 玲

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

吕恕:分层抽样下的变体平行模型及其实证研究论文
下载Doc文档

猜你喜欢