胡桂华:人口普查多报及重报估计论文

胡桂华:人口普查多报及重报估计论文

【统计应用研究】

摘要:人口普查中不可避免发生多报,包括重报和其他普查多报。针对当今一些国家的政府统计部门在普查多报估计中只估计普查多报或重报的问题,提出构建普查多报估计量及重报估计量的研究目标。为实现目标,采用文献解读、现场调查和抽样估计相结合的方法研究普查多报人口及重报人口的认定标准、重报人口的统计口径、多报人口的估计方法与样本多报人口数目的关系、多报及重报估计量及其抽样方差估计量的建立。使用美国明尼苏达大学人口中心建立的人口普查微观数据库进行实证分析。研究表明,估计的总体普查多报率和重报率在适当范围内,普查登记质量较高;泰勒扩张法适合于普查多报率及重报率的抽样方差计算。通过研究得出如下结论:为全面了解普查登记中的多报问题,除单独估计重报外,还要估计总的普查多报;认为普查多报估计不重要的观点,不仅与现实情况不吻合,还会干扰政府统计部门的普查多报估计工作。

关键词:人口普查;质量评估调查;抽样设计;普查正确登记

一、引言

2020年,中国、美国和其他许多国家将进行每隔10年1次的全国人口普查。按照惯例,也将组织质量评估抽样调查。人口普查质量评估的核心任务是估计人口普查覆盖误差[1]。覆盖误差进一步分为普查净误差及普查多报与漏报[2]。普查净误差定义为普查登记人口数与目标人口总体实际人口数之差。普查多报指普查员在普查中登记了不应登记的人,使普查登记人口总数大于实际人口总数,普查重报是普查多报中的一种,指某人在普查中被登记一次以上。普查漏报指普查员在普查中未登记应该登记的人口,使普查人口总数低于总体实际人口总数。关于净误差估计的研究成果较多,而普查多报的研究成果较少,尤其是很少见到国内外学者发表普查多报的学术性论文。本研究将起到一种示范效应,吸引更多学者研究普查多报,为政府统计部门制订普查多报方案提供决策建议和理论依据。

“主动性”反映的是人投入的力度,历史经验证明:越主动的学生对学习的关注与投入程度越大。主动学习有别于被动接受最大的不同是不惧怕困难(甚至将战胜困难当作乐趣),愿意接受挑战,能花更多的时间和精力去接受、认知未知事物和知识。因此,主动学习就像性能良好的“发动机”,带来的是持续不断的学习动力,这也是所有教学的最大成果。因此,想提高教学质量、形成有效教学,提高“主动性”是关键。

隔夹层在稠油蒸汽吞吐热采中的意义…………………………………………………………………………………仲岩磊(4.6)

在人口普查质量评估的历史上,世界各国最早只是估计净误差。这项工作的关键是构造目标总体实际人口数的一个估计量[3],用普查登记人口数与之相减来求得净误差。由于净误差提供的人口普查登记质量信息有限,为了了解人口普查工作更多、更细致的信息,人口普查多报与漏报估计问题逐渐被重视。美国普查局在2010年的人口普查质量评估工作中,在净误差估计之外,增加了普查多报与漏报估计这两个目标[4]。联合国统计司也对各国提出了这样的建议[5]。

但是,国内一些学者认为研究普查多报或重报无太大意义,人口普查的多报与重报问题并不突出,相反人口普查中的漏报问题更值得研究[6]。然而事实并非如此。近10年来,拥有两套甚至多套住房的中国人越来越多,而在不同地点有住房是重报的主要原因。另外中国养宠物的也人越来越多,其中有些人视宠物为亲人,在普查表中登记宠物,造成普查多报。美国2010年普查多报10 042千人,其中重报8 522千人,其他多报1 520千人;普查漏报15 999千人,其中估算的普查人口数为5 993千人,其他漏报人口数为10 006千人[7]。这表明,普查多报和漏报都很严重,在剔除估算的普查人口数外,普查多报人口数比漏报人口数还要多。所谓估算的普查登记人口数是指对拒绝接受普查的家庭根据其邻居提供的信息所估计的这类家庭的人口数。严格意义上来讲,估算的普查人口数并不能当作普查漏报,因为它已经包括在最终公布的普查登记人口数中。普查漏报应该是指既未被普查员登记又未被估算的那部分人口。除美国外,中国和其他国家的普查登记人口数中没有包括估算的普查登记人数[8]。

在普查多报估计中,有些国家(如乌干达、南非)只构造覆盖全部多报的普查多报估计量(联合国统计司人口普查质量评估指南并未提及普查重报)[9-10],也有些国家(如中国和加拿大)只构造重报估计量[11-12]。中国在重报估计做法上尚有若干缺陷,例如,把样本当作总体、把样本重报率当作总体重报率、在统计重报人数时计数对象不明确,等等。

(一) 卓越绩效评价理论。《卓越绩效评价准则》是中国企业及各界经营质量评价的普遍方法。该准则的核心内容之一就是对过程的重视和对结果的关注,将组织视为一个整体,以科学、有效的方法,建立系统的管理框架和合理的协调、整合机制。实现经营管理的统筹规划、协调一致,提高组织管理质量和效率[1]。其具体方法就是取得认可的资源,然后对资源进行过程管理,资源应用产生结果后,进行测量、分析并持续改进。授权就是一种认可资源、优化资源的方法,许可就是一种进行过程管理及产生资源应用结果的措施,授权与许可的有效结合能够不断提升企业绩效。

为了全面反映普查多报,除了估计重报外,还要估计其他普查多报,即使其他多报人口数为零,也要将其纳入多报估计范围,在研究报告中明示其他多报人口为零。

血清CRP正常组、升高组患者的中位总生存期分别为14.00(7.25~19.75)、4.00(3.00~8.00)个月,正常组显著长于升高组,差异有统计学意义(P<0.001,图1)。肿瘤标志物CA19-9、CEA升高是影响晚期胰腺癌患者预后的危险因素(表2)。

联合国统计司及所有国家的政府统计部门把普查多报认定为普查员登记了普查目标总体之外的人。实际上,这样表述不够严密。应该说,普查多报包括对普查目标总体之外的人所做的登记,以及对普查目标总体的人所做的重复登记这两个部分。也就是说,不应把对普查目标总体的人所做的重复登记叫做目标总体之外的登记。

关于普查多报估计,还涉及到一个位置登记错误的问题[13]。许多国家在普查多报估计中,要求一个人登记在所属的普查小区内,否则认定位置登记不正确,作为普查多报处理。这种处理办法会导致普查多报数目虚增。是否把位置登记错误视作普查多报,要看登记位置是否在研究范围内。如果研究范围是全国,那么登记在全国任何一个地方都不应记为多报。如果研究范围是重庆市,那么应该在重庆市登记的某人登记在该市任何区域都不应记为多报,但如果该人登记在四川省,则应记为重庆市的漏报;如果研究范围是重庆市和四川省,这个人不应记为多报。在2010年普查多报估计中,美国规定,一个人只要登记在质量评估调查研究范围内,即认定为位置登记正确,在没有其他登记错误的情况下,认定其为普查正确登记。这一规定避免了登记位置问题导致的多报估计错误。

统一思想,凝聚力量,抓好食品药品安全监管工作。第一师阿拉尔市位于新疆维吾尔自治区南部,师市食品药品监管局紧紧围绕社会稳定和长治久安总目标,在做好维稳值班工作的前提下,高度重视食品药品安全工作,及时对食品药品安全工作进行安排部署,落实职责,实现对食品药品安全的齐抓共管,让人民群众吃得放心,不因食品药品安全问题影响社会和谐稳定。

本文的创新主要有以下三个方面:第一,给出了普查多报及其中的普查重报的明确定义。解决了目前多报、重报统计中由于定义不明、界限不清导致的错误。第二,明确规定了普查重报的两种估计对象。解决了目前重报统计结果含义不明确的问题。第三,采用泰勒扩张抽样方差估计量,近似计算多报或重报估计量的抽样方差,从而规范了普查多报及重报估计量的抽样方差计算。

二、普查多报重报统计一般问题

(一)普查多报与普查重报的内涵与外延

普查多报包含两个部分:第一部分,属于普查目标人口总体的人员进行了两次或更多次普查登记,将他们进行普查登记的次数减1所得结果记作重复性普查多报(简称普查重报);第二部分,不属于普查目标人口总体的个体(例如,普查标准时点之前死亡的人口、普查标准时点之后出生的人口、虚构的人口,等等)进行了普查登记,将他们进行普查登记的次数记做其他普查多报。这里特别要注意,如果一个不属于普查目标总体的个体进行了不止一次普查登记,须将其进行普查登记的次数全部计为其他普查多报,而不应计为普查重报。

(二)普查重报的估计对象

对普查重报估计问题,有两种估计对象。一是估计重复性普查重报人数。二是估计发生普查重报人数。对前者,将属于普查目标总体的某个人在普查中登记的总次数减1,作为其重复性普查重报人数。对后者,只要某人在普查中登记一次以上,就将其作为发生普查重报人口,重报次数计为1,而不考虑其实际登记的次数。目前加拿大在普查重报估计中采用第一种估计对象,其目的是为了修正普查登记总人数。

三、普查多报及重报的抽样估计理论

人口普查多报、重报估计理论包括下列四项内容:抽样设计、样本数据采集、普查多报估计方法、估计量构造及估计量方差的估计[14-16]。

(一)抽取样本

在人口普查质量评估抽样调查中,各国政府统计部门采取的抽样方法通常是分层整群抽样、分层多阶段抽样、分层多重抽样。用于分层的标志通常是城乡或抽样单位的规模。以中国为代表的发展中国家主要采用分层整群抽样,为更好地服务于中国政府的需要,本文采用分层整群抽样方法抽取以普查小区为抽样单位的样本。

(二)获取样本小区普查多报或重报人口数据

“十二五”期间,我国尾矿年排放量高达15亿t以上。最新统计数据显示:我国堆存接近600亿t的尾矿和废石中,废石堆存量438亿t,75%为煤炭、铁矿和铜矿开采所产生的矸石和废石;尾矿堆存量146亿t,83%为铁矿、铜矿和金矿经选别后所排出的尾矿。“十二五”期间,我国尾矿排放增速明显,低于利用增速,但排放量仍高于综合利用量,且受矿业市场影响,尾矿利用增速较“十一五”期间出现了大幅下降[4]。

(三)普查多报估计方法

式(17)中,的方差的泰勒扩张抽样方差估计量为:

当名词或代词由一个句子来修饰时,该句子要放在其所修饰的名词或代词的后面,称为定语从句,被修饰的名词或代词叫先行词。

(四)总体或区域的普查多报率和重报率估计量及方差估计量

为消除规模影响,普查多报或重报以普查多报率或重报率表示。为建立总体普查多报率估计量,需要首先构造总体普查多报估计量普查登记人数估计量与普查正确登记人数估计量之差),然后除以普查登记人数估计量为构造重报率估计量,先构造重报估计量再将其除以普查登记人数估计量采用分层整群样本资料完成上述估计量的构造工作。为书写便利,只给出某一层的估计公式,并且省去层号h。

1.总体普查多报率估计量。构造总体(全国、省等)普查多报比率估计量的目的是使不同国家或同一国家不同时期的普查多报估计结果具有可比性。中国和其他国家的政府统计部门出于保密考虑只对外发布普查多报率(对内提供普查多报人数及多报率),其公式为:

(1)

从式(2)和式(3)可以看出

在构造普查多报估计量时,为什么使用估计的普查登记人数,而不使用已知的普查登记人数C 呢? 首先是为了保证普查登记人数与普查正确登记人数指标性质的一致性,后者是估计量,如果前者使用已知的普查登记人数就不一致;其次保持这两个统计指标口径相同, 已知的普查登记人数包括只有姓名或有姓名但至多只填写了1个普查项目的人,而依据E名单估计的普查正确登记人数及普查登记人数没有包括这类人,从而确保了两者口径相同;再次E名单的质量高于普查登记质量;最后美国在一项测试中发现,用已知的普查登记人数C较之用普查登记人数估计量构造估计量时,前者的抽样方差要大一些。

讨论式(1)E名单j人的普查正确登记概率Pce,j在不同情形下的计算方法。首先,如果有信息证明一个人在普查中正确登记,那么其正确登记概率为1;其次,如果有证据显示一个人是普查错误登记,那么其正确登记概率为零;再次,如果没有收集到证明某人是普查正确登记还是普查错误登记的信息,那么其正确登记概率需要估计。如果E名单中的每一个人都是正确登记,那么估计的普查正确登记人数等于估计的普查登记人数。

3.区域普查多报率及重报率估计量。现在估计某个区域d(全国的省或男性)的普查多报率及重报率这将式(1)和式(6)限制在区域d即可,为此选择示性函数Ijd。如果j∈Ud,那么Ijd=1,若j∉Ud,那么Ijd=0。Ud为区域d的E名单人口集合。

在以往的椰果采摘机的能源供应方面,大多采用原始的传统能源,并且会带来很大程度上的环境污染。因此,以风能、核能、太阳能为主的清洁能源被认为是替代传统能源,解决能源危机的必然选择。尤其是2008年金融危机之后,世界范围内掀起了一场绿色能源的浪潮。我国“十二五”规划中也特别提出“加强现代能源产业,推动能源生产和利用方式变革”。

(2)

式(2)普查正确登记概率的含义为:普查虚构者(宠物等)显然不是普查正确登记,其正确登记概率为零,即如果质量评估调查现场证实与P名单匹配的E名单j人存在,其正确登记概率名单中的j重报者,既有基本记录,也有重复记录。如果获得了这些记录中的哪个记录为基本记录的信息,就把这个记录的正确登记概率记为1,其他重复记录的正确登记概率记为零。如果没有获得这样的信息,其正确登记概率只能估计。通常采用简单平均估计法。假设重报者j总共记录t次,其中1次是基本记录,另外(t-1)次是重复记录。此时E名单j重报者的正确登记概率为采用简单平均法的理由是,多次登记中有1次登记是正确的,但没有信息证明哪一次是正确的。因此每一次的普查正确登记概率为1/t,例如在3次中每一次的普查正确登记概率为1/3。E样本j人为其他情形,其正确登记概率

情形2:考虑E名单j重报者多次登记的记录是否在普查目标总体。把这种情形下的正确登记概率记为右上角的pop是population的缩写,表示普查目标总体(简称总体)。对E名单中的j重报者,为在普查目标总体的登记次数。

(3)

式(1)的分别表示普查多报率估计量、普查登记人数估计量、普查正确登记人数估计量、普查多报估计量。we,j为E名单j人的抽样权数,j人指E名单中的任意一个人。如果不存在无答复及对样本小区人口100%抽样,we,j等于所在样本小区抽样权数。Se为E名单人口集合,Pce,j表示E名单j人在普查中的正确登记概率。E名单由人口普查时在普查表中登记的普查标准时点上填写了姓名及至少两个人口统计特征的人口构成。与E名单对应的一个概念是P名单,即在质量评估调查时通过回忆由居民户户主或其他熟悉情况的家庭成员填写的普查标准时点上的人口登记名单。

情形3:考虑E名单j人的登记是否在研究范围。把这种情形下的正确登记概率记为右上角的loc是location的缩写,表示登记位置。对E名单j重报者的正确登记概率为在研究范围的登记次数。

在我国社会经济不断发展的背景下,新农村建设项目成为了人们关注的重点。在农村建设的过程中,村庄的外貌等成为了建设的重要内容。农村建设要重点关注村庄的环境,还要关注乡村的具体特点。现阶段,我国的乡村地区建设的过程中缺乏合理和科学的规划指导,在具体实践的过程中衍生出了比较多的问题。这不仅不能进行合理的建设,也会出现资源的浪费,最终影响了农村的可持续发展。

(4)

治疗组40例患者,直接PCI治疗中8例出现再灌注心律失常(20.0%);对照组39例患者中20例发生再灌注心律失常(51.3%);两组患者再灌注心律失常发生率,差异有统计学意义(P<0.05),见表1。

(5)

2.总体普查重报率估计量。它为重报人口数与普查登记人口数之比:

(6)

式(6)中,表示重报估计量,Duplicate表示重复,Se为E名单人口集合,PDuplicate,j为j人重报率。IDuplicate,j为示性函数,即如果j人是重报者,那么IDuplicate,j=1,否则为零。如果j人登记2次,那么PDuplicate,j=1/2;如果j人登记3次,那么PDuplicate,j=2/3。

情形1:即不考虑登记是否在普查目标总体及研究范围。把这种情形下的普查正确登记概率记为右上角的s是simple的缩写,表示简单情形,右下角的ce是correct的缩写,表示普查正确登记。

绿色矿山评价等级集合主要是对评级指标中各级指标进行定性描述,本文中将评价指标分为五个等级,对应的评价等级集合V={v1,v2,v3,v4,v5}={优秀,良好,合格,较差,很差}。

(7)

(8)

4.总体和区域的普查多报率及重报率的抽样方差估计量。在构造普查多报率或重报率估计量后,还要建立其抽样方差估计量。式(1)、式(6)、式(7)和式(8)属于复杂估计量,抽样方差通常使用分层刀切估计量或泰勒扩张估计量计算[18]。分层刀切估计量优势是容易理解,在西方国家政府统计部门组织的人口普查质量评估中应用广泛。中国国家统计局迄今尚未使用分层刀切估计量构造重报率的抽样方差估计量。然而,分层刀切估计量也有明显的缺陷,即样本普查小区复制权数及总体参数估计量的复制估计量的计算量大。复制次数等于第一重样本小区数目。每复制1次,就要计算一组第一重样本普查小区的复制权数,以及据此计算一组总体参数复制估计量。在大规模人口普查质量评估抽样调查中,第一重样本规模通常很大。泰勒扩张方法能够避免分层刀切估计量的缺陷,计算量减少许多,尤其是对比率估计量的计算量减少更加明显。采用泰勒扩张估计量计算式(1)、式(6)、式(7)和式(8)的抽样方差为:

血清CRP正常组中CA19-9水平正常者中位总生存期为17.50个月(10.00~30.25),显著长于CA19-9升高者的11.50个月(6.00~17.00);CEA水平正常者中位总生存期为22.00个月(13.00~35.00),显著长于CEA升高者的11.00个月(6.00~17.00),差异均有统计学意义(P值分别为0.050、0.030)。但血清CRP升高组患者的CA19-9、CEA水平正常与否不影响患者的生存期(图2)。

(9)

(10)

(11)

(12)

在分层整群抽样下,将总体普查小区共分为H层,h=1,2,3,…,H。层h的普查小区i=1,2,…,nh。普查小区i的人口j=1,2,…,nhi。下面给出带有层号h的计算公式。定义为式(9)基于E样本集合Se的估计比率(Pce,hij的加权平均):

(13)

定义是式(10)基于E名单集合Se的估计比率(PDuplicate,hij的加权平均):

(14)

定义是式(11)基于E名单集合Se的估计比率(Pce,hijIhijd的加权平均):

(15)

定义是式(11)基于E名单集合Se的估计比率(PDuplicate,hijIhijd的加权平均):

情形4:综合考虑E名单j人的登记是否在普查目标总体及研究范围。用Ω表示由在普查目标总体和研究范围的人口构成的集合,其正确登记概率计为

在抽取样本普查小区后,收集每个样本小区的普查人口登记名单,进行入户现场调查编制质量评估调查人口登记名单。识别样本小区普查多报或重报人口的方法有4种。第一,检查样本小区的普查人口登记名单,看是否存在普查日后出生的人、普查日前死亡的人、狗和其他宠物以及重复登记的人。第二,在进行入户现场调查编制质量评估调查人口登记名单时查明是否存在同一人同时在两个地点进行普查登记的情形。第三,对本小区普查人口登记名单中的每一个人,在全国普查人口登记名单进行搜索,看能否找到与其相同的人,即重报人口。第四,比对样本小区的普查人口登记名单和质量评估调查人口登记名单,包括在本小区内部及外部比对这两份名单。比对的内容是姓名、性别、年龄、文化程度、婚姻状况等。如果某人在这两份名单的姓名及这些特征相同或绝大部分相同,就判断为匹配,即普查正确登记人口。如果比对结果是普查人口登记名单的某人为未匹配人口,即未在质量评估调查人口登记名单中找到与其相同的人,就组织个人后续调查收集新信息再次比对[17]。如果利用新信息再次比对的结果仍然是普查人口登记名单的某人为未匹配人口,并且现场核实该人实际上并不存在,就判断该人为普查多报。如果在个人后续调查期间,确认普查人口登记名单的某人是虚构的人,即普查日后出生的人、普查日前死亡的人,就判断某人为多报人口。如果普查人口登记名单中的某人在比对后为未匹配,并且个人后续调查未收集到任何用于再次比对的信息,就判断该人为普查多报人口。为便于对比对结果做出判断,在人口普查质量评估中,通常假设质量评估调查人口登记名单不存在非抽样误差。

(16)

的方差的泰勒扩张抽样方差估计量为:

(17)

采用何种方法构造普查多报估计量要考虑两个因素。第一个因素是样本普查小区的普查多报人口的数目。第二个因素是普查登记分类的详细程度。发展中国家和绝大多数发达国家通常将普查登记分为普查正确登记和普查多报登记。美国普查局将普查登记分为普查正确登记、普查多报登记、位置错误的普查登记、不足比对信息的普查登记及未数据定义人口(最多只登记姓名及一个普查项目)的普查登记。基于上述因素,选择构造普查多报估计量的方法。如果样本普查小区多报人口较多,就直接依据样本小区多报人口及其抽样权数构造总体普查多报估计量,即样本多报人口的加权和。中国在2010年人口普查多报估计中采用这种方法估计常住人口多报率、现有人口多报率和户籍人口多报率。美国和其他一些国家也是采用这种方法估计普查多报。如果样本多报人口很少甚至为零,此时虽然可以算出平均每个样本小区的普查多报人口数,但这个数往往是一个很小的数,用其推断总体普查多报人口数可能严重失真。在这种情况下,如果普查登记分类相对简单,就从普查登记人口数估计量中剔除普查正确登记人口数估计量,得到普查多报估计量。本文采用这种方法构造普查多报估计量。如果普查登记分类详细,就从普查登记人口数估计量中减去普查目标总体人口数估计量,得到普查多报估计量。其中,普查目标总体人口数估计量为“总体普查信息登记完整人口数”乘以“普查目标总体人口数线性估计量或普查信息登记完整人口数线性估计量”。普查信息登记完整是指登记了全部普查项目。

(18)

式(18)中,

(nh)。的方差的泰勒扩张抽样方差估计量为:

(19)

式(19)中,的方差的泰勒扩张抽样方差估计量为:

(20)

式(20)中,

/nh。

四、实证分析

1.样本资料。实证调查范围为重庆市南岸区,实证调查时间为2000年11月1日。数据来源于美国明尼苏达大学人口中心于1995年建立的IPUMS普查微观数据库[19]。从1995年到2017年年底,IPUMS数据库收集了中国、美国、白俄罗斯、印度、英国等85个国家的政府统计部门的约6.77亿人在301次人口普查中的微观个人记录(迄今117个国家与IPUMS签订了合作备忘录)。该数据库用于科学研究与教育研究,用户在签订数据使用协议后,可以免费使用数据。中国国家统计局在1982年、1990年和2000年向IPUMS提供1%样本普查微观数据。我们从该数据库获得了2000年重庆市南岸区1%街道或镇(层)小区的普查个人资料。样本采取分层整群抽样法抽取,抽样单位为普查小区,样本小区单位答复率为100%。样本资料如表1和表2。

表12000年重庆市南岸区街道或镇的普查小区及其样本

层号层名称层普查小区数(个)层样本小区数(个)每个小区抽样权数1铜元局街道1242622花园路街道2703903南坪街道40041004海棠溪街道2703905龙门浩街道1382696弹子石街道1102557大佛段街道1102558黄桷垭镇1602809南坪镇14827410涂山镇16028011鸡冠石镇5822912南山镇2621313峡口镇7023514长生桥镇 16028015迎龙镇8024016广阳镇88244合计 -2 37236-

表2样本小区普查登记结果

层号层名称样本小区小区权数样本小区人数(人)普查匹配人数(人)虚构人数(人)登记2次人数(人)登记3次人数(人)1铜元局街道A162245239132A2622502420532花园路街道A390260254132A490230225122A5902402322333南坪街道A6100270260235A7100265258232A8100255250122A91002402352124海棠溪街道A1090220215221A1190270262332A12902402324225龙门浩街道A1369240232332A14692502462116弹子石街道A1555260255122A16552402351137大佛段街道A1755250246121A18552452400238黄桷垭镇A1980245239222A20802502432329南坪镇A2174260252332A227423022612110涂山镇A2380250243034A248024524012211鸡冠石镇A2529255253110A262925024602212南山镇A2713230225122A281324023521213峡口镇A2935240236112A303525024531114长生桥镇 A3180260255122A328024023612115迎龙镇A3340250245122A344025625022216广阳镇A3544250246211A3644260254231

2.总体和区域的普查多报率及重报率计算。根据式(1)、式(6)、式(7)和式(8)及表2样本数据,得到总体及各个区域(在这里指每一层)普查多报的估计结果,具体见表3。

从表3可以看出:第一,估计的总体普查多报人数为9 795人,即估计的普查登记人口数589 670人与估计的普查正确登记579 875之差,估计的总体普查多报率为1.66%,即估计的普查多报人数与估计的普查登记人数之比,估计的总体重报5 990人,即在普查登记中有5 990人被重复登记过,估计的总体重报率1.02%,即估计的重报人数5 990人与估计的普查登记人口数589 670人之比;第二,从每一层(区域)来看,海棠溪街道的普查多报率最高(2.17%),说明该街道普查多报问题最为严重,而铜元局街道的重报率最高(1.48%),表明该街道重报最为严重。第三,各层的普查多报率及重报率差异较大,表明各层的普查登记质量不同。

表3总体及各层普查多报及重报估计值

层号层名称普查登记人数(人)正确登记人数(人)普查多报人数(人)重报人数(人)多报率(%)重报率(%)1铜元局街道30 69030 1735174531.681.482花园路街道65 70064 5601 1407831.741.193南坪街道103 000101 1171 8831 1801.831.144海棠溪街道65 70064 2751 4256122.170.935龙门浩街道33 81033 1896212761.840.826弹子石街道27 50027 1243762641.370.967大佛段街道27 22526 9133122591.150.958黄桷垭镇39 60038 8677334161.851.059南坪镇36 26035 6316293331.730.9210涂山镇39 60039 0006005201.521.3111鸡冠石镇14 64514 534111810.760.5512南山镇6 1106 01793551.520.9013峡口镇17 15016 9052451051.430.6114长生桥镇40 00039 5204803201.200.8015迎龙镇20 24019 9333071881.520.9316广阳镇22 44022 1173231451.440.65合计 -589 670579 8759 7955 9901.661.02

3.总体普查多报率及重报率的抽样方差计算。在得到了普查多报率及重报率估计值后,利用式(17)~式(20),以及表1、表2和表3数据,计算式(1)、式(6)、式(7)和式(8)的抽样方差估计值。计算结果为:总体普查多报率1.66%(即每100人中有1.66个人不应该在普查中登记)的抽样标准误差为0.000 813 14(0.000 000 661 20的平方根),而总体重报率1.02%(即每100人中有1.02人在普查中重复登记过)的抽样标准误差为0.039 2(0.001 536 641的平方根)。需要了解抽样误差计算内容的读者请和作者联系。

4.区域的普查多报率及重报率及抽样方差计算。使用式(7)和式(8),以及式(19)和式(20)计算区域的普查多报率及重报率,以及它们的抽样标准误差。计算结果为:铜元局街道的普查多报率及普查重复率的估计值分别为1.68%和1.48%,其抽样标准误差分别为0.001 184 900和0.003 282 970,即估计的多报率及重报率分别与其实际平均相差0.118%和0.328%。在概率把握程度为95.45%情况下,铜元局街道普查多报率及重报率所在置信区间分别为1.269%~1.916% 和0.824%~2.136%。无论是铜元局街道,还是南岸区街道总体,普查多报率的估计精度均高于普查重报率。这表明,在不考虑非抽样误差的情况下,样本对普查多报率指标有更好的代表性。所有国家在人口普查质量评估中所估计的不同指标的估计精度均存在差异。

五、结论与建议

应该充分重视普查多报及重报调查。认为普查多报或重报研究意义不大这一观点不仅与现实相违背,而且会阻碍普查多报估计理论发展,对人口普查质量评估工作造成困扰。

目前,国家教师资格考试整体框架初步形成,一致性是反映国家教师资格考试(数学学科)大纲是否落实,教师资格改革是否有效推进的一个量化参考指标,如果得到命题人员和考试管理部门的重视,那将是一个有力证据.

估计普查多报率及重报率需要解决三个问题。一是普查登记位置与普查多报人口认定的关系;二是重报者正确登记概率的估计;三是重报率的估计。对第一个问题,为了避免普查多报人口虚增,只要某人在普查中登记在质量评估调查研究范围内,并且未发现其他登记错误,就当作普查正确登记。对第二个问题,如果没有收集到重报人口的哪个记录是基本记录(普查正确登记),哪个记录是重复记录,就采取简单算术平均法计算正确登记概率。如果收集了相关信息,就根据信息决定重报人口的正确登记概率为1或零。对第三个问题,用估计的在普查中重复登记过的人数除以普查登记总人口数,得到重报率估计值。建议中国在2020年普查多报估计中将多报认定区域由目前的普查小区扩大到全国各省份,对多报中的重报人口引入正确登记概率变量。

普查登记中不只会发生重报,还会发生其他普查多报。如果普查多报估计量只是包括重报,必然低估普查多报,掩盖本次普查登记中的其他问题。为了全方位、多角度研究普查多报,应当分别估计普查多报率、重报率、其他多报率。中国自1982年起只估计重报率,建议中国政府在2020年构造普查多报率估计量、重报率估计量和其他多报率估计量。

普查多报估计的对象既可以是全国的总人口及不同类别人口,也可以是省、自治区、直辖市的总人口及类别人口。中国在每次人口普查质量评估工作中只是估计全国总人口的重报率。建议以后将普查多报估计对象扩大到全国各省份的城乡人口、不同文化程度人口、不同民族人口。为提高不同区域、不同类别人口普查多报率的估计精度,要确保各个区域、各类人口的样本规模。

参考文献:

[1] 胡桂华,武洁.人口普查质量评估理论与实践[M].北京:中国社会科学出版社,2016:9-10.

[2] Mary H Mulry,Bruce D Spencer.Developing an Error Structure in Components of Census Coverage Error[R].Washington:U.S.Census Bureau,2010.

[3] U.S.Bureau of the Census.Accuracy and Coverage Evaluation of Census 2000:Design and Methodology[M].Washington:U.S.Census Bureau,2004:106-108.

[4] Mary H Mulry,Donna K Kostanich.Framework for Census Coverage Error Components[R].Washington:U.S Census Bureau,2006.

[5] United Nations Secretariat.Post Enumeration Survey Operational Guidelines[R].New York:United Nations Statistics Division,2010.

[6] 乔晓春.从“主要数据公报”看第五次人口普查存在的问题[J].中国人口科学,2002(4).

[7] Vincent Thomas Mule Jr.U.S.Census Coverage Measurement Survey Results[R].Washington:U.S.Census Bureau,2012.

[8] U.S.Census Bureau.Accuracy and Coverage Evaluation of Census 2000:Design and Methodology[R].Washington:U.S.Census Bureau,2014.

[9] Uganda Bureau of Statistics.Post-Enumeration Survey:2002 Uganda Population and House Census[R].Entebbe:Uganda Bureau of Statistics,2005.

[10] Statistcs South Africa.Census 2011 Post-enumeration Survey:Results and Methodology[R].Pretoria:Statistics South Africa,2012.

[11] 冯乃林,李希如,武洁,等.人口普查的事后质量抽查[R].北京:国家统计局人口和就业统计司,2012.

[12] Statistics Canada.Census Technical Report:Coverage[R].Ottawa:Statistics Canada,2015.

[13] 胡桂华.人口普查覆盖误差估计方法综述[J].统计与信息论坛,2013(9).

[14] 胡桂华,孙晓宇,康颖,周婷婷.人口抽样调查方案设计研究[J].徐州工程学院学报,2017(4).

[15] 金勇进,张喆.抽样调查中的权数问题研究[J].统计研究,2014(9).

[16] 郝一炜,金勇进.经济社会调查中的空间平衡抽样设计[J].统计与信息论坛,2018(11).

[17] 胡桂华,周婷婷,杜艾卿.人口普查质量评估中的比对误差研究[J].统计与信息论坛,2017(10).

[18] Wolter K M.Introduction to Variance Estimation[M].New York:Springer,Academic Press,1985:50-70.

[19] Meier A,McCaa R,Lam D.Creating Statistically Literate Global Citizens:The Use of IPUMS-Internal Integrated Census Microdata in Teaching[J].Statistical Journal of the IAOS,2011,27(3).

EstimationforErroneousCensusEnumerationsandDuplicates

HU Gui-hua,WU Ting, LIAO Jin-peng,YU Lu

(School of Mathematics and Statistics,Chongqing Technology and Business University,Chongqing 400067,China)

Abstract:The census inevitably produces erroneous census enumerations,including duplicates and other erroneous enumerations.The objective for constructing erroneous enumeration estimators and duplicate estimators are proposed,for the problem of some governmental statistical departments only estimate total erroneous enumerations or duplicates in erroneous enumeration estimations.In order to achieve the goal,literature interpretation,on-site investigation and sampling estimation are combined to study the identification standards for erroneous enumeration populations and duplicate populations,the statistical caliber of duplicate populations,relationships between the estimation methods and the amount of erroneous enumerations in sample,the construction of erroneous enumeration estimator and its sampling variance estimator based on the theory of finite population probability sampling and erroneous census enumeration estimation.An empirical analysis is conducted by census micro-database established by Population Center of Minnesota University.The results show that,the estimators of erroneous census enumeration rate and duplicate rate are proper with the quality of census registration.Taylor expansion method is suitable for calculating sampling variances to fully understand erroneous enumerations and duplicates enumerations in the census.It is also necessary to estimate the total erroneous enumerations besides the duplicate estimations,in order to gain a comprehensive understanding in census.The view of duplicate estimations in census doesn't matter is not only inconsistent with reality,but also interferes with the census works.

Keywords:census; quality evaluation survey; sampling design; census registration correctly

收稿日期:2018-12-16;修复日期:2019-06-18

基金项目:重庆市社会科学规划重大委托项目《人口普查质量评估前沿理论研究》(2016WT03);重庆高校人文社会科学研究重点项目《人口普查多报漏报估计研究》(17SKG088);重庆工商大学2017年度科研平台开放课题《我国生育多胎孩子家庭数目估计研究》(KFJJ2017067);重庆工商大学教育教学改革研究项目《抽样调查教材难点内容解读》(2019307)

作者简介:胡桂华,男,湖北武汉人,经济学博士,教授,研究方向:人口普查质量评估。

中图分类号:O212.2

文献标志码:A

文章编号:1007-3116(2019)08-0104-09

(责任编辑:李 勤)

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

胡桂华:人口普查多报及重报估计论文
下载Doc文档

猜你喜欢