摘要:针对传统人口普查面临的数据获取成本高、数据获取质量低、普查对象负担重等现状,明确提出由综合运用行政记录大数据资源和专门组织的调查数据资源的“组合模式”人口普查替代传统人口普查的设想。为此,以西班牙2011年人口普查为例,解析“组合模式”人口普查的实施框架和实施步骤,归纳了“基于普查前文件形成人口统计信息的初估计”“基于建筑物普查实现地理信息的更新”“围绕抽样调查完成详细特征信息的获取”以及“引入计数因子进行确定人口数的估计”四条成功经验。为进一步推动我国人口普查向“组合模式”人口普查迈进提出了若干建议。
关键词:行政记录;组合模式;建筑物普查;计数因子;西班牙人口普查
一、引言
综观各国的人口普查实践,人口统计信息大致源于两类资源。一类是调查数据源,是指通过专门组织的普查或抽样调查,借助问卷、填报、邮件、面访、观察、计算机辅助采访等方式获取的调查数据;一类是行政记录源,是指政府部门在日常行政管理过程中,借助登记、报告、行政许可审批、检查等方式收集和存储的包含人口信息的行政记录大数据。对应地,人口普查便可区分为具有显著差异的三类模式:以调查数据源作为唯一人口统计信息来源的传统模式(简称“传统模式”人口普查)、综合调查数据源和行政记录源获取人口统计信息的组合模式(简称“组合模式”人口普查)、以行政记录源作为唯一人口统计信息来源的完全模式(简称“完全模式”人口普查)。
小意你好,我是一个活泼开朗的男生,我感觉我在班里人缘很不好,同学们开生日派对从来没有我的事。也有同学邀请我周末一起玩,可刚好我那个时候又没时间。我也想和他们一起玩,促进关系呀!
1990年以来,全世界的人口普查实践遵循着“传统模式→组合模式→完全模式”的演化路径。以欧洲国家为例,在1990年左右开展人口普查的36个国家中(简称为“1990轮人口普查”),除挪威开展“组合模式”人口普查、丹麦和芬兰开展“完全模式”人口普查之外,其余国家均开展“传统模式”人口普查。在2000轮人口普查中,荷兰、西班牙、拉脱维亚等6个国家的人口普查由“传统模式”转向“组合模式”,挪威则由“组合模式”转向“完全模式”[1]。在2010轮人口普查中,开展“组合模式”人口普查的国家增至12个,开展“完全模式”人口普查的国家也扩展至6个*需要说明的是,在2010轮世界人口普查中,法国开展基于抽样调查获取人口统计信息的“轮换模式”人口普查。捷克、爱沙尼亚、意大利、立陶宛和波兰5个国家的人口普查由“传统模式”转向“组合模式”,斯洛文尼亚由“组合模式”转向“完全模式”,奥地利则直接由“传统模式”转向“完全模式”。[2]。据此,将行政记录大数据资源融入人口普查,开展“组合模式”人口普查或“完全模式”人口普查是改革“传统模式”人口普查的必然之选。对于长期实施“传统模式”人口普查且行政记录资源尚未足以满足“完全模式”需求的国家而言,“组合模式”人口普查无疑是创新首选。
新中国成立以来,我国分别于1953、1964、1982、1990、2000和2010年组织实施了六次人口普查。第七次全国人口普查将于2020年开展。动态考察前六次人口普查,尽管普查内容不断完善、普查方法逐渐合理、普查技术逐步提高,但调查模式均属于“以调查数据源作为唯一来源”的“传统模式”。然而,随着个人信息保护意识的增强和人口迁移流动频率的提高,普查对象的锁定难度、人口信息的获取难度和普查投入成本均不断增加,同时,广大用户对人口信息的数量、质量、时效等方面的要求与日俱增,基于“传统模式”人口普查获取的人口统计信息越来越不能满足广大用户的需求。我国“传统模式”人口普查的供需矛盾日益凸显,亟待进行改革创新。
为此,相关学者基于“传统模式”人口普查前提对完善我国人口普查实践提出了较多重要的改进思路。如陈培培和金勇进提出完善我国人口普查数据质量评估的若干措施[3],胡桂华等基于人口普查中现有多报人口估计量的缺陷,提出构造新估计量的设想[4]。同时,国内学者已逐渐认识到应用行政记录资源对人口普查的重要作用,提出了较多有见地的观点。如刘建平和陈东进提出将行政记录资源纳入官方统计的实践理论[5],方越峦和刘建平等学者探讨了行政记录应用于政府统计的渠道与方式[6],胡桂华提出综合使用行政记录数据和抽样调查数据,设计我国调查失业率估计的抽样方案[7]。另外,少数研究如徐蔼婷和杨玉香涉及到对基于行政记录人口普查的初步认识[8]。然而,专门探讨“组合模式”人口普查方法的文献仍较为鲜见,涉及具体国家实施“组合模式”人口普查经验解析的文献更为匮乏。
上帝的四个惩罚:第一,蛇用肚皮爬行,是真的,但是“终生以尘土为食”则是假的,只有蚯蚓才是以泥土为食,并且靠肚皮爬行,蛇是吃肉的;第二,女人与男人为敌,也不是全部,有了爱情,两者就是相爱的关系;第三,女人怀孕和分娩的痛苦,是真实的,但是原因却是生理上的;第四,农业劳动的辛苦也是现实的,劳作的辛苦在逐渐被人类自己用机械化、电气化减轻,但是原因也是生存必需的,是大自然强迫的。由此可以说,上帝就是大自然。
作为额外增加的调查,建筑物普查尽管在一定程度上增加了调查成本,却是“西班牙组合普查”不可或缺的组成部分。大体来看,建筑物普查具有三项功能:一是获取更为精准的地理信息。PCF可以提供部分建筑物和住宅信息,却未覆盖近期新建、拆除的建筑物以及无法定位的建筑物的具体信息。通过建筑物普查,INE可以获取该部分建筑物的地理坐标、特征信息和住宅特征信息。二是提供更为精准的抽样框。由PCF中住宅、建筑物信息形成的抽样框尚未包括一定比例的应登记却未登记的建筑物,相应地,基于此抽样框开展的大型抽样框的信息准确性亦会受到一定程度的影响。开展建筑物普查为大型抽样调查提供了更为精准的建筑物分布地图,满足了建筑物信息可视化呈现的要求,提高了抽样调查信息的准确性。三是形成进一步的数据质量评估。建筑物普查能作为人口普查信息的一个补充渠道直接获取较广泛且质量相对较高的统计信息,更能通过普查信息与行政记录信息的比对,获得较可靠的未涵盖误差信息和过涵盖误差信息,对基于行政记录调查形成的统计信息予以质量检验。
二、“西班牙组合普查”的基本框架
2011年,INE基于《政府统计法》《数据保护法》和《公共统计服务法规》三大法律条款,组织实施了西班牙历史上的第18次人口普查。普查标准时点为2011年11月1日零时。“西班牙组合普查”的调查对象分为两部分,人口普查的调查对象是“所有在西班牙领土内拥有常住地的人口,而不论居民的国籍”,住宅普查的调查对象是“所有在西班牙领土内供居民居住使用的建筑物,而不论其本身原有用途”[12]。作为人口普查与住宅普查的结合体,西班牙组合普查不仅获取全国和各自治区的人口数量和结构信息,还获取住宅和建筑物的地理坐标信息、数据特征信息。普查内容涉及个人信息、核心家庭和家庭结构信息、住宅特征信息、建筑物特征信息四方面:个人信息,如人口基本特征信息、教育特征信息、经济活动特征信息、流动性特征信息、相关人口信息、无酬任务信息等。核心家庭和家庭结构信息,如个人关系特征信息、夫妻特征信息、家庭特征信息等。住宅特征信息,如居住住宅类型、家庭住宅传统类型、可用面积、人均居住面积、卧室个数、人均卧室个数、供热类型、是否带有浴室、是否带有浴缸或淋浴、互联网接入情况、供水情况、住宅所有权、人员构成(根据住宅类型)等。建筑物特征信息,如基于建筑物类型的住宅类型、建筑物施工时期、建筑物地上楼层数、建筑物地下楼层数、建筑物内的住宅数、建筑物状态、建筑坐标、电梯、车库的可用性、车库中的车位数量、供气、电话连接、中央热水、污水处理系统类型等。详细如表1所示。
表1 “西班牙组合普查”基本情况[注]有关人口普查变量的详细分类详见:Instituto Nacional De Estadistica,Demographic Census Project 2011,Subdirectorate-General for Statistics on the Population February 2011.e.es/en/censos2011/censos2011_proyecto_en.pdf
普查名称普查标准时点普查对象主要普查内容西班牙人口普查2011年11月1日零时所有在西班牙领土内拥有常住地的人口个人信息(1)人口基本特征:性别、出生日期、年龄、婚姻状况、出生地、父亲出生地、母亲出生地、国籍、常住地、现存家庭人口数、活产儿童数(2)移民特征:迁入西班牙时间、迁入自治区时间、迁入现居市时间、迁入现住宅时间、一年前居住地、现居住地和1年来的居住地清单、10年前居住地、现居住地和10年来的居住地清单(3)教育特征:教育水平、完成学习类型、目前学习、未成年人教育(4)经济活动特征:当前经济活动状态、职业、创业活动、职业地位(5)流动性特征:工作或学习场所、上班或上学最常用的交通工具、每次上班或上学的平均时间、每次上班或上学的平均行程(6)相关人口信息:相关人口、待在另一城市、逗留最长时间城市和国家的确认、在该市逗留的天数、该市的第二处住宅(7)无酬任务信息:未成年人照顾、照顾病患、其他义工和志愿活动、负责大部分家务劳动核心家庭和家庭结构信息(8)个人关系特征:与父亲同居、与母亲同居、与配偶或伴侣同居、与其他亲属(子女、兄弟姐妹等)同居(9)夫妻特征:夫妻同居(10)家庭特征:核心家庭成员情况、核心家庭结构、核心家庭规模、住户成员情况、住户结构(私有)、住户规模(私有)所有在西班牙领土内供居民居住使用的建筑物住宅特征信息(11)居住住宅类型、家庭住宅传统类型、可用面积、人均居住面积、卧室个数、人均卧室个数、供热类型、是否带有浴室、是否带有浴缸或淋浴、互联网接入情况、供水情况、住宅所有权、人员构成(根据住宅类型)建筑物特征(12)基于建筑物类型的住宅类型、建筑物施工时期、建筑物地上楼层数、建筑物地下楼层数、建筑物内的住宅数、建筑物状态、建筑坐标(13)建筑可及性、电梯、车库的可用性、车库中的车位数量、供气、电话连接、中央热水、污水处理系统类型
西班牙组合普查拓展了“行政记录调查+抽样调查”的一般框架[注]各国开展抽样调查的形式各异、目的不一。如以色列借助区域抽样调查和行政家庭抽样调查两个较大范围的独立抽样调查获取人口统计信息;瑞士开展年度结构调查、年度主题调查和年度综合调查三项抽样调查获取住宅、家庭等主题的详细信息;德国通过建筑物和住宅抽样调查、特殊建筑物抽样调查收集住宅和行政记录无法提供的其他人口信息;拉脱维亚组织人口抽样调查收集人口教育信息、专业技能和职业方面的信息,并纠正行政记录错误信息。总体来看,它们都将抽样调查作为人口统计信息补充、修订、校准的唯一方式,围绕“行政记录+抽样调查”的一般框架评估和发布最终的人口统计信息。,形成了“行政记录调查+抽样调查+建筑物普查”的“组合模式”人口普查实施框架,即综合使用行政记录数据源、抽样调查数据源和普查数据源获取人口统计信息。西班牙组合普查的基本框架如图1所示,其实施步骤大致可归为五步。第一步,行政记录调查的设计与实施。INE在梳理现有行政记录信息的基础上,选择了城市登记、住宅登记、社会保障登记等12个行政记录、2001年人口与住房普查数据库和2010年生命统计数据库两项统计数据库形成了一个普查前文件(Pre-census File,简称PCF)。进一步地,INE基于PCF获取大部分的人口统计信息并形成对人口总数的初步估计。第二步,建筑物普查的设计与实施。依据地图信息,西班牙建筑物普查分可定位建筑物和不可定位建筑物分别展开。普查过程中,普查员不仅需要采集建筑物地理坐标信息,同时还需对道路、支架、建筑物内的房地产等每个部分的信息予以校对。覆盖全部领土范围的建筑物普查为大型抽样调查提供了一份由PCF未包含的建筑物形成的抽样框。由此,大型抽样调查中来源于PCF和建筑物普查的两个抽样框形成。第三步,抽样调查的设计与实施。西班牙大型抽样调查基于PCF和PCF未登记的住宅形成的“抽样框A”、“抽样框B”,采用系统抽样和等概率抽样方式获取样本。经过大型抽样调查,INE获得了更为详细的人口、家庭和住房特征信息。第四步,行政记录调查与抽样调查的信息匹配与对接。INE基于三部分信息的交叉程度和重叠关系,根据一定的规则将三部分信息合成,进而形成全部人口普查信息的获取与估计。INE将来自于行政记录调查、建筑物普查和抽样调查获取的信息存储于一个共同的数据仓库系统中,以避免多来源数据导致的数据不一致问题的产生。第五步,人口数据质量评估与数据发布。尽管INE没有明确公布“西班牙组合普查”的详细质量评估方法,但Rodero-Cosano等基于自治区视角将西班牙2011年的人口普查结果分别与人口行政记录信息、基于不同数据源[注]涉及的数据库包括:人口普查数据库(2001年人口普查和2011年人口普查);市(自治区)居民行政登记记录库(2002—2012);基于出生和死亡统计的营养平衡数据库(2002—2011);居民变化统计数据库(2002—2011)。的人口总预测结果进行了比对[13]。结果显示,基于该模式取得普查结果数据质量相对较高,普查成本也相对较低。
尽管津巴布韦农业部无法立即提供一个市场更新要求,但根据之前数据表明,津巴布韦国内大约有40家农业化学企业,其中一些企业参与了近450种不同农产品的配方和销售。
图1 “西班牙组合普查”的整体框架
三、“西班牙组合普查”的成功实施经验
当对第i组所有怀疑人数分配相同的计数因子(CFi)时,第i组人口总数的估计值为:
(一)基于普查前文件形成人口统计信息的初估计
值得一提的是,PCF对人口数的估计并没有停留在一个简单的人口总数数据上,INE将总人口分为确定人口、错误人口和怀疑人口三部分,分别计数。其中,确定人口是指通过相关行政记录的充分证据表明其属于人口普查对象范围“没有任何怀疑”的常住居民;错误人口是指通过相关行政记录的充分证据表明其不属于人口普查对象范围而“需要排除”的居民;怀疑人口是指没有充分证据表明其是否属于人口普查对象范围的居民。
PCF由个人文件和领土文件构成,以连续行政记录(Continuous Register,简称PADRON)[注]PADRON也可被称为模糊市居民行政登记记录(Municipal Register of Inhabitants Indistinctly)。为基础,经其他行政登记记录与统计数据的补充链接形成。具体地,INE基于“单位准匹配”[注]所谓“单位准匹配”是指行政记录登记单位类型与人口普查统计单位基本对应。一般地,人口普查的统计单位是“每一位常住居民”,那么所有以“居民个人”为登记单位类型的行政记录均符合成为基于行政记录人口普查信息来源的要求,如“每一位有收入的居民”、“每一位在校生”,“每一位失业者”等等。原则选择了城市登记、住宅登记、社会保障登记、税收登记、就业登记、失业登记、出生登记、死亡登记、婚姻登记、电力消耗登记、地籍和身份证数据库等多种行政记录,亦选择了2001年人口与住房普查数据库和2010年生命统计数据库两项统计数据库。不同人口行政记录数据与PADRON之间主要径由全国身份证号码(Number of the National Identification Card,简称NNIC)、外国人身份识别码 (Foreign National Identification Number,简称FNIN)和替代识别码(Alternative Identifiers,简称AI)实现链接[注]为提升行政记录的被识别性,INE实施了一个专门用来确认行政记录识别码的“纵向人口研究项目”。项目对所有涉及西班牙人和外国人的行政登记记录实施了识别码(NNIC、FNIN)确认程序。对未得到确认的行政记录,项目基于确定方法和概率方法,借助名字、姓氏、出生日期等其他标识字段执行一个搜索替代识别码程序。。鉴于PADRON中的领土记录主要根据2001年的人口和住房普查数据调整,2001之后年份建造的建筑物和之后年份才供人居住的建筑物信息便较少涉及[注]西班牙2001年人口和住房普查涉及的建筑和住宅仅针对有人居住的。。INE主要选择了土地登记记录、地籍和身份证数据库两类行政记录,对PADRON信息予以补充,以形成一个较准确的建筑物和住宅目录清单。由此便形成了一个普查前文件,对人口总数进行初步估计并提供部分人口变量信息、建筑物信息等多项信息[12],如图2所示。
INE认为,与传统人口普查模式相比,2011年西班牙组合普查优势明显[14]:一是参与调查的工作人员大幅减少,调查成本大幅降低。传统普查70%的调查成本与工作人员的数量相关,而所有参与2011年人口普查数据搜集的人员不足5 000人,这不仅便于对工作人员的管理和培训,更能节省大笔的人员开支,大幅度降低普查成本;二是多途径的数据采集方法使得普查问卷的回答率显著上升。2011年人口普查提供了网络调查、邮寄问卷和CAPI三种数据搜集途径,提升了被调查者的回答可能性。大部分年轻人和不希望受时空限制的被调查者更愿意通过网络来回答问题;对新技术“不感冒”或者家里没有网络的人,邮寄问卷调查可能是更好的数据搜集方式;对于完成普查有困难的居民来说,普查员手持计算机设备进行面访调查将确保较高的回答率。三是多手段的数据质量控制手段使得普查的质量明显改善。如将核查程序引入人口普查数据采集阶段,在一定程度上提高了人口普查的数据质量;允许新行政记录管理系统在运行过程中纠正系统的固有误差,提升了行政管理系统的灵活性;详尽及几乎同时的信息比对将更易对人口信息变化的一致性进行验证。
图2 PCF构成与提供的信息
行政记录调查的核心在于构建一个覆盖完全的记录库。由于缺乏统一管理,西班牙存在大量分级管理的“市(自治区)级”人口行政记录,却缺乏统一管理的中央人口行政记录,加之各“市(自治区)级”人口行政记录5年一次的更新频率,这在一定程度上制约着西班牙“组合模式”人口普查的实施进程。INE在综合分析其人口行政登记记录资源“散、慢”特征的基础上,实施了以PCF为起点开展的行政记录调查。
(二)基于建筑物普查实现地理信息的更新
基于上述背景,本文尝试以西班牙2011年“组合模式”人口普查(简称“西班牙组合普查”)为例,阐释“西班牙组合普查”的实施框架,归纳其成功经验,为加快改革我国“传统模式”人口普查方法提供借鉴。之所以选择“西班牙组合普查”主要基于四方面考虑:一是西班牙组合普查的实施前提与我国的现状更为匹配。西班牙依据相关法律将原本由各自治区政府独立管理的市(自治区)居民行政登记记录转变为由各自治区政府和国家统计局联合管理的连续行政记录,可为人口普查提供姓名、常住地、全国身份证号码等多项人口基本信息。正是基于此,西班牙统计局(Instituto National de Estadisticia,简称INE)决定将人口行政记录信息运用于人口普查。反观我国,由公安、计生、教育等部门分头管理的户籍登记、出生登记、学籍登记等行政登记记录被集成于国家人口基础数据库中,为“组合模式”人口普查的开展奠定了基础,这与“西班牙组合普查”的实施前提较为类似。二是以传统调查为主、行政记录调查为辅的西班牙组合普查对我国“传统模式”人口普查的首次转变更具借鉴意义。西班牙组合普查的行政记录源仅为人口普查提供人口总数的初步估计,普查所涉及个人、家庭结构、住宅特征、建筑物特征等信息仍由两类调查数据源提供。相较于荷兰以行政记录源为主要信息源的组合模式人口普查,西班牙组合普查呈现出对行政记录源较低程度的依赖,这与我国行政记录源尚且无法覆盖就业状况、教育水平、住房条件等一系列人口普查变量的现状更为吻合。三是西班牙组合普查中的部分抽样技术可为我国“组合模式”人口普查的开展提供明确可行的指导。西班牙引入计数因子进行确定人口数的估计、建筑物普查实地调查路线设定等抽样技术基本适用于我国开展抽样调查对人口总数进行校准、对建筑物信息进行更新等。四是西班牙拥有更为丰富的“组合模式”人口普查实践经验。较之德国、以色列、土耳其等国,西班牙于2001年、2011年两次开展“组合模式”人口普查,积累了相对成熟的实践经验[9-11]。
为方便地理信息的实时参考,建筑物普查员将随身携带地图和电子路线笔记本。地图便于对建筑物的邮寄近似地址进行定位,亦可展示相关的字母数字信息。电子路线笔记本将提供一份有关领土元素的字母数字识别数据清单,也将提供一份有关建筑物内的房地产清单。普查员的实地考察路线遵循邮寄近似地址的字母数字信息目录(已被设计成一个软件)制定。对于那些可被定位的建筑物,普查员将采集其地理坐标信息;对于那些不可定位的邮寄近似地址,普查员则基于地图信息制定考察路线并进一步采集建筑物的地理坐标信息。在实地调查中,普查员应当基于不同的领土水平对普查每个部分的信息予以验证,如总体单位、道路、支架、邮寄近似地址、建筑物和建筑物内的房地产,补充行政记录尚未登记的建筑物信息、调整行政记录登记的错误信息,尽力使行政记录内容与实际情况一致。同时,对于每一个建筑物,普查员将填写一份建筑物问卷,详细记录建筑物的特征信息。由4 000名普查员和900多位管理员完成的建筑物普查,不仅为大型抽样调查提供抽样框B,更针对新入样的家庭和个人实施调查,补充了大型抽样调查的内容。通过建筑物普查,INE获得了一份包含所有建筑物地理参考坐标的清单、一份所有建筑物内含房产的清单、一个大型抽样调查的抽样框B以及相关建筑物与住宅的特征信息。
三大板块中,化学工业主营业务收入5.77万亿元,同比增长10.7%,比1~8月回落0.1个百分点;炼油业主营业务收入2.91万亿元,增幅22.8%,加快0.6个百分点;石油和天然气开采业主营业务收入7175.1亿元,增速20.2%,加快1.2个百分点。
离自己的家不算太远,蒋海峰想回去看看。已经好多年不在这里生活,一切都陌生了。总有一些抹不掉的痕迹,在老墙上,在斑驳的树影中,在心里。
(三)围绕抽样调查完成详细特征信息的获取
INE设定了大型抽样调查的三项目标:获取校准因子对基于PCF的人口总数初步估计值进行校准,获取校准因子对各城市的人口数进行校准,获取较详细的人口、家庭和住房的特征信息。为此,INE将由PCF中涵盖的住宅形成的抽样框视为“抽样框A”,并将所有住宅归为可定位住宅和不可定位住宅两类[注]所谓“可定位住宅”是指那些可根据邮政地址在实地考察中进行定位的住宅,而所谓“不可定位住宅”则是指那些不存在完整地址而无法定位的住宅。。接着,所有住宅被进一步归为主要住宅和非主要住宅两类。同时,考虑到PCF提供的住宅信息并不详尽,INE组织的大型抽样调查还包括了一个来自于建筑物普查的“抽样框B”,由全国范围内应该登记而未登记的全部住宅组成。
大型抽样调查的抽样单位是住宅,由住宅中的居民构成最终样本,最终样本覆盖所有城市。为提高样本的代表性,INE根据城市规模将总体分成15层,分别对各层、各层中的“可定位住宅”、各层中的“不可定位住宅”设定了不同的抽样比。为提升抽样设计效率,INE允许各城市统计局根据需要对设定的抽样比进行小幅调整。最终,住宅的总抽样比为11.9%,样本量为3 024 276户,居民的总抽样比为12.3%,样本量为5 797 425人,住宅样本和人口样本的具体构成情况如表2所示。2011年10月,INE先后发送了220万封信给入样家庭,要求其填写人口普查问卷,被调查者亦可选择通过网络填写问卷。对于无回答的家庭,INE将进一步提醒其是否需要一份纸质问卷或需要在线帮助。只有对经多次提醒仍未合作的家庭(约50%的入样家庭),INE才派调查员上门进行面对面的计算机辅助面访调查。从操作层面看,基于抽样框A的样本采用随机起点的系统抽样方式获取,而基于抽样框B的样本则按贝努里程序分配的等概抽样方式获取[12]。
表2西班牙2011年大型抽样调查的样本构成情况
城市规模(人)住宅样本构成居民样本构成城市数量(个)城市平均住宅数(个)抽样比(%)抽样框A:可定位的主要住宅平均城市平均样本数(个)总样本数(个)城市平均居民数(人)抽样比(%)城市平均样本数(人)总样本数(人)50以下39966100100 6626 334341003413 72050-100642107100100 10768 694741007447 758100-2001 197161100100 161192 717145100145173 148200-5001 5623067046.7143223 27232563.9208324 655500-1 0001 0625635035.2198210 17071145.7325345 6531 000-2 0009269843021.8214198 5711 41426.9380352 0742 000-5 0001 0111 9052015.0287289 6723 15017.9564570 0785 000-10 0005643 8731511.6450253 6316 98413.5945532 86710 000-20 0003547 931107.7613216 92414 1709.11 287455 75720 000-50 00025216 216107.91 276321 48129 5999.22 727687 28450 000-100 0008336 706108.12 968246 33271 1839.36 591547 060100 000-200 0003371 985108.36 009198 303144 6819.313 524446 286200 000-500 00023129 220108.510 966252 211271 3639.325 191579 399500 000-1 000 0004334 616108.528 589114 355697 6249.465 328261 3131 000 000以上21 220 647108.7105 804211 6092 452 1859.4230 186460 373总计8 114--11.9-3 024 276-12.3- 5 797 425
需要注意的是,上述抽样调查并没有包含居住在酒店、宾馆、旅舍等地的流动群体以及无家可归者的人口计数。对于这些流动群体,INE于2012年1月至3月间组织了独立的调查获取人口数。具体的做法是,预先编制一个组织机构的目录,使用样本对其进行综合研究。首先在每个小组内建立一个临界值,只有当小组人数超过这个临界值的情况,才被作为样本进行调查,获取各组住户的姓名、性别、年龄、出生地、国籍、住所一年前、婚姻状况、教育程度、妇女人数、经济活动和职业地位等信息。对于无家可归者,INE同样设立了单独的研究项目获取人口数。
(四)引入计数因子进行确定人口数的估计
其中,Si表示第i组中的确定人口数,Di表示第i组中的怀疑人口数,CFi表示第i组怀疑人口数的计数因子。鉴于更偏好对确定人口数而不是怀疑人数的估计,第i组确定人口比例为:
INE通过大型抽样调查结果对基于PCF得到的总人口数初步估计结果进行校准以形成对全部人口普查信息的估计,再将源于大型抽样调查的补充数据和校准数据,同来源于PCF的行政记录调查数据共同存储于数据仓库系统中,以避免“组合模式”人口普查多来源数据的不一致性问题。具体地,PCF为INE提供总人口数的初步估计,大型抽样调查资料主要用于提供各组人口总数、确定人口数等指标的估计。
(1)
公式(1)表示总人数的初步估计。其中,表示西班牙人口总数估计值,S表示PCF中的确定人口数,D表示PCF中的怀疑人口数,CF中表示怀疑人口数的计数因子。为获取计数因子CF的估计,INE首先根据年龄、居住地、国籍特征将所有PCF划分为724个组,并确保每个组中的怀疑人口数的最小值为1 000,若某个组的怀疑人口数未达到1 000则需重新分组。据此,西班牙总人口数为各组人口数之和,如公式(2)所示:
(2)
尽管行政记录可以提供每个居民的居住地、性别、年龄等信息,但其中仍有2.2%的居民被视为怀疑人口,这是因为当前的行政记录没有充分的证据证明其在西班牙境内拥有常住地。据此,INE通过构造计数因子进而确定怀疑人口中确定人口的比例。引入计数因子对该怀疑人口进行估计是西班牙2011年“组合模式”人口普查的又一创新所在。
退费管理是医院内部控制的难点和重点。实现系统间数据互联互通后,退费控制可按照“未执行即可退费、已执行禁止退费”的原则进行设计。通过医技系统执行状态的记录和返回确认来达到控制目标,将门诊退费的选择权交给患者,将住院退费时间点控制在出院时自动比对退费。HIS系统接收退费申请时,自动查看执行状态,未执行即可退费,同时将作废信息传递给业务系统,终止执行项目。已退费的单据不再接收检查结果,无法打印报告,防止因执行与报告反馈存在时间差可能产生的舞弊或差错行为。在该种控制模式下,收费员、临床医技科室甚至患者均可执行退费操作,从而简化了退费手续,方便了患者。
(3)
考虑到怀疑人口不应被全部计入实际人口数,INE建议使用大型抽样调查结果中第i组确定人数比例对Pi进行估计,即
(4)
其中,为第i组人口总数,为第i组确定人口数。为避免对怀疑人数的低估,所有未被包括于PCF却填写了问卷的人口数计入而不计入那么基于大型抽样调查的第i组怀疑人口数的实际估计为:
(5)
西班牙组合普查的成功实施经验可归为“基于普查前文件形成人口统计信息的初估计”“基于建筑物普查实现地理信息的更新”“围绕抽样调查完成详细特征信息的获取”以及“引入计数因子进行确定人口数的估计”四方面。
(6)
(7)
(8)
其中,Si和Di源自均源自大型抽样调查。计数因子CFi可能大于1、小于1或者等于1,当CFi大于1时,便意味着该组人口被补充登记了[15]。最终估计表明,CFi平均值为0.424,PCF中1 040 000个怀疑人口中的440 000人被计入人口总数。截止2011年11月1日零时,西班牙常住居民人数约为4 6815 916人。
大家分析,A君的话之所以漏洞百出,前言不搭后语,是因为谎言太多,导致不成系统,无法自圆其说。也就是说,他给自己捏造的虚假信息太多,多得连自己都记不住。正是因为假话太多,记忆力严重超负荷,所以越发容易露出孔雀的屁股。事后,他发现自己某处说漏了嘴,为了挽回影响,又不得不搜肠刮肚编造另一通假话来掩饰。结果,他整天都生活在谎言中,成日为圆谎而忙碌而疲累而顾此失彼。这不禁使我想起很多年前某地查获的一个假官员的故事。这个假官,也是因为档案造假太多,导致自己都记不住自己是谁,后来终于因为一个细节的“疏忽”而东窗事发。
Rodero-Cosano等(2016)基于各自治区视角,对2011年人口总数普查结果与2012年市(自治区)居民行政登记记录记录数、2011年人口总数普查结果与2001年普查的理论人口预测数、2011年人口总数普查结果与2001年MRI的理论人口预测数展开异质性检验。结果表明,2011年人口总数普查结果与2012年MRI记录数更为接近,2011年西班牙人口普查取得的普查结果数据质量较高[15]。
1.1.4 灭菌情况:组织培养是一种常规无菌操作,利用细胞的全能性外加给予适宜生长的外界培养条件,通过植物组织获得整个植株的过程。而在操作过程中所使用的培养皿、接种用具、实验药剂都需要严格灭菌,否则也会造成大量污染。
四、西班牙人口普查的若干启示
西班牙先后两次开展“组合模式”人口普查,积累了丰富的实践经验,值得我国在改革传统人口普查时有所借鉴。我们认为,值得借鉴的经验主要有以下几点:
首先,以国家人口基础信息库为中心形成我国“组合模式”人口普查前文件。2017年11月17日,国家人口基础信息库竣工验收。国家人口基础信息库的建成初步实现了对我国人口基础信息的统筹管理。我们认为,国家统计局应该以“国家人口基础信息库”竣工验收为契机,尝试开展以“国家人口基础信息库”为基础,以人口出生信息登记记录、婚姻登记记录、全国中小学生学籍信息登记记录等行政记录和劳动力调查信息等统计数据库为补充的中国“组合模式”人口普查前文件。我国“组合模式”人口普查前文件的形成不仅有助于我们对当前丰富分散的人口行政记录进行梳理、更新和完善,更为重要的是,它可以为我国“组合模式”人口普查的实施奠定良好的数据基础。
由2名研究者对纳入研究文献的数据进行独立提取,确保收集资料的完整性和一致性,如遇分歧,通过讨论或交由第三位研究者裁决。采用自制Excel提取表提取资料,包括:(1)纳入研究的一般资料,包括第一作者、发表时间、样本量等;(2)纳入患者的基本情况包括年龄、性别、发病时间等;(3)阿替普酶用法用量及抗血小板药物的选择和给药剂量;(4)偏倚风险评价的关键要素;(5)结局指标和结果测量数据。
其次,以建筑物普查为辅助获取更为准确的建筑物及住户清单。INE通过建筑物普查,获得了一份包含所有建筑物地理参考坐标和一份所有建筑物内含房产的清单。这有效地降低了由于漏记、错记导致的覆盖误差。我国幅员辽阔,建筑物更新速度快,且存在很多违规房屋,不免存在漏记、多记、错记等诸多问题。因此,在开展人口普查前有必要组织建筑物普查,获取一份最新的建筑物、住宅清单,辅助后续人口普查的开展,从而最大限度地降低覆盖误差。
再者,以专项调查为依托获取行政记录调查未覆盖的人口统计信息。西班牙以PCF中包含的住宅为抽样框,综合使用分层抽样、系统抽样、随机抽样相结合的抽样方法,获得行政记录未覆盖的人口、家庭和住房等特征信息。比对我国行政记录数据资源和人口普查变量信息,不难发现,行政记录无法满足人口普查对于住房条件、就业状况等变量的信息需求。据此,可以尝试开展以国家人口基础信息库为抽样框,多种抽样方法相结合的方式获取住房条件、就业状况等变量信息。
最后,以改进人口统计指标计算方法和使用多类数据资料为途径提高输出数据质量。西班牙通过两个方面的工作提高人口统计信息质量。一方面,改进确定人口的计算方法。“西班牙组合普查”通过引入计数因子计算怀疑人口中确定人口的比例。就我国的实际而言,纵使近年来流动人口比例稍有下降,但人口的迁移流动仍然活跃,人口的重记、漏记等问题依然存在。开展主题讨论、专题研究,改进数据汇总、处理手段以及各类人口统计指标的计算方法,进一步提高人口统计数据质量;另一方面,综合使用多类数据资料获取更为可靠的数据信息。“西班牙组合普查”利用了大型抽样调查和建筑物普查两项数据资料对初步人口数据进行校准估计,有效提升了估计结果的可靠性,值得借鉴。类似地,在进行数据校准时,可考虑将行政记录数据源与其他数据源结合,如与劳动力调查数据源组合,对雇佣状态进行校准等。此外,挖掘商业交换数据、在线搜索行为数据等互联网大数据,也可构成一个新的数据来源途径。
参考文献:
[1] Kotzamanis B,Cantisani G,Dekker A.Documentation of The 2000 Round of Population and Housing Censuses in The EU,EFTA And Candidate Countries[M].Luxembourg:Office for Official Publications of the European Communities,2004.
[2] Valente P.Innovative Approaches to Census-Taking:Overview of the 2011 Census Round in Europe[M].New Youk:Statistical Methods and Applications from a Historical Perspective.Springer International Publishing,2014.
[3] 陈培培,金勇进.对我国人口普查数据质量评估的若干思考[J].现代管理科学,2014(9).
[4] 胡桂华,武洁,安军.人口普查中多报人口数的估计[J].中国人口科学,2016(1).
[5] 刘建平,陈冬进.名录库调查:基于行政记录的统计调查方法[J].统计研究,2017,34(1).
[6] 方越峦,刘建平.行政记录:政府统计不可忽略的数据资源[J].统计研究,2013,30(10).
[7] 胡桂华.我国调查失业率估计抽样方案——基于行政记录与统计调查数据来源[J].西北人口,2011,32(2).
[8] 徐蔼婷,杨玉香.基于行政记录人口普查方法的国际比较[J].统计研究,2015,32(11).
[9] Szenzenstein J.The New Method of the Next German Population Census[J].Journal of Marketing for Higher Education,2005,2(2).
[10]TATì E.Address Based Population Registration System 2007 Population Census in Turkey[C].The Conference on New Techniques and Technologies for Statistics,2009.
[11]Israel Central Bureau of Statistics.Dwelling and Building Register Based on Municipal Taxation List-Quality and Distinctiveness[R].Geneva:Economic Commission for Europe Conference of European Statisticians,2012.
[12]Instituto Nacional De Estadistic.Demographic Census Project 2011[EB/OL].e.es/en/censos2011/censos2011_proyecto_en.pdf
[13]Rodero-cosano ML,Salinas pérez JA,Carbonero-ruz M.Evaluation of the Census Error in Spain[R],European Conference on Quality in Office Statistics,Madrid,May31-June 3,2016.
[14]National Statistics Institute of Spain.A General Approach to the Importance and Use of Registers in the Spanish Census[R],Economic Commission for Europe Conference of European Statisticians,Geneva,22-23 May,2012.
[15]Argüeso A,Vega j L.A Population Census Based on Registers and A "10% Survey" Methodological Challenges and Conclusions[J].Statistical Journal of the IAOS,2014(30).
InterpretationoftheSpain“PopulationCensusCombinedUseofSampleSurveyandRegister-basedSurvey”andItsEnlightenmenttoChina
SHI Long-mei,XU Ai-ting
(Shool of Statistics and Mathematics,Zhejiang Gongshang University,Hangzhou 310018,China)
Abstract:Traditional census is facing problems of the high cost of data acquisition,the low quality of data acquisition,the heavy burden of the census object and so on.In view of this phenomenon,this article explicitly put forward the idea of substituting "Population Census Combined Use of Sample Survey and Register-based Survey" for traditional census,which combines the administrative register data resources and the sampling survey data resources of specialized organization.Accordingly,take Spain's 2011 census as an example,we parsing the framework and implementation steps of the "Census Combined Use of Sample Surveys and Register Data".And we summarize four successful experience,which is "estimating the demographic information based on Pre-census File","updating the geographic information based on the buildings census","obtaining the detailed information based on the sampling survey" and "estimating the number of population based on the count factor".Further,this paper puts forward some suggestions to promote the traditional census to "Census Combined Use of Sample Survey and Register-based data".
Keywords:administrative register; Census Combined Use of Sample Surveys and Register Data; Building survey;doubt factor; Spainish Census
收稿日期:2018-10-12;修复日期:2018-12-02
基金项目:国家社会科学基金项目《研发卫星账户编制方法与应用研究》(17ATJ001);国家统计局项目《基于行政纪录的人口普查方法研究》(2018LD07);浙江省一流学科A类(浙江工商大学统计学)
作者简介:
史龙梅,女,安徽芜湖人,博士生,研究方向:政府统计方法与宏观经济统计分析;
徐蔼婷,女,浙江宁波人,经济学博士,教授,博士生导师。研究方向:国民经济核算理论与实践,宏观经济统计分析。
中图分类号:C921∶F222.3
文献标志码:A
文章编号:1007-3116(2019)04-0032-09
(责任编辑:张治国)
标签:人口论文; 人口普查论文; 组合论文; 建筑物论文; 西班牙论文; 社会科学总论论文; 人口学论文; 世界各国人口调查及其研究论文; 《统计与信息论坛》2019年第4期论文; 国家社会科学基金项目《研发卫星账户编制方法与应用研究》(17ATJ001) 国家统计局项目《基于行政纪录的人口普查方法研究》(2018LD07) 浙江省一流学科A类(浙江工商大学统计学)论文; 浙江工商大学统计与数学学院论文;