赵子铭:基于ARIMA模型的中国人口预测论文

摘要：以我国1949—2017年人口总数为研究对象，利用时间序列方法及不同检验、最优化方法建立ARIMA模型，并用于预测2019年我国人口总数.通过AIC系数比较、白噪声检验，可以认为ARIMA（1，2，1）模型能够较好拟合我国成立至今的人口趋势.结果显示：我国人口数在1949年起不断攀升，并仍将在未来保持稳定的增速扩张；预测我国2019年及2020年的人口总数分别为140453.6048、141162.1572万人.

关键词：人口预测；ARIMA模型；纯随机序列检验

1 引言

人口总量指一国在某一时间点上的人口总数.利用数据探究一国人口总数的变化趋势、预测人口总量的变化对于民生政策、经济政策具有重要意义.本文选择使用中国自成立至2017年的年人口总数作为研究对象，旨在建立特定模型对我国人口增长趋势进行模型解释，并对我国未来人口数量进行合理的预测.由于人口数是存量的时间序列指标，因此尝试使用ARIMA模型对人口序列进行拟合.

ARIMA模型全称为求和自回归移动平均模型，是拟合、预测时间序列数据的重要模型之一.由于差分能够较好地提取确定性趋势，因此ARIMA模型经常被用于拟合非平稳时间序列.ARIMA（p,d,q）模型共有3个参数，其中p代表模型的AR（自回归）阶数，q代表模型的MA（移动平均）阶数，而d代表序列的差分阶数.其数学表达式如下：

其中代表ARIMA模型中自回归项系数代表ARIMA模型中移动平均项系数，(1-L)d代表差分阶数，其中L代表延迟算子.根据上述理论，使用中国1949—2017年人口总数序列进行ARIMA（p,d,q）模型的构建.

2 基于ARIMA模型的中国人口序列预测

由于人口数量是典型的存量指标，所以一般是二阶单整的，即在经过二次差分之后，该序列会由非平稳序列转换为平稳序列.因此引入ARIMA模型，初定差分的阶数为二阶.[1]

构建ARIMA模型是一个比较繁琐的过程，建模步骤可以分为以下几步：

（1）如果该序列在q阶截尾，则可以确定其ARIMA模型中MA（也即移动平均项）的阶数为q；

通过ADF检验判断该序列的单整阶数d；

确定序列的准确差分阶数d后，通过Q统计量检验判断差分序列是否是纯随机序列.

通过观察二阶差分序列的自相关系数、偏相关系数的截尾性选择合适的ARMA模型p、q阶数.利用Python生成二阶差分后的人口序列进行自相关系数、偏自相关系数的可视化图，如下所示：[5]

其中代表高阶项，α 代表常数项随机性趋势，时间项t代表确定性趋势.在实际检验中，只要时间序列在上述3种模型中的任意一种中检验被认为不存在单位根，则可证明序列是平稳过程.由于时间序列平稳的性质各不相同，故ADF检验和DF检验的原假设均为：H0：时间序列存在单位根.

rk为样本自相关函数.统计量近似服从自由度为m的χ2分布（其中m为滞后期数）.若Q值大于显著性水平的临界值，则拒绝所有rk同时为零的假设，即时间序列具有自相关性.

若差分后序列不是纯随机序列，则判断差分后的序列自相关系数是否拖尾或在q阶截尾.

BONNEAU J等人[2]对比特币和其他数字货币完成了分类和调研。BANO S等人[3]对区块链时代的共识机制进行了分类和详细的研究。ZOHAR A[4]分析了以比特币为代表的加密货币的可扩展性和安全性，强调了基于PoW的共识协议中激励机制的重要性，与整个系统的安全密切相关；CACHIN C和VUKOLIC M[5]讨论了经典共识中的重要概念，重点对需要身份准入的区块链系统进行研究；BANO S、Al-BASSAM M 和 DANEZIS G[6]对可扩展区块链的设计给出了具体的发展路线图；PASS R和SHI E[7]分析了大规模共识的形式化模型，并定义其安全性质。

智慧法院、智慧检务、智慧警务、智慧司法，现代科技运用与司法体制改革深度融合，形成“双轮驱动”态势。应用语音识别录入、文书智能纠错、法条案例自动推送……司法大数据、云计算、人工智能等现代信息技术的开发运用，为公检法等部门高效办案提供指引，为完善社会治理提供借鉴，成为中国司法在国际社会的一张亮丽名片。

（2）若其拖尾，则阶数为 0；

观察其偏自相关系数是否拖尾或存在p阶截尾.

（1）如果该序列在p阶截尾，则可以确定ARI-MA模型中AR（也即自回归项）的阶数为p；

（2）若其拖尾，则阶数为 0；

通过上述分析得出ARIMA模型的三个系数：p,d,q，并以此为依据建立ARIMA(p,d,q)模型；

对模型进行AIC系数比较、纯随机序列检验及显著性检验，判断模型对原序列的拟合是否良好；

智慧城市依托互联网、物联网、大数据、云计算、3S（RS遥感、GPS卫星定位、GIS地理信息系统）、人工智能等新一代信息技术，整合资源，提升城市感知、反应、调控能力，建构智慧生态体系，在带动地方产业转型升级、推动地区精细化治理、解决 “城市病”等方面具有很大优势，也有助于带动政府各部门、城市居民、社会力量共同参与，打造共建共治共享的城市治理格局。

利用模型对我国人口进行预测.[2]

在21世纪之初，以胡锦涛为总书记的中央领导集体在全面建设小康社会进程中，顺应国内外形势发展变化，抓住重要战略机遇期，求真务实，开拓进取，坚持理论创新和实践创新，既形成科学发展观成为党的新指导思想，又首次明确高举中国特色社会主义伟大旗帜，最根本的就是坚持中国特色社会主义道路、中国特色社会主义理论体系和中国特色社会主义制度。从而，在新的历史起点上成功坚持和发展了中国特色社会主义。

2.1 确定单整阶数

本文使用Eviews软件对人口时间序列进行ADF检验及后续建模、检验.这里使用ADF检验判断人口序列的单整阶数.ADF检验的3个模型如下：

（2）如果该序列不是纯随机序列，则我们可以继续ARIMA模型的构建；

先前讨论指出，人口序列为典型的存量序列，故应为2阶单证序列.实验证明：在0阶、1阶差分下，人口序列均不能通过ADF检验，即至少含有1个单位根.因此对其进行2阶差分，并再次进行ADF检验.结果如下表所示：

表1 2阶ADF检验结果

*MacKinnon(1996)one-sided p-values.

N u l l H y p o t h e s i s：X 2 h a s a u n i t r o o t E x o g e n o u s：C o n s t a n t,L i n e a r T r e n d L a g L e n g t h：1(A u t o m a t i c-b a s e d o n S I C,m a x l a g=1 0)t-S t a t i s t i c P r o b.*A u g m e n t e d D i c k e y-F u l l e r t e s t s t a t i s t i c-7.7 6 3 2 6 6 0.0 0 0 0 T e s t c r i t i c a l v a l u e s： 1%l e v e l -4.1 0 5 5 3 4 5%l e v e l -3.4 8 0 4 6 3 1 0%l e v e l -3.1 6 8 0 3 9

从ADF检验的伴随概率可以看出，在二阶差分情况下，人口序列可以被认为是平稳序列，即ARIMA模型中的差分项d=2.

2.2 纯随机序列检验

利用Q统计量检验对人口二阶差分序列进行纯随机序列的检验.Q统计量检验也即序列自相关检验，自相关检验的原理是通过检验时间序列及其k阶滞后序列的相关程度，判断时间序列的历史数据是否存在某种相关联系.随机时间序列的自相关函数为：[4]

其中：γk=cov(Xt,Xt+k)，γ0=cov(Xt,Xt).分子代表滞后k期的时间序列协方差，分母代表时间序列的方差.如果ρk=0对任意k＞0都成立，那么可以认为时间序列不存在自相关性.（此为原假设）.通过构造QLB统计量对时间序列自相关性进行检验，具体统计量的建立如下：

星星急救科普小分队的工作得到了社会广泛认同，2017年2月11日，央视《新闻联播》头条报道了星星小分队，并陆续获得一系列荣誉：湖北省公民素质教育先进案例、湖北省科普先进活动集体、湖北省青年文明号、十堰市青年文明号、《感动十堰》集体荣誉称号。组委会给予太和医院星星急救科普小分队的评价是：“几点星光，守护着苍穹下的安宁；几粒火种，升腾起可燎原的生命。弘敷仁爱普医术，泽被群生播丹心。”这无非是对太和医院星星急救科普小分队服务社会最好的诠释。

从图中可以看出，该序列的自相关系数和偏自相关系数均在1阶滞后后迅速降至0附近，因此可以认为该模型的p、q值均为1，也即：该序列的AR项滞后系数为1，MA项滞后系数也为1.

2018年5月-8月采用陷阱法和手捡法[11，12]对不同土地利用方式的大型土壤动物进行采集4次。陷阱法每种土地利用方式随机设置5个陷阱，内置饱和食盐水，共获得样品50瓶；手捡法每种土地利用方式随机选取5个样点，取样面积为20*20*10cm，共获得土壤样品50袋。分离得到的土壤动物分大类分别放进盛有75%酒精中，并附上采集标签。土壤动物鉴定依据《中国亚热带土壤动物》[13]《中国土壤动物检索图鉴》[14]《昆虫分类学》[15]，统计个体数量，类群数和个体数成虫与幼虫分开计数。

Benchmark of standardization of natural and organic cosmetics —importance and key message of ISO16128-1/2 7 10

对二阶差分后的人口序列进行上述检验，结果如下图所示：

表2 纯随机序列检验结果

由于任意滞后阶数下，人口二阶差分序列Q统计量检验的伴随概率均显著为0，因此拒绝其是纯随机序列的假设，可以认为该序列不是纯随机序列，后续ARIMA模型建模具有了理论支撑及现实意义.

2.3 判断序列p、q阶数

（1）如果该序列通过Q统计量检验，则意味着该序列是纯随机序列，每一期的值是完全独立不相关的，则不存在继续建模和预测的意义；

图1 2阶序列自相关、偏自相关系数图

综上所述，在公路工程建设施工中，施工技术控制和管理与进度、质量、成本等很多方面都存在着联系，为了做好这项工作，应建立完善的管理体系，设置专门的管理部门，进一步加强技术管理力度，从而保障施工质量。

2.4 构建人口序列ARIMA(1,2,1)模型

通过上述4节分析，可以确定人口序列模型的自回归项、差分项、移动平均项的项数分别为：1,2,1.据此，通过Eviews建立人口序列的ARIMA(1,2,1)模型.

注意到人口序列的ARIMA(1,2,1)模型等价于二阶差分后的人口序列的ARMA（1,1）模型，所以可以直接对二阶差分后的人口序列进行ARMA模型的构建.构建出的模型结果如下：

根据正交试验结果得到的最优白藜芦醇脂质体处方。于DPPC脂质体水化时，分别加入含有与DPPC等质量比的乳糖、蔗糖、葡萄糖、海藻糖、甘露醇的PBS水化30 min，超声15 min，冷冻干燥48 h，得白藜芦醇DPPC脂质粉雾剂。以外观、色泽、再分散性为主要评价指标。外观以饱满、不塌陷、不皱缩、表面光洁为佳；色泽以均匀无花斑、质地细腻为佳；再分散性是加入纯化水后能在30 s内完全分散得脂质体为佳。优选甘露醇为白藜芦醇DPPC脂质粉雾剂载体（表3）。

表3 ARIMA(1,2,1)拟合相关参数表

结果显示，使用极大似然估计拟合ARMA模型的参数结果中：

C、AR(1)、MA(1)的 t值均小于 0.05，通过了显著性检验；残差序列在经过短暂的震荡后进入二倍标准差范围中，显示出良好的拟合效果；

模型的AIC函数为14.9475；

模型的最终形式为：

2.5 基于ARIMA(1,2,1)模型的人口预测

根据上节构建的模型对我国2018年—2020年人口总数进行预测，预测结果如下：

图2 模型预测结果

3 结论

本文通过建立ARIMA(1,2,1)模型对我国1949—2017年人口总数进行了拟合、预测.ARIMA(1,2,1)模型通过了系数、模型显著性检验，且残差项均处于2倍标准差内，对我国人口总数序列的拟合程度较好.预测认为我国2019年及2020年的人口总数分别为140453.6048、141162.1572万人.

②对AC的完全维修。在维修期间，因为对AC的维修为完全维修，所以AC在维修之后的年龄被重置为0。因此统计AC的失效次数时，可分别考虑每个维修子期。在第l个维修子期进行AC的失效次数统计时，虚拟起始点(t=0时刻)为令m)，则在[0,t]时间内，AC的失效次数Na(t)的概率密度函数为

参考文献：

〔1〕陈艳玫，刘子锋，李贤德，黄奕祥.2015—2050 年中国人口老龄化趋势与老年人口预测[J].中国社会医学杂志，2018，35(05)：480-483.

〔2〕赵华，薛红艳.基于ARIMA模型的河北省人口预测[J].时代金融，2013(24)：125-126.

〔3〕唐宇，余娇娇.重庆市人口预测与发展趋势分析[J].现代商贸工业，2019，40(23)：4-8.

〔4〕陈艳玫，刘子锋，李贤德，黄奕祥.2015—2050 年中国人口老龄化趋势与老年人口预测[J].中国社会医学杂志，2018，35(05)：480-483.

〔5〕韩绍庭，周雨欣.多元线性回归与ARIMA在中国人口预测中的比较研究[J].中国管理信息化，2014，17(22)：100-103.

中图分类号:O212

文献标识码:A

文章编号:1673-260X（2019）09-0010-03

收稿日期：2019-07-08

基金项目：2017年度广东省哲学社会科学规划项目（FBJG20170270）

标签：序列论文; 模型论文; 人口论文; 系数论文; 差分论文; 社会科学总论论文; 人口学论文; 世界各国人口调查及其研究论文; 《赤峰学院学报(自然科学版)》2019年第9期论文; 2017年度广东省哲学社会科学规划项目(FBJG20170270)论文; 华南师范大学数学科学学院论文;