摘要:人口普查是政府在各个时期获取人口资料、掌握国情国力的一种最基本的调查方法。即使在现在科技发达的社会,人口普查也是非常耗时耗力的。自中华人民共和国成立,只进行过6次全国性的人口普查。在这个数据爆炸式增长、科技快速进步的时代,通过人工智能技术并借助大数据来估算城市人口,可以节省大量的时间成本和人力消耗,能够让人口普查工作更为高效。甚至有实现对人口的实时动态预测。运用LightGBM算法和ARIMA算法分别对人口流动情况进行预测,比较两个算法在人口流动预测应用方向的准确率,得出了LightGBM算法在人口流动预测上的准确率比ARIMA算法的准确率高,同时ARIMA算法的计算时间是LightGBM算法计算时间的7至10倍,甚至更多倍数。
关键词:LightGBM算法;ARIMA算法;人口流动预测
当今世界的数据量呈爆炸型增长,大数据的出现提供给分析者更多的信息,机器学习作为研究大数据挖掘的重要方法之一,其在各行各业的应用就显得尤为重要。人口普查是政府在各个时期获取人口资料、掌握国情国力的一种最基本的调查方法。但人口普查是非常耗时耗力的,自中国人民共和国成立以来只进行过6次全国性的人口普查。在数据爆炸式增长、科技快速进步的时代,通过人工智能技术并借助大数据来估算城市人口,节省大量的时间成本和人力消耗,能够让人口普查工作更为高效,甚至有可能实现对人口实时动态预测。
介绍LightGBM算法相关理论基础[1]、ARIMA算法相关理论基础、数据分析以及模型建立的步骤[2];比较LightGBM算法和ARIMA算法在人口流动预测方向的准确率和计算时间。
AAS可作为杀虫剂、除草剂和植物生长抑制剂用于农业生产。甜菜碱酯表面活性剂是一类阳离子表面活性剂,可用作“临时杀虫剂”,容易水解成无害成分[36,38,129]。
从图2中可以看出,在保持采动影响系数和瓦斯耦合作用一定的情况下,随着至应力包裹体距离的增加环向应力迅速减小;采动影响系数增加,距离应力包裹体附近的环向应力增大,随着距离的增大其影响效果减弱;瓦斯压力的耦合作用进一步增大应力包裹体附近的应力分布。
1LightGBM模型简介
1)Gradient Boosting。Boosting是用一系列子模型的线性组合来完成学习任务的,它分为两种类型:AdaBoost和Gradient Boosting,LightGBM属于Gradient Boosting的一种。Gradient Boosting的思想是:一次性迭代变量,迭代过程中,逐一增加子模型,并且保证损失函数不断减小。fi(X)假设为子模型,复合模型为:
Fm(X)=∂0f0(X)+∂1f1(X)+…+∂mfm(X),
(1)
从图7中可以得到city5这个城市具有很大的人口流动情况,需要对其进行归一化处理。
L[Fm(X),Y]<L[Fm-1(X),Y] .
(2)
2)决策树。决策树(Decision Tree)是一种分类和回归的方法,实际研究中大多用于分类。决策树的结构呈树形结构,大多运用的是二叉树,在每一个叶子节点上,根据某一判断条件,输出“符合条件”和“不符合条件”两类,不断重复向下输出(如图1)。可以把决策树理解成众多if-then规则的集合,也可以认为是定义在特定空间与类空间上的条件概率分布。决策树的创建包括3个主要步骤:特征选择、决策树的生成和决策树的修剪,该方法具有可读性高、分类速度快的优点。
决策树的分裂方法分为两类,一类是按叶子分裂的学习方法(Leaf-wise Learning);另一类是按层分裂的学习方法(Level-wise Learning)。
图1 决策树结构
按叶子分裂的学习方法是指在分裂的过程中要不断地寻找分裂后收益最大的节点,对其进行进一步的分裂,其他非收益最大化的结点不再继续分裂,以此规则生长这棵树。该做法的优点是可以使算法更加快速有效;缺点是会忽略掉那些被舍弃的叶子上的信息,导致分裂结果不够细化。图2描述的就是按叶子分裂的过程。
图2 按叶子分裂的决策树学习过程
按层分裂的学习方法与按叶子分裂的学习方法不同(如图3),不需要挑选收益最大化的节点,每一层的每一个结点都要进行分裂,也就是说每次迭代都要遍历整个训练数据的所有数据。优点是每一层的叶子可以并行完成,具有天然的并行性;缺点是这样会产生很多没有必要的分裂,需要更多的计算成本,同时,也会占用较大的运行内存[4-5]。
图3 按层分裂的决策树学习过程
3)GBDT。GBDT(Gradient Boosting Decision Tree)是机器学习中一个长盛不衰的模型。
研究组护理后手术医师满意度为100%,显著高于对照组的80.0%,两组比较具有统计学差异(P<0.05),如下表3所示。
事实上:GBDT=Gradient Boosting+Decision Tree,即若Gradient Boosting 中的每一个子模型都是一个Decision Tree,这样的模型就是GBDT。
1)单位根检验原始序列的平稳性。当原始序列不平稳时,多采用差分变换或对数差分变换使其满足平稳性条件。
2ARIMA模型简介
将自回归模型、移动平均模型和差分法结合,得到了差分自回归移动平均模型ARIMA(p,d,q),其中d是需要对数据进行差分的阶数。
2.1自回归模型AR
自回归模型描述当前值与历史值之间的关系,用变量自身的历史时间数据对自身进行预测。自回归模型必须满足平稳性的要求。
自回归模型首先需要确定一个阶数p,表示用几期的历史值来预测当前值。p阶自回归模型的公式定义为:
yt=μ+∑i=1pγiyt-i+εt,
(3)
其中是常数项μ,p是阶数,γi是自相关系数,εt是误差。
自回归模型有很多的限制:
1)自回归模型是用自身的数据进行预测;
3)自回归只适用于预测与自身前期相关的现象。
2)时间序列数据必须具有平稳性;
驱动形式 ....................................................中置后驱
2.2移动平均模型MA
移动平均模型关注的是自回归模型中的误差项的累加,q阶自回归过程的公式定义如下:
yt=μ+∑i=1qθiεt-i+εt,
(4)
移动平均法能有效地消除预测中的随机波动。
2.3自回归移动平均模型ARMA
自回归模型AR和移动平均模型MA模型相结合,得到了自回归移动平均模型ARMA(p,q),计算公式如下:
yt=μ+∑i=1qθiεt-i+∑i=1pγiyt-i+εt
(5)
2.4差分自回归移动平均模型ARIMA
ARIMA(autoregressive integrated moving average)模型简称差分自回归移动平均模型,是1970年Box和Jenkins所提出。该模型对扰动项进行建模分析,使模型同时综合考虑 预测变量的过去值,当前值和误差值,从而有效地提高模型的预测精度。这种预测方法着重分析时间序列自身的随机性质,而不是着眼于构造方程模型,其优势是短期预测精确,例如:股票价格、GDP、CPI以及流行性疾病发病率等等[3]。
建立ARIMA模型的一般方法:
GBDT拥有着Gradient Boosting和Decision Tree的功能共同特性,具有训练效果好、不易过拟合等优点。GBDT的工具主要包括XGBOOST、Pgbrt、Sklearn、R.GBM等。GBDT在工业界应用广泛,通常被用于点击率预测,搜索排序等任务。GBDT也是各种数据挖掘竞赛的致命武器,据统计,Kaggle上的比赛有一半以上的冠军方案都是基于GBDT[1]。
3)估计模型的未知参数,检验是否具有统计意义,以及模型的合理性。
2)确定ARMA(p,q)模型的阶数。通常采用自相关(ACF)系数和偏自相关(PACF)系数来确定模型的阶数p和q。
近几年来民办高校党建工作不断加强,随之而来所存在的问题也越发突出,较多民办高校对教工党支部建设的重要性的认识不深,更多地停留在教学管理层面,致使部分民办高校教工党支部建设很难有效地开展,战斗堡垒的作用不能得到充分地发挥。
4)诊断分析。检验残差序列是否为一个白噪声序列。
3数据来源
利用2018年京东人口预测大赛数据来进行测试LightGBM算法和Arima算法的预测的性能。
3.1数据介绍
人口流动数据。
具体如表2所示,可见,虽然由于研究例数较少,一些特定并发症的发生率差异不明显,但从整体上看,观察组孕妇的妊娠期并发症发生率显著低于对照组(P<0.05)。
表1 数据说明
字段名称样例数据说明date_dt20180301日期(年月日)city_code70e1931bbdc17b6a5ed8e8fa258262b4城市编码district_codef4182c331ac63e3c460b36dc3fd70775区县编码dwell1.612当天驻留人数(个位)flow_in0.921 2当天流入人数(个位)flow_out1.453 1当天流出人数(个位)
其中流入、流出和驻留的定义如下:
流入(flow_in):如果用户 user1, 第T天从其他区县来到A区县,则A区县的流入量加1;
流出(flow_out):如果用户 user1, 第T天从A区县去到其他区县,则A区县的流出量加1;
驻留(dwell):如果用户 user1, 第T天的早上及晚上在A区县,则A区县的驻留量加1。
例如,假设用户 user1 在第 T 天依次到过区县 A→B→C→A,则各区县的人口流动数据如表2所示。
据相控阵原理,实现声速的聚焦即为声速的相位叠加,使各阵元发射声波在聚焦点处同相位叠加增强声压,异相位声压抵消或削弱。图7所示为在发射声束时计算好延时时间,使声波达到聚焦效果。声束聚焦延时法则如下:
表2 流动规则
区县流入(flow_in)流出(flow_out)驻留(dwell)A111B110C110
3.2数据分析
1)一个区县278 d人口流动数据情况,分别如图4、图5、图6所示。
为了确保初等和中等教育阶段艺术与文化教育的连续性,2015年7月,法国国民教育部出台关于“学生艺术文化教育发展路径”的决议,具体规定如何在课内、课后和课外三个不同教育时段开展文化与艺术教育。
图4 居留人口流动情况
图5 流入人口流动情况
图6 流出人口流动情况
从图4、5、6可以看出3个特征的波动情况相似,同时具有许多的波峰和波谷,具有一定的季节性特征,所以需要设置合理时间周期性参数。
2)图7为2017年6月1日至2018年3月1日总流动情况。
图7 城市流动密度图
损失函数为L[Fm(X),Y],每一次加入新的子模型后,使得损失函数不断朝着信息含量次高的变量的梯度减小:
4模型建立
4.1LGB模型的建立
1)特征选择。
山东枣庄矿业(集团)有限责任公司田陈煤矿选煤厂为炼焦煤选煤厂,于1994年底建成投产,设计能力为1.2 Mt/a,采用混合跳汰选工艺,粗、细粒煤泥分别由沉降过滤式离心脱水机和压滤机回收。2009年进行了技术改造,采用不脱泥、不分级无压给料三产品重介质旋流器选煤工艺和“2+2”模式煤泥水处理工艺。
①输入特征。时间这个特征对于人口流动有着很大的影响,因此选取时间为训练的输入特征,将时间进行处理[6-7],处理结果部分表示如表3所示。
表3 输入特征
YearMonthDay201761201762201763201764201765
②预测目标。预测目标为flow_in, flow_out, dwell三个特征,如表4所示。
表4 预测特征
特征District codedwellflow_inflow_out85792b2278de59316d1158f6a97537ec6.913 2746.395 1429.565 061d86aa481642ba64ef42e2956339bbad14.644 58.124 1898.656 87560d9a82c1f961f206c44cdaf618fc15b15.313 999.861 9677.783 61912da6611282638727b4f969b4a2ea37312.551 5910.240 3810.129 77a07711a54a122bee09726fc7489f2c1b79.870 8710.406 319.817 08
表4中的数值为相应的特征的流动人数。
谷城县级财政部门积极落实各项扶贫政策,推行负面清单制度,在依法依规与探索创新中寻求对接,在项目规划与资金管理上促进对接,承担着诸多风险,把控着资金监管,做了许多有益的探索,取得了较好的成效。但在实际操作过程中,也遇到不少难点和困惑,存在的问题主要集中在统筹的范围和使用方向上、对政策的落实和理解偏差上以及扶贫资金的使用效益上。
培训方式是工科新教师培训目标实现的“桥”与“船”。培训内容不同,培训方式各异。不同的培训方式,培训效果各不相同。
③模型参数设置。
num_leaves=50,learning_rate=0.05,max_depth=6,n_estimators=1000,feature_fraction=0.9, bagging_fraction=0.5。
(2)师:这个魔方是由多少个小方块组成的呢?(大部分回答27块,也有回答54块、12块、18块的)你们是怎么看出来的?
4.2ARIMA模型的建立
1)特征选取。
ARIMA模型为单变量模型预测,所以输入特征分别为flow_in, flow_out, dwell。
2)预测目标。
预测目标同样也是这3个特征flow_in,flow_out,dwell。
3)模型参数设置。
此模型使用的是auto_arima()来自动计算出最优的p, q的值。
start_p=1, max_p=11, start_q=4, max_q=12, max_d=6,start_P=1, max_P=11, start_Q=4, max_Q=12, max_D=6,seasonal=True,stepwise=True, parallel =False, approximation=False, stationary=False。
5实验结论
因为是多变量进行预测,误差取每一次特征的预测值的均方根差。
参照碾压式土石坝设计规范(SL 274—2001)确定。本文选取正常应用条件下死水位、正常水位稳定渗流及正常水位降落等3种工况进行计算。
图8 LGB模型误差图
图9 ARIMA模型误差图
图8所有误差的平均值:0.062 4;图9所有误差平均值:0.157 1。
通过LightGBM算法和ARIMA算法,根据258 d的数据进行预测未来15 d的人口流动情况,将由这两种算法生成的预测值与真实值之间的rmsle误差图进行比较(如图8,图9),从中可以得到,LightGBM算法比ARIMA算法在人口流动预测方面,误差要小得多,并且误差变化相对稳定,并且在时间上,LightGBM算法运行时间为10 min,ARIMA算法算法运行时间为150 min,由此看出LightGBM算法要比ARIMA算法要快的多。因此,在人口流动预测方面,LightGBM算法和ARIMA算法相比,其LightGBM算法具有更好的准确度和稳定性,所需时间成本更少。
参考文献
[1] 马晓君,沙靖岚,牛雪琪.基于LightGBM算法的P2P项目信用评级模型的设计及应用[J].数量经济技术经济研究,2018,35(5):144-160.
[2] 任慧.ARIMA模型在中国人均GDP预测中的应用[J].科技经济市场,2018(11):69-70.
[3] 杨蕾,吴文华,任泉,等.ARIMA季节乘积模型在儿童肺炎门急诊人次预测中的应用[J].实用预防医学,2019,26(1):33-36.
[4] 沙靖岚.基于LightGBM与XGBoost算法的P2P网络借贷违约预测模型的比较研究[D].大连: 东北财经大学,2017.
[5] 张丹峰.基于LightGBM,XGBoost,ERT混合模型的风机叶片结冰预测研究[D].上海: 上海师范大学,2018.
[6] ZHAO L T, WANG Y, GUO S Q, et al.A novel method based on numerical fitting for oil price trend forecasting[J].Applied Energy, 2018, 220(2):154-163.
[7] MININATH B , RAMCHANDRA M.Time series decomposition and predictive analytics using MapReduce framework[J].Expert Systems with Applications, 2018,146(8):102-108.
ComparisonofPerformanceofLightGBMAlgorithmandARIMAAlgorithminPopulationFlowPrediction
WANG Jiancheng CAI Yanguang
(School of Automation, Guangdong University of Technology, Guangzhou 510006, China)
AbstractThe census is the most basic survey method for the government to obtain population data and master the national strength of the country at various times.The census is very time-consuming and labor-intensive.After the founding of New China, China has only conducted six national censuses.In this era of explosive data growth and rapid advancement of data technology, the use of artificial intelligence to estimate urban population through big data can enable census work to be completed more efficiently.This will save a lot of time and manpower, and it is even possible to achieve real-time dynamic population projections.In this paper, LightGBM algorithm and ARIMA algorithm are used to predict the population flow respectively, and the accuracy of the two algorithms in the application direction of population flow prediction is compared.It is concluded that the accuracy of LightGBM algorithm in population flow prediction is better than that of ARIMA algorithm, and the calculation time of ARIMA algorithm is 7 to 10 times or even more than that of LightGBM algorithm.
Key words LightGBM algorithm; ARIMA algorithm; population flow forecast
中图分类号:TP39
文献标识码:A
文章编号:1009-0312(2019)05-0027-06
收稿日期:2019-07-05
基金项目:国家自然科学基金(61074147);广东省自然科学基金(S2011010005059);广东省教育部产学研结合项目(2012B091000171,2011B090400460);广东省科技计划项目(2012B050600028,2014B010118004,2016A050502060);广州市花都区科技计划项目(HD14ZD001);广州市科技计划项目(201604016055);广州市天河区科技计划项目(2018CX005)。
作者简介:王建成(1995—),男,湖南永州人,硕士生,主要从事数据预测研究,Email:1561585776@qq.com。
标签:模型论文; 算法论文; 人口论文; 数据论文; 特征论文; 社会科学总论论文; 人口学论文; 世界各国人口调查及其研究论文; 《东莞理工学院学报》2019年第5期论文; 国家自然科学基金(61074147)广东省自然科学基金(S2011010005059)广东省教育部产学研结合项目(2012B091000171; 2011B090400460)广东省科技计划项目(2012B050600028; 2014B010118004; 2016A050502060) 广州市花都区科技计划项目(HD14ZD001) 广州市科技计划项目(201604016055) 广州市天河区科技计划项目(2018CX005)论文; 广东工业大学自动化学院论文;