李泽宇:引入兴趣点的地理加权人口空间分布模型研究——以天津市为例论文

摘要：针对传统方法解决城市内部人口空间分布问题的困难和不足，在分区建模基础上，提出了将兴趣点引入多元逐步、地理加权、混合地理加权方法，以天津市15区为实验区，进行模型验证。结果表明，兴趣点可以有效地反映人口空间分布现状，地理加权方法能更好地模拟人口的空间分布。

关键词：人口；空间化；电子地图兴趣点；地理加权回归；混合地理加权回归

0引言

探究城市内部人口空间差异是当前人口空间化研究的重要方向。现代社会，迅猛发展的测绘技术为空间化研究提供丰富的数据源。目前空间化模型众多，常用的空间化模型包括空间插值估计、多元回归[1]、核密度估计、多因素融合[2]、机器学习[3]等。建模要素从土地利用[4]、地形地貌[5]、河流水系、交通路网[6]、夜间灯光遥感[7]等传统数据，到LIDAR点云[8]、OSM[9]、手机信号[10]等数据。

社会经济和自然地理是影响人口空间分布的两大因素。兴趣点(point of interest，POI)是社会经济数据的一种，具有人口指示作用。目前，城市开展空间化研究多采用多因素融合方法，该方法能综合多方面要素，但以往研究缺少对城市内人口分布的区分。是否可以利用兴趣点结合城镇建设用地、农村居民点，对城市内部人口细化做出新的探索，值得研究。本文以天津市15区作为研究区(不包括滨海新区)，引入电子地图兴趣点位数据，结合土地利用数据，对研究区采用分区建模。以电子地图兴趣点、城市基础设施作为分区标准，构建街道级别人口空间回归模型，生成人口1 km数据集，实现城市内部精细人口空间分布。

新形势下，在企业经济管理创新过程中转变思想意识，十分关键。只有在思想意识层面进行了有效的转变，才能够在实践工作中积极探索。首先，传统理念下，企业往往过分重视生产和营销等直接创收工作，没有正确认识管理的作用。企业经济管理创新过程中，应当更新管理理念，对管理的作用进行重新认识。要认识到管理也是生产力，科学管理对企业发展具有强大的推动作用。其次，在企业经济管理过程中，跟新管理理念还体现在促进管理者形成创新意识方面。所谓创新意识，就是养成基于基本实际工作不断探索的意识。不断地探索优化经济管理策略并指导实践，对于企业发展是十分重要的[2]。

1研究区概况与数据处理

1.1 研究区概况

天津市由中心城区、环城四区和远郊区县和滨海新区组成。中心城区包括和平区、河西区、河东区、南开区、红桥区、河北区，统称为市内六区。环城四区包括东丽区、西青区、津南区、北辰区。远郊区县包括宝坻区、武清区、蓟县、宁河区、静海区。全市人口分布不均匀，中心城区人口密集，经济发展迅速，地铁、公路等交通设施，超市、学校、医疗等服务机构完善，远郊区县人口稀少，基础设施薄弱。

1.2 数据来源与预处理

1)数据来源。

分区建模是提高人口空间模拟精度有效方法之一，其目的是将建模因素具有相似特征区域归并为同一分区，以便于统一建模，建模因素差异大的区域划分为不同分区，以凸显差异性。本文以街道为最小研究单元，依据土地利用空间分布、兴趣点密度疏密、地铁线、城市快速路进行分区，将天津15区划分为3个分区。第一类分区为中心城市区和环城四区中靠近中心城区的街道。该类分区土地利用类型无农村居民点，全部是城镇建设用地，兴趣点密集，商业发达，有地铁和快速道路。第二类分区为环城四区和远郊区县的中心城区的街道。该类分区有少量的农村居民点，以城镇建设用地为主，兴趣点比较密集，高于周边街道的集聚程度。第三类分区为其余街道。以农村居民点为主，农村居民点、兴趣点分散在各个街道，部分街道有少量城镇建设用地。

首先，用无菌水将斜面上成熟的孢子洗下，转入装有玻璃珠的无菌50 ml三角瓶中，在摇床上振荡10～20 min，使孢子充分分散，得到孢子悬液。其次，将1 ml孢子悬液转入灭菌的装有种子培养基的300 ml三角瓶中，培养22 h。最后，将培养好的种子培养液以体积分数12%的接种量转入灭菌的装有添加不同浓度梯度的微量元素与发酵增效剂的发酵培养基的300 ml三角瓶中，用正常培养基作为对照，培养166 h。

(2)土地利用数据，本文采用城镇建设用地和农村居民点作为人口影响因素。

由于第三分区存在空间异质性，对第三分区进行地理加权建模，以医院、学校、超市个数，城镇建设用地、农村居民点面积为自变量，以街道人口数量为因变量构建回归模型。利用GWR4软件，模型参数选用自适应的二次平方自适应空间核函数(bi-square)进行建模，选择黄金分割搜索程序进行带宽选取，以赤池信息量准则AIC(akaike information criterion)作为信息评价准则，模型参数估计及参数检验如表4所示。

(4)乡镇街道行政边界，来自中国科学院资源环境科学数据中心，字段属性包含行政区划代码、行政区划名称等。

(5)人口统计数据，2010年第六次人口普查数据。

图1 天津市兴趣点空间分布

2)预处理。

(1)数据类型有人口统计数据、栅格数据和矢量数据。矢量数据和栅格数据统一转换投影为CGCS2000_Albers，人口统计数据与乡镇街道区划名称进行关联，录入人口数量，并擦除水系面状要素。

淋醋的工艺流程包括：成熟醋醅、浸泡(加入炒米色、食盐、传淋付水)、传淋、生醋，此阶段涉及的传统设备有淋池、大缸及炒色灶等，可用机械设备有不锈钢泵、半自动化炒色锅。

(2)计算街道几何中心与距离最近的地铁出入口的欧式距离作为地铁的要素属性。

随着农业生产水平不断的提升，农产品的质量成为人们普遍关注的话题。在农业的实际生产过程当中，由于受到诸多因素所影响，导致农产品质量偏低。因此，如何提高农产品质量，成为当前农业生产领域共同研究的课题。本文主要对目前我区土壤肥料工作中存在的问题作出论述，并分析了提高农产品质量中我区土壤肥料工作的主要发展趋势。

1.3 技术路线

在对城市内部划分分区后，引入土地利用数据(城市建设用地、农村居民点)、省道、乡镇街道、兴趣点，进行多元逐步回归，对存在空间异质性的分区采用地理加权回归(geographically weighted regression，GWR)、混合地理加权回归(mixed geographically weighted regression，MGWR)方法，建立各分区的人口空间数据集。技术路线如图2所示。

闽商主要是基于血缘和地缘纽带联结起来，抱团从事一定产业范围经营的商业群体。从明清时期的闽商帮崛起伊始，便具有“以地域为中心，以血缘、乡谊为纽带，以相亲相助为宗旨，以会馆、公所为其在异乡的联络计议之所”〔1〕12的特点，新一代闽商更是依靠相互之间充分信任、相互扶助、共同开拓，使闽商经营领域与范围不断扩大。可见，传统闽商精神中其实也蕴含着高效的团队协作精神在内。在第二届世界闽商大会上，“闽商精神”被概括为“善观时变、顺势有为，敢冒风险、爱拼会赢，合群团结、豪侠仗义，恋祖爱乡、回馈桑梓”，闽商的传统因袭中，“合群团结”成为最受推崇的观念之一，团队协作正是传统闽商精神的题中应有之义。

图2 技术路线

2研究方法

2.1 逐步回归

多元逐步回归的思想是将自变量逐个引入模型，每引入一个自变量后都要进行F检验，并对已经选入的自变量逐个进行t检验，当原来引入的自变量由于后面自变量的引入变得不再显著时，则将其删除。确保每次引入新变量之前回归方程中只包含显著性变量。

2.2 地理加权回归

兴趣点是城市重要的人口指示因子，尤其是当今社会经济迅猛发展，交通路网不断完善，兴趣点点位、类型的时空分布的数量和密集程度分布极不均衡。以超市为例，超市的功能是满足百姓日常生活需求，具有随人口分布的性质。超市通常环居住小区开设，其规模一定程度能够反映人口的聚居程度和数量。人口与超市分布形成彼此吸引的关系。

i=1，2，……，n

(1)

从表6误差分段统计表来看，整体上误差分布较为合理，能够比较确切地反映实际情况。不可避免，由多元逐步回归结合混合地理加权回归方法模拟的人口空间分布数据与实有数据仍然存在误差，其中街道低估数量从整体上多于高估街道数量。低估区主要分布于郊区，例如武清农场、黄庄农场、红旗农场等，兴趣点数量较少或没有，土地利用种类单一，从客观上增加了模型低估的可能性。高估街道主要位于环城四区和远郊区县中的经济开发区、农业园区等，例如津南国家农业园区、东丽开发区、静海经济开发区等。该地区有一定数量的兴趣点和用于厂房建筑的城镇建设用地，但常住人较少，从客观上增加了模型高估的可能性。

εi～N(0，σ2)，Cov(εi，εj)=0(i≠j)。

2.3 混合地理加权回归

OLS(ordinary least square，OLS)模型假设回归参数不随地理空间位置变化，而GWR模型假定所有回归参数都随地理空间变化。但在实际应用中，并不是所有参数都是随着地理位置发生变化，有些参数在空间上变化，有些参数在空间上是不变的，或者变化非常小，可以忽略不计。进一步改进模型为混合地理加权，混合地理加权中部分参数随着地理位置发生变化，成为变参数，其他不随空间位置发生变化的参数称为常参数。

(i=1，2，……，n)

(2)

3实例验证

3.1 建模区划分及相关性分析

(1)电子地图兴趣点、城市公共基础线状设施。兴趣点包括学校、超市、地铁站、医院点位数据等，公共基础线状设施包括城市快速路、地铁线、水系、省道、乡镇街道等，空间分布如图1所示。

本文选取与人口密切相关的兴趣点要素：医院、学校、超市、地铁站；线状交通设施：省道、乡镇街道；承载人口的土地类型：城镇建设用地、农村居民点；地理要素：高程、坡度。利用SPSS计算各分区相关系数如表1所示。

表1 相关系数

相关系数高程坡度乡镇街道医院学校城镇建设用地农村居民点地铁站省道超市第一分区0.1140.0730.295∗∗0.802∗∗0.346∗∗0.364∗∗0.a-0.0170.301∗∗0.745∗∗第二分区-0.041-0.1930.3640.864∗∗0.785∗∗0.683∗∗0.2340.0020.525∗∗0.669∗∗第三分区-0.065-0.0240.485∗∗0.842∗∗0.797∗∗0.636∗∗0.365∗∗-0.0120.460∗∗0.809∗∗

地理加权回归模型是在普通线性回归模型的基础上，在回归参数中加入因变量的空间位置。地理加权自变量的回归参数是随着地理位置而变化，建立的是局部回归。在全局模型中加入地理位置的权重函数，使得模型参数在回归过程中不断变化。形式如式(1)所示：

3.2 基于城市公共基础设施的多元逐步回归分析

基于上述对各个分区进行相关分析后，避免建模要素彼此冗余，假设同一分区内人口成均匀分布，以高程平均值、坡度平均值、城镇建设用地面积、农村居民点面积、各类兴趣点个数为自变量，街道人口常住数值为因变量，建立多元逐步回归模型，各类建模因素结果及分析如表2所示。

对多元逐步回归结果进行统计检验，结果如表3所示。调整R2代表模型的拟合程度，第一分区拟合度为0.68，第二分区、第三分区拟合程度较高，均为0.83。联合F统计量和Wald统计量要结合Koenker(BP)来检验模型的显著性。当Koenker(BP)不具显著性时，联合F统计量才可信。当Koenker(BP)统计量具有显著性时，应参考Wald统计量确定模型显著性。第一分区和第二分区在95%置信度下，联合F统计量p值(概率)小于0.05，模型具有统计显著性。第三分区Koenker(BP)统计量具有显著性，对于95%置信度下，Wald统计量p值(概率)小于0.05，模型具有统计显著性。此外，第三分区模型残差空间分布不呈现正态分布，存在空间非平稳态。

表2 多元逐步回归

类别模型t观测值p-值共线性VIF(常量)2.9050.005第一分区医院5.5260.0002.410超市3.1210.0032.410(常量)0.2540.801第二分区医院4.8180.0002.027学校2.4700.0212.095城镇建设用地2.1790.0391.593(常量)3.0970.002医院3.8650.0006.153第三分区学校4.6200.0002.511农村居民点6.5860.0001.317城镇建设用地2.7730.0062.469超市2.7420.0075.471

表3 多元逐步回归统计检验

分区建模F统计量Wald统计量Koenker(BP)调整R2Jarque-Bare第一分区0.000-0.4200.6800.450第二分区0.000-0.0800.8300.720第三分区-0.0000.0000.8300.000

3.3 地理加权回归

(3)ASTER-GDEM，来源于地理空间数据云，分辨率为30 m，经过拼接后裁剪出研究范围内的栅格数据。

表4 地理加权模型参数估计及参数检验

变量F统计量F检验自由度DIFF for Criterion医院7.9174.194 116.163-23.420学校2.7195.171 116.163-0.821城镇建设用地2.8033.414 116.163-0.925农村居民点1.8303.772 116.1633.224超市1.8964.173 116.1633.234AICc2 969.298调整R20.914最佳带宽50.000最小AICc2 969.298

3.4 混合地理加权回归

在对第三分区进行地理加权回归时，根据DIFF for Criterion大于零，说明农村居民点和超市不具备空间非平稳性，因此对该2个因素固定地理空间位置，采用混合地理加权建模，模型参数估计及参数检验如表5所示。对第一分区、第二分区的多元逐步回归结果和第三分区混合地理加权结果与1 km格网套合，生成天津市15区1 km人口格网数据集，如图3所示。

Beautiful Gir——通过邀请在商场逛街的漂亮女孩子免费来做头发，实现不会理发的理发师，建立起的美国高端美发连锁机构；

表5 混合地理加权模型参数估计及参数检验

变量估计值标准误差t值农村居民点1 577.611201.9167.813超市721.957179.9764.011AICc2 964.393调整R20.910最佳带宽59.000最小AICc2 964.393

图3 天津市1 km人口格网

4精度评价及精度影响因素

4.1 精度评价

式中：(ui，vi)是第i个采样点的坐标；β0(ui，vi)是第i个采样点统计回归的常数项；βk(ui，vi)是第i个采样点上的第k个回归系数；xik为第i个采样点上第k个变量；p为某一采样点上参与回归的变量个数；

表6 误差范围分段统计表

误差分区误差范围/(%)街道个数占总数/(%)严重低估区<-305321.285轻微低估区-30～-107228.916正确估算区-10～105722.892轻微高估区10～303815.261严重高估区>302911.647

4.2 模型精度影响因素

为分析模拟人口与实际人口差异的原因，进一步观察发现，引起模型估算有误的原因大致有以下3个方面：①中心城区土地利用类型单一。天津市内六区范围内土地利用类型全部为城镇建设用地，难以区分住宅用地类型和商厦等商业用地类型。这使得将一部分人口分配到商业用地上，这也是造成第一分区模型误差的原因。②兴趣点采集范围不全面。兴趣点是电子地图兴起的衍生产品，为探究人口时空特征提供全新视角。目前，各个地图公司兴趣点采集的详细程度不同，且普遍存在中心城区覆盖度高、郊区覆盖度低的现象。郊区采集的兴趣点偏少，导致郊区存在大范围人口低估区域。③人口街道数据与其他数据时相不匹配。本实验除了统计人口为2010年数据，其余数据时相均是2015年。2种时相的数据存在时间不一致的情况，5年之间人口会出现较大变化，从而造成了模型的估算误差。

(3)提取与人日常生活息息相关的兴趣点，例如超市、医院、学校等。

5结束语

本文在人口特征分区的基础上，以兴趣点、城市基础设施作为分区标准对天津市15区进行分区建模，对3个分区进行多元逐步回归，并对存在空间异质性的分区采用地理加权回归和混合地理加权回归方式进行人口空间化建模，生成1 km人口格网数据集。对结果进行模型精度比较和误差分析，研究表明：

①兴趣点能较为有效地展现人口空间分布现状。兴趣点与城市活动具有极强相关性，中心城区是兴趣点聚集程度最密集的区域，郊区兴趣点较为稀疏。实验表明，中心城区呈现高估人口趋势，郊区呈现人口低估趋势，说明中心城区范围内的兴趣点类型丰富，使得住宅区和商业区难以通过兴趣点疏密来区分，这是造成人口高估误差的原因。对于郊区而言，兴趣点采集覆盖程度不够，有些地区兴趣点采集不全面，与实际不符，这是造成郊区人口低估的原因。

②对城市内部进行特征分区建模能够提高模型精度，使人口更加符合现实。加入地理位置的地理加权方法能够充分解释地理空间位置变化对人口的影响。混合地理加权回归模型能够进一步探测出具有空间平稳性和空间非平稳性影响因素，相对于多元逐步回归模型方法精度有进一步的提升。

在后续的研究中，还可以在以下几个方面探索：利用公安机关登记的实有人口代替普查人口，更具准确性；尝试对比多个平台的兴趣点对人口模拟的精度影响；城市中心城区内用住宅小区替代城镇建设用地作相关研究。

陈辉[34]指出，碑与帖，书法风格面目不同，它们的功用也不同。碑刻是严肃的事情，所以书法多朴厚庄重，而帖书多为信札随笔，所以无拘无束，挥洒自然。具体说来，它们的区别有以下4个方面：①制作目的不同，②形制不同，③书体不同，④制作方法不同。

参考文献

[1] 董南，杨小唤，蔡红艳，等.人口密度格网尺度适宜性评价方法研究：以宣州区乡村区域为例[J].地理学报，2017，72(12)：2310-2324.

[2] 刘纪平，董春，亢晓琛，等.大数据时代的地理国情统计分析[J].武汉大学学报(信息科学版)，2019，44(1)：68-76，83.

[3] 李少英，黎夏，刘小平，等.基于劳动力市场均衡的人口多智能体模拟：快速工业化地区研究[J].武汉大学学报(信息科学版)，2015，40(10)：1306-1311.

[4] 王珂靖，蔡红艳，杨小唤，等.基于城镇居民用地再分类的人口数据空间化方法研究：以长江中游4省为例[J].遥感技术与应用，2015，30(5)：987-995.

[5] 董南，杨小唤，黄栋，等.引入城市公共设施要素的人口数据空间化方法研究[J].地球信息科学学报，2018，20(7)：918-928.

[6] 李翔，陈振杰，吴洁璇，等.基于夜间灯光数据和空间回归模型的城市常住人口格网化方法研究[J].地球信息科学学报，2017，19(10)：1298-1305.

[7] 冯甜甜，龚健雅.基于建筑物提取的精细尺度人口估算研究[J].遥感技术与应用，2010，25(3)：323-327.

[8] 梁发宏，杨帆.自发地理信息研究进展综述[J].测绘通报，2015(S2)：74-78.

[9] 俞政.基于手机信令数据的上海市浦东新区常住人口估算[D].上海：上海社会科学院，2018.

GeographicallyWeightedPopulationSpatialDistributionModelwithPointofInterest：TakingTianjinforanExample

LI Zeyu1，2，DONG Chun2

(1.LiaoningTechnicalUniversity，Fuxin，Liaoning123000，China；2.ChineseAcademyofSurveyingandMapping，Beijing100036，China)

Abstract：Aiming the difficulties and shortcomings of conventional approaches in solving the spatial distribution of urban population，this study adopts partition modeling to raise the idea of introducing interest points to multi-dimensional stepwise，geographical weighting and mixed geographical weighting. The 15 districts within the jurisdiction of Tianjin were selected for the trial to validate the model. As revealed by the results，the interest points were effective in indicating the current state of how the population is distributed from a spatial perspective and the geographical weighting method is superior in the simulation of spatial distribution for population.

Keywords：population；spatialization；electronic map interest point；geographically weighted regression；mixed geographically weighted regression

doi:10.3969/j.issn.1000-3177.2019.02.018

中图分类号：K915

文献标志码：

文章编号：1000-3177(2019)162-0113-05

收稿日期：2018-12-01

修订日期：2019-01-20

基金项目：中国测绘科学研究院基本科研业务费项目(7771718)；国家自然科学基金面上项目(71773117)。

作者简介：

李泽宇(1993—)，女，硕士研究生，主要研究方向为空间数据挖掘。

进行标贯试验85次，实测锤击数N’=1.0～2.0击，平均为1.1击；经杆长修正后N=0.7～1.7击，平均为0.9击。取样13组，共13件进行统计分析。详见附表4和土工试验报告附表。建议其承载力特征值的经验值为fak=60kPa。

E-mail：1479781035@qq.com

为了化解产能过剩，研究产能过剩及其影响因素，需要准确地测度产能过剩，对产能过剩现状进行准确地把握。为了分析产能过剩的形成原因，得出影响产能过剩的因素，本文对产能过剩测度方法、产能过剩产生原因两个方面的文献进行了研究梳理。

标签：人口论文; 分区论文; 模型论文; 兴趣论文; 空间论文; 社会科学总论论文; 人口学论文; 世界各国人口调查及其研究论文; 《遥感信息》2019年第2期论文; 中国测绘科学研究院基本科研业务费项目(7771718)国家自然科学基金面上项目(71773117)论文; 辽宁工程技术大学论文; 中国测绘科学研究院论文;