巫细波:大数据在社会科学领域的应用探讨——基于POI大数据的案例论文

巫细波:大数据在社会科学领域的应用探讨——基于POI大数据的案例论文

【内容摘要】随着网络信息技术在各领域的深入发展与应用,社会科学领域的数据类型和数量快速增长,尽管绝大部分社会科学领域的数据量很难达到T B 级,但传统基于文件型的数据存储和处理方法已无法适用,需要借助数据库技术和方法。本文以粤港澳大湾区的496 万个POI(Point of Interest)数据的存储与分析处理为例,结合PostgreSQL开源数据库探讨社会科学大数据的处理与应用方法。本文通过研究认为:单机数据库系统能胜任绝大部分社会科学领域的大数据应用,不需要大规模的分布式数据库;PostgreSQL数据库免费、易于适用、性能强大等特点使得非常易于社科研究人员使用;POI大数据也将随着网络地图服务的深入发展成为一种重要的社会科学研究数据;根据POI大数据的空间核密度分析可以发现粤港澳大湾区城市空间呈现高度集聚、多中心、等级化及功能空间连片化特征。

【关 键 词】大数据 POI 数据 开源数据库PostgreSQL粤港澳大湾区

随着信息化、网络化、智能化及物联化的深入发展,各领域每时每刻都在产生大量数据,有别于传统的数据,大数据具有5V(Volume、Velocity、Variety、Value、Veracity)特点[1],即数据量大、数据生成及处理速度快、数据类型多样、价值密度较低、数据准确和可信赖。近年来,大数据已经引起了国内外学者的广泛关注和研究,在迈尔-舍恩伯格和库克耶合著的《“大数据”时代:生活、工作与思维方式的大变革》中指出大数据正在深刻改变经济生活的各领域[2],这本论著掀起了国内外大数据研究热潮并成为许多学科的热点与主流[3][4][5],朱建平对大数据的分析理念进行了深入辨析[6],张庆熊(2015)、李天柱(2018)、周良发(2018)等学者则专门讨论了大数据在人文社会科学领域的应用及发展趋势[7][8][9][10]。随着网络地图服务的快速兴起和普及,POI 这种具有地理坐标度信息的数据逐渐成为一种社科研究的重要数据类型。POI 数据是人口、土地、经济、社会等城市主要要素相互作用的综合体现,集地理位置信息和功能分类信息于一体,与传统数据相比较还具有规模大、覆盖广、类别多、易获取、更新速度快等优点,越来越得到用户认可和青睐,也日益引起研究人员的重视[11][12][13]。与传统基于城市用地类型划分的城市功能结构研究不同,通过POI 数据识别和分析复杂多变的城市功能空间结构可大量节省实地调研的时间,而且能够从宏观、中观及微观多种尺度对城市空间结构开展分析,使得研究结果也显得更为精细。一般而言,一个城市的POI 数据类型多样而且数量非常庞大,以广州为例,根据从高德地图抓取的POI 数据量达到128 万条(数据抓取时间为2017年7 月份),常用的Excel、Access、Stata、SPSS 等软件难以直接处理这么大量的数据,必须借助数据库进行存储和处理。对于大部分科研人员而言,免费而且功能足够的强大的开源数据库成为必然选择,常用的开源数据软件主要包括MySQL、PostgreSQL、SQLite 等,与商业数据库相比还有一些差距(见表1)。本文以粤港澳大湾区的496 万个POI 数据的存储与分析处理为例,结合PostgreSQL开源数据库探讨社会科学大数据的处理与应用方法,同时采用空间核密度方法分析粤港澳大湾区城市空间结构现状并总结其特征。

以对照组的常规护理结果,归纳总结患者发生突发事件的危险因素,以全面细致的分析总结,由于护理人员责任感以及技能不足,使得护理工作操作失误增加护理风险,加之骨科患者由于疾病长期躺在床上,不同程度的疼痛导致行动不便致使活动受限,出现压疮等现象[1] 。患者情绪不稳定使得依从性不足,加大护理工作执行难度,阻碍疾病恢复以及出现不安全行为。护理管理不到位是由于管理规章及执行力度不足,没有注重对骨科重伤病人的护理,使得科室护理风险隐患加重[2] 。

表1 主流数据库优缺点对比

注:根据百度百科对各数据库的论述总结归纳。

指标 P ost g r e S Q L M y S Q L S Q L ite O R AC L E S Q L S e r v e r收费,功能强大,商业支持好事务支持 高 中 较弱 高 高易用性 中 高 高 中 高跨平台 是 是 是 是 否物化视图 否 否 否 是 是H ash J oin 是 否 否 是 是Bitmap 索引 是 否 否 是 是查询优化器 较强 一般 一般 强大 强大空间数据支持 较强 一般 一般 强大 一般主要特点开源免费,功能较强,持续更新开源免费,灵活开源免费、功能一般、嵌入式收费,功能强大,商业支持好

一、研究数据与方法

(一)研究数据

POI 数据。一种能够代表真实地理实体的点状数据,一般包含点要素的名称、类别、经纬度、电话、所在省市以及地址等基本信息,POI中的坐标数据一般为WGS84 地理投影坐标,涉及距离、面积等空间统计分析需要将地理坐标转换为地图投影坐标。本文采用的POI 数据通过第三方网络数据爬虫工具从高德地图开放平台获取,数据获取时间为2017 年8 月。借助POI 数据之所以能够对城市空间结构开展研究关键在于每个POI 都是城市物质空间中实际存在的一个点,大量POI 集聚分布在空间上形成连片区域,能够反映城市功能空间布局特点,同时POI 数据还包括社会空间的各种属性信息,而城市空间结构研究根据研究目的和对象的不同可以分为城市物质空间和城市社会空间的研究,因而借助POI 数据可以同时从物质空间和社会空间两个维度研究城市空间结构的演化规律和各子系统的相互作用机制。高德地图POI 原始数据共包含汽车销售、餐饮服务购物服务、生活服务、体育休闲服务、医疗保健服务、住宿服务、风景名胜、商务住宅、政府机构及社会团体、科教文化服务、交通设施服务、金融保险服务、公司企业、道路附属设施、地名地址信息、公共设施等23 大类数据类型,本文根据研究目标选取其中的19 类POI 数据展开分析,以粤港澳大湾区范围内的广州、深圳、香港、佛山、澳门、惠州、肇庆、江门、东莞、中山、珠海等11 个地区的POI 数据为研究对象,POI 数据总量接近500 万条(具体见表2)。限于篇幅限制,本文只对所有POI 数据展开总体分析,不对7 大细分类型展开分析。

表2 粤港澳大湾区七类POI 数据情况

备注:每类PO I 名称后面的数字表示其在高德PO I 数据中的分类编码,其中大类为两位数编码;中类为四位数编码;小类为六位数编码。

城市功能空间 所含PO I 类型 PO I 数量(个) 占比(%)生活居住空间 住宅区1203、商务住宅1200、生活服务(大类07)、医疗保健(大类09)、公共设施(大类20);893131 18.20政务办公空间 政府机构及社会团体(大类13):包括政府机构1301、社会团体1304、外国机构1302、公检法机构1305 等;108232 2.21商业空间①汽车贸易服务:汽车服务(0100、0104、0105、0106、0107、0108、0109、0110);汽车销售(大类02)、汽车维修(大类03)、摩托车服务(大类04)②餐饮服务(大类05);③购物服务(大类06);④住宿服务(大类10);2424763 49.41产业空间 产业园区1201、公司企业(大类17)、金融保险(1600、1601、1604、1605、1606); 1054327 21.49科教文化空间 科教文化(大类14):包括学校1412、科研机构1413、培训机构1414 等; 122403 2.49休闲空间 风景名胜(大类11)、体育休闲(大类08); 98125 2.00交通空间 交通设施(大类15)、加油站0101、加气站0103、充电桩0111、其他能源站0102 等;206115 4.20

(二)研究方法

1.大数据分析方法

由于采用数量庞大的POI 数据对粤港澳大湾区城市空间结构展开分析,传统基于Excel、TXT、CSV 等文件系统的数据处理和分析方法已不可能胜任,必须借助大数据分析方法。大数据是一类复杂且庞大的数据集合,传统的基于文件系统的数据管理工具或者应用已经无法胜任其数据的处理工作,必须采用单机数据库系统或者分布式网络数据库进行高效率存储和数据传输,为各种数据分析提供强大的基本支撑。本文的POI 数据为500万条级别,可以采用单机数据库系统进行,本文采用PostgreSQL 数据库系统(版本为10.4),作为免费而且功能强大的关系型数据库系统,非常适合用于社科研究人员开展各类基于大型数据的科学研究。

POI 数据可以通过多种地理信息软件进行制图,一般情况下地理制图需要包括地图内容及地图附件(指北针、比例尺、图例等)。本文采用核密度方法对POI 大数据进行分析,其结果为栅格类型的图并结合粤港澳大湾区行政边界矢量数据进行显示,可以非常清晰地展示POI 数据的空间密度分布情况。

一种将离散数据进行空间平滑处理形成连续分布密度图的方法,能够有效地分析出离散数据的空间分布特征和趋势,其计算公式如下:

大数据的分析主要涉及到数据管理和结构支撑、开发模型和评测、可视化和用户接口、商业模型等几个方面,分析流程一般包括数据源、数据管理、数据建模和数据结果分析及可视化(见图1)。大数据分析过程中最耗时和耗力的环节就是数据的准备阶段,因此分析大规模的数据时必须考虑到数据存储、过滤、移植和检索的效率。此外,选择何种数据库也是必须考虑的重要问题,主要考虑应用场景、数据量及存储方式、多用户管理和并发性等问题。总体而言,开源数据库的功能也越来越强大,可以满足绝大部分科研需求。以流行的开源数据库为例,MySQL 易用性较强,主要应用于网络应用;SQLite 则主要应用于数据较小、嵌入式终端而且不需要多用户并发访问数据的场景;PostgreSQL 支持完整的SQL 标准、社区活跃、更新持续而且对空间数据和空间计算支持较好,综合而言非常适合社科人员使用,尤其适用于本文要处理的POI 数据。

术前准备也一改传统的方式,以往术前3天进流食或半流食、禁食12小时、禁饮8小时、3天给预防用药、进行常规灌肠,现在术前12小时进流食或半流食、禁食6小时、禁饮2小时、术前30分钟给预防用药、肺部手术不鼓励灌肠(食管手术根据情况选择性灌肠)。

二、基于开源数据库的大数据处理方法及步骤

(一)大数据分析基本流程

随着石油钻井行业的不断发展,经验占主导、井队为单位的传统钻井方式缺乏进步的活力,难以适应新形势下钻井的需求;它制约了新工艺、新技术的应用推广;限制了提速提效工作的开展。针对传统钻井工作的不足,必须对新形势下的钻井工作进行精准化的系统研究。

图1 大数据分析流程示意图

(二)数据处理步骤

由于PostgreSQL 数据库本身的空间统计与空间分析功能很弱,需要将POI 数据需要转换才能够为地理信息软件处理(如ArcGIS、QGIS、MapGIS等地理信息软件)。本文主要采用核密度方法,因此需要将POI 数据转换为地图投影坐标下的地理空间数据并用ArcGIS 进行核密度分析。

数据库数据导入方式一般包括使用SQL 命令、数据库API 编程及图形化工具等三种方式,图形化工具比较适合社科领域研究人员采用,如果数据不规整需要整理则采用编程方式比较合适。本文使用的POI 数据为CSV 格式,这种格式数据可以用PostgreSQL 内置的“copy”命令导入,效率高,适合熟悉SQL 语法的研究人员;还可以利用PostgreSQL 内置的pgAdmin 可视化工具导入,步骤简单而且支持中文,适合大部分社科领域的研究人员,本文也采用这种方式。此外,还可以借助Navicat 等第三方数据库管理工具导入,可视化操作更加方便,但一般第三方软件需要付费。如果需要反复进行大规模的地理空间查询和分析,可直接借助PostgreSQL 的空间扩展模块PostGIS 将POI 数据中的地理坐标信息存储为Geometry 数据类型。

4.数据制图

由于POI 数据源于地图导航领域,其分类方式需要根据研究目的对数据进行多次分类整理,在不删除原数据的情况下可采用视图方式对数据进行分类检索。本文以分析粤港澳大湾区城市空间结构为例,因此根据商业、产业、生活居住、政务办公、科教文化、休闲、交通等7 大类对POI 数据进行分类合并处理,如果需要数据交换还可以将分类合并后的每一类POI 保存为视图也可以导出为CSV 格式数据,方便下一步分析。这里对不同区域不同类型POI 数据进行分类统计(见表3),每一次查询都非常快,如果用以往基于文件系统的数据查询方式,基本不可能实现。

表3 粤港澳大湾区各类型PO I 情况

PO I 类型 数量(万个)其中:广州占比(%) 深圳 香港商业空间 242.48 22.62 19.66 3.11产业空间 105.43 20.78 25.53 5.61交通空间 20.61 25.14 21.64 5.98科技文化空间 12.24 27.70 21.60 6.54政务办公空间 10.82 27.53 14.21 5.12生活居住空间 89.31 24.16 20.97 6.73休闲空间 9.81 23.44 21.39 10.60

3.数据分析

教师主导教育,强调教师要在教育教学过程中发挥主导作用。学生自治,则强调受教育者应自主学习,受教育者自己主动教育自己,自觉完善思想道德和行为举止规范,认为这才是德育教育的最终归宿。推动教师主导教育与学生自治相统一,即推动学生学习过程中外因与内因共同发展。高校要重视“学生参与”的影响力和重要价值,让学生有话语权,能够参与到高校的发展与治理中。要充分发挥学生“朋辈教育”的榜样力量,建立与保障学生自我管理、自我服务和自我教育的途径与机制,为学生的个体发展、自主成长提供一个好的平台。

1.数据导入

公式(1)中,(fx)为空间位置x 处的核密度计算函数;h 为距离衰减阈值,可以是固定值,也可以根据样本进行计算或者是动态值,还可以根据点要素的属性值进行加权计算;n 为与位置x 的距离小于或等于h 的要素点数(如果采用加权方法,此处n 则为要素属性值的总数);k 函数则表示空间权重函数,一般是距离衰减函数。核密度计算公式的几何意义为密度值在每个核心要素ci 处最大,并且在远离ci 过程中不断降低,直至与核心ci 的距离达到阈值h 时核密度值降为0。本文采用ArcGIS 软件进行核密度计算,不采用加权处理,h值会根据样本特征进行自动计算。核密度分析方法会产生栅格数据,为显示不同区域POI 数据密度差异需要对栅格数据进行分组分级,本文主要采用Jenks 自然断裂法进行分组统计并显示。

2.数据分类及合并

2.空间核密度分析方法

三、基于POI 大数据的案例分析

限于篇幅限制,本文仅对粤港澳大湾区地区所有类型的POI 进行总体核密度分析,研究探讨粤港澳大湾区各城市空间结构的总体空间布局特征,不单独对7 大细分类型POI 展开分析。总体上看,相对于基于传统统计数据的方法,基于POI 大数据的分析能够更加清晰准确地识别出粤港澳大湾区城市空间结构的网络化、多中心及空间连片化特征。

(一)城市功能空间整体上呈现高度集聚特征

总体上看,粤港澳大湾区绝大部分POI 分布于珠江两岸,其中东岸POI 数量明显大于西岸,外围区域POI 数量较少而且集聚规模较小。从地区分布看,广州和深圳两地的POI 数量最多而且较为接近,占比均超过了20%,分别达到23.44%和21.39%。采用ArcGIS 软件对粤港澳大湾区所有类型POI 进行核密度分析,结果显示:广州、深圳两大城市主城区均形成了大规模的高密度集聚区,香港九龙、东莞莞城、佛山禅城则形成了次级高密度集聚区,惠州惠阳、珠海香洲、广州花都及番禺、中山石岐、江门蓬江、肇庆端州等区域侧形成更小规模的集聚区(见图2)。

图2 粤港澳大湾区PO I 数据核密度分析

(二)多中心城市空间结构特征明显

广州、深圳、香港三大城市主城区是粤港澳大湾区城市空间的三大中心,各类城市功能POI均呈现高度集聚特征,对七类城市功能空间POI的数据分析均支持这一论断,三大中心在不同领域具有比较优势。其中,广州在政务办公、科教文化、商业、交通等方面占有数量优势,是大湾区政治、文化、商业及交通功能空间的主要核心;深圳在产业、科技创新等城市功能空间占有相对优势,成为大湾区新兴信息技术产业及产业科技创新的核心引擎;香港则在国际化功能空间、高等级科研空间等方面具有相对优势,是目前大湾区迈向全球化的重要窗口。

利用一系列浓度的硝酸盐连续处理小麦幼苗6 d,检测小麦幼苗根长、苗长等形态指标。根据前期试验结果,分别选取10、60 mmol/L硝酸盐进行后续试验。由表2可知,10 mmol/L硝酸盐显著促进小麦幼苗根的生长,其根系长度比对照增加了21%。60 mmol/L硝酸盐对小麦幼苗根的生长有抑制作用,其根长与对照相比降低了8.1%,且苗长也降低了7.9%。但是硝酸盐对根的数量没有显著影响。因此,10 mmol/L硝酸盐显著促进小麦幼苗根系生长,而60 mmol/L硝酸盐则抑制根系生长。

(三)城市空间等级化和网络化特征显著

粤港澳大湾区城市空间以广州、深圳、香港三大城市主城区为中心,借助完善的公路、铁路、水运及航空立体化交通网络,大湾区其他城市围绕这三个中心周围形成等级化、网络化特征明显的城市空间结构,整个大湾区城市空间结构主从关系明确,核心城市突出,居于主导地位。其中,佛山禅城、东莞莞城、珠海香洲、中山石岐、江门蓬江、肇庆端州、广州花都及番禺等区域形成大湾区次级中心区。东莞虎门及长安、惠州惠东、博罗及惠东、佛山三水及高明、广州从化及增城、肇庆四会及高要、中山小榄与古镇、珠海斗门等区域则形成三级中心城市;大湾区外围区域则围绕县域中心形成各类POI 小规模集聚区,成为大湾区城市网络结构体系的重要节点城市,三大层次城市通过实体交通网络与虚拟信息网络形成体系层次分明、等级化、网络化特征显著的城市空间结构。

(四)城市功能空间连片化特征明显

随着珠三角城市一体化进程不断深入发展,大湾区内部各城市之间的各类经济活动与人员往来日益频繁,各类城市功能空间POI 不但在各自城市行政边界内部形成POI 连片高密度集聚区,也逐渐突破城市行政边界制约,促使各类城市功能空间POI 在城市之间也逐渐形成了连片化高密度集聚区,这种高密度连片化特征在生活居住空间、交通空间及产业空间等方面显得尤为明显,如广佛、深莞之间的居住空间POI 连片化特征非常明显。

结语

随着物联网及智能化时代的到来,社会科学领域的数据类型及数量快速增长,传统基于文件型的数据存储和处理方法已无法适用,常用的Excel、Access、Stata、SPSS 等软件难以直接处理这么大量的数据,必须借助数据库进行存储和处理。对于大部分科研人员而言,免费而且功能足够的强大的开源数据库成为必然选择。本文以粤港澳大湾区的496 万个POI 数据的存储与分析处理为例,结合PostgreSQL 开源数据库探讨社会科学大数据的处理与应用方法。通过研究发现:PostgreSQL 数据库免费、易于适用、性能强大等特点使得非常易于社科研究人员使用,单机数据库系统能够轻松应付百万级数据量;POI 大数据也将随着网络地图服务的深入发展成为一种重要的社会科学研究数据;根据POI 大数据的空间核密度分析可以发现粤港澳大湾区城市空间呈现高度集聚、多中心、等级化及功能空间连片化特征。如果数据量进一步增加以及需要整合跨网络数据源,基于单机数据库的大数据处理方法则需要更新改进,必须借助基于云计算的大数据方法,这有待下一步的研究探讨。

二级财务管理对高职院校而言,整体还处在初期阶段,这既是一个新生事物,也是一件势在必行之事。特别是在国家开展“双一流”建设的大背景下,各个高职院校的招生规模必将不断扩大,如何在学院统筹的前提下最大限度地发挥学院的财力,如何最大限度地调动教职员工的工作积极性和主动性,这是摆在每一个学院管理者面前的一道难题。■

参考文献:

[1]黄欣荣.大数据的语义、特征与本质[J].长沙理工大学学报(社会科学版),2015,30(06).

[2]Viktor Mayer-Schonberger,Cukier K.Big Data:A RevolutionThat Will Transform How We Live,Work and Think.Boston:Houghton Mifflin Harcourt,2013.

[3]柴彦威,龙瀛,申悦.大数据在中国智慧城市规划中的应用探索.国际城市规划,2014,29(6).

[4]甄峰,秦萧,席广亮.信息时代的地理学与人文地理学创新.地理科学,2015,35(1).

[5]梁吉业,冯晨娇,宋鹏.大数据相关分析综述[J].计算机学报,2016,39(01).

[6]朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014,31(02).

[7]崔晓晖. 大数据在人文社科中的应用研究[N]. 社会科学报,2015-08-27(003).

[8]张庆熊.大数据时代社会科学方法论探讨[J].社会科学,2018(09).

[9]李天柱,王倩.人文社会科学领域大数据研究趋势测度:国内外比较[J].自然辩证法研究,2018,34(04).

[10]周良发,潘红.社会科学普及研究进展的大数据分析与思考[J].运城学院学报,2018,36(01).

[11]陈蔚珊,柳林,梁育填.基于PO I 数据的广州零售商业中心热点识别与业态集聚特征分析[J].地理研究,2016,35(04).

[12]池娇,焦利民,董婷,谷岩岩,马雅兰.基于PO I 数据的城市功能区定量识别及其可视化[J]. 测绘地理信息,2016,41(02).

[13]孙厚权,万黎明.基于大数据的社会风险治理探微[J].理论月刊,2016(12).

[14]杨琳,高洪美,宋俊典,张绍华.大数据环境下的数据治理框架研究及应用[J].计算机应用与软件,2017,34(04).

中图分类号:C3;T P392

文献标识码:A

文章编号:1007-9106(2019)05-0070-05

* 本文为2015 年“基于大数据的人口流动流量、流向新变化研究”(课题编号:15B R K037)的阶段成果。

*作者简介:巫细波(1983—),男,广州市社会科学院副经济学研究员,主要领域:区域经济、地理信息与空间计量方法应用。

(责任编辑:潘维永)

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

巫细波:大数据在社会科学领域的应用探讨——基于POI大数据的案例论文
下载Doc文档

猜你喜欢