戚伟业:大数据在统计中的应用研究论文

戚伟业:大数据在统计中的应用研究论文

[摘要]大数据的发展给统计部门和统计事业带来前所未有的机遇和挑战,研究大数据概念的演进与发展,对大数据时代政府统计面临的挑战和机遇进行了分析,梳理了大数据在统计中的各类应用,对大数据在价格统计工作中应用进行了研究。

[关键词]大数据;统计应用;价格统计

1 大数据概念的演进与发展

目前,大数据还没有权威统一的定义,这种现状表明随着大数据技术的不断发展,大数据的概念也在不断地演进和变化,很难对其进行统一界定。

从大数据的发展历程看,一开始,大数据只是意味着数量巨大、结构复杂、类型众多的海量数据。随着大数据技术的发展,大数据开始包含数据生成速度、数据存储、数据处理技术等内容。近年来欧美等发达国家更是将发展大数据提高到战略层面,我国也发布了《关于促进大数据发展的行动纲要》,推动数据资源开放共享,大力促进大数据相关产业和技术的发展。从目前大数据概念的演进来看,大数据逐渐被视为一种集数据、技术与思维三位于一体的核心资产,通过对其开发可以从中发现新知识、创造新价值、提升新能力。

原国家统计局局长马建堂主编的《大数据在政府统计中的探索与应用》一书中[1],将大数据定义为多方式收集、多来源整合的数据,是利用数据挖掘、机器学习、分布式计算等现代信息技术和架构高速处理和挖掘、具有较高应用价值和决策支持功能的技术、方法及数据集成。这种从统计角度对大数据的定义具有鲜明的统计特色。

Johnson&Lakoff(1980)指出,隐喻无所不在,更存在于人们的思想及语言中,所有人类的概念,均是建立在隐喻之上的。总之,“隐喻不仅仅是一种语言现象,还是人类理解周围世界的一种感知和形成概念的工具。……隐喻是人类解释、理解、描写和探索新情景的有力工具”(束定芳,2000:30)。

维克托.迈尔.舍恩伯格主编的《大数据时代》一书中[2],将大数据定义为所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助数据拥有者决策的资讯,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据带来的调查业务的数据化一方面可以减少人为因素对统计数据质量的干扰,另一方面还可以为统计调查数据质量控制提供更多手段。大数据以其独特的优势,为统计机构提供了新的数据来源,成为统计数据的重要补充,给各级统计机构提升统计服务水平带来了机遇。

2 大数据时代政府统计面临的冲击和挑战

大数据的本质实际上是数据生产的社会化,大数据时代的到来将给政府统计带来巨大的冲击。

洪水管理是指综合运用行政、经济、法律、工程、技术等手段,采取工程措施与非工程措施,既要防治洪涝灾害又要规范人类自身活动,既要控制洪水又要给洪水以出路,努力减轻灾害损失,实现人与自然的和谐相处和经济社会的可持续发展。2007年,洪水管理工作在淮河防汛抗洪中得到了广泛的实践和创新。

2.1 对统计理念的冲击

一是大数据改变了人们对数据的需求层次。大数据的发展使得收集与分析全体数据是可行和便宜的,不像以前受制于技术只能收集与分析随机样本来描述与推测宏观数据。二是大数据改变了统计实证的研究范式。大数据应用打破了传统上自上而下的统计实证研究范式,通过自下而上的数据挖掘技术找到数据之间的关系并建立模型进行研究,产生新的认知乃至形成新的理论。

2.2 对统计生产流程的冲击

一是数据采集信息化、智能化。传统统计的生产方式是通过结构化的报表、一致的统计口径、统一的计量方式把调查对象的信息转化成标准化的统计数据。而大数据时代,数据主要来源于信息技术记录下的原始数据。二是统计发布透明化。大数据时代,各类数据的生产、获取与分析是全社会共同参入并共享的,统计部门是其中的重要参与者,但数据不能独享。

联合国欧洲经济委员会(UNECE)[3]按生成方式将大数据划分为三大类:一是社交网络数据;二是在行政管理和企业经营过程中产生的记录;三是物网联数据。国内统计部门将大数据界定为通过第三方非传统调查渠道获取的数据,包括商业平台数据、互联网数据、物联网数据、行政记录数据和其他数据等五大类[4]。统计部门已经广泛应用行政记录数据和商业平台数据来提高统计效能,但对非结构化数据类型的大数据应用还存在很多困难。

2.3 对统计部门职能的冲击

大数据技术的发展为政府建设集共享、服务、查询、研究于一体的公共数据平台,联通部门间信息孤岛,推动部门间数据共享提供了技术支持。公共数据平台的建立将为统计部门充分利用行政记录等共享数据做好统计工作提供保障。通过与企业共建大数据应用合作平台,帮助企业推进生产、物流、交易等环节的数据化,通过共享这些数据逐步推进统计调查业务的数据化。通过改革统计制度,开发自动智能数据采集系统,与超市收银管理系统、电商交易系统对接,采集相关统计数据。

传感器系统:传感器是系统数据采集的必备元件,其质量的好坏直接决定数据采集的准确性和稳定性。系统传感器包括压力传感器、SD-50A超声波智能液位传感器,EDA9033F三相智能电参数综合测试仪,超声波流量计,定时继电器等组成传感系统。其功能是自动采集和存储并远程传输电量、管道压力、液位、电动阀、水泵电流、水泵工作状态,深井泵工作状态等数据。

2.4 对统计分析的冲击

政府统计机构对大数据的研究与应用也延伸到统计的各个领域。在居民消费价格调查领域,统计部门与商超和医院合作,取得他们的电子扫描数据,优化CPI调查;在农业统计领域,利用卫星图像或遥感数据,获取地形、地质、土地利用等统计信息以及农作物播种面积等统计数据;在消费调查领域,利用社交媒体数据,采用数据挖掘技术进行消费信心指数和居民幸福指数研究;在工业品流通领域,与大数据企业合作,检测50多种重要生产资料的市场价格并编制相关价格指数向社会发布;在商贸流通领域,将线上商品交易纳入统计调查范围,并发布限额以上单位网上零售额数据;在交通调查领域,利用道路感应器收集数据,并采用大数据分析技术,进行旅游、交通方面的检测和统计。在住户调查领域,利用水、电、气智能表采集的数据,进行住房入住率、空置率、能源消费等方面的统计调查研究。

3 大数据时代政府统计面临的机遇

大数据时代的到来也给政府统计带来了重大发展机遇。大数据的发展对于数据采集、统计业务和统计流程再造、统计生产方式重组以及数据质量的提高都有很大帮助。

强化水资源论证管理 促进河北经济社会发展方式转变……………………………………………………… 袁 福(3.14)

这一段关于“行侠仗义”的探讨,发生在金庸先生所著的《倚天屠龙记》第五章末尾,便是谢逊大闹天鹰教的场子,意图抢夺屠龙刀之时。众所周知,张翠山是武当七侠之一,而谢逊是臭名昭著的金毛狮王,按江湖中的话来说,乃是“正邪不两立”。

3.1 给统计调查业务数据化带来机遇

大数据时代,各类数据的来源将发生巨大变革。各种粒度的社会单位都会生产并提供数据,数据顺理成章地存储于信息平台上,政府统计系统不再是数据生产的唯一渠道。统计指标采集方式的变革也会逐渐深入。

3.2 给调查对象减轻负担带来机遇

丰富的大数据资源将为统计机构提供总体性、非结构化、真实可靠的原始资料,数据采集时间将会极大地缩短,各类调查对象的报表填报任务大大减少,这不但节约了统计调查成本,更将有效的减轻各类调查对象的负担,统计数据的时效性也会大大提高,统计效能得到显著改善。

3.3 给统计数据质量的提高和统计服务水平的提升带来机遇

虽然各行各界对大数据的界定不尽相同,但是对大数据几个重要特性的描述还是基本一致的。大数据都有大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值巨大(Value)的特征,即各类文献中经常提到的“4V”。大量化指大数据主要由非结构化数据构成,占总数据量的80-90%,而且实时增长量巨大。非结构化数据与存储于数据库中结构化的传统数据有根本差别,这也是大数据应用上的难题,因为无法用传统的数据库管理技术处理大数据,所以必须借助云计算等新技术来管理使用大数据,必须借助机器学习、人工智能、数据挖掘等新技术来进行深度复杂分析;多样化指大数据的来源多、格式多。数据的来源包括搜索、社交网络、传感器等各种数据源头。格式多指数据有多种不同的形式如:视频、文本、图像、机器数据等,数据无连贯的语法或句义,没有模式或者模式不明显;快速化指对数据实时分析而非批量式分析,处理的效果立竿见影而非事后见效;价值巨大指大数据的应用价值大,同时也要认识到大数据中往往包含大量与应用目标不相关的信息,一定程度上大数据的价值密度较低。

4 大数据在统计工作中的研究与应用现状

在目前统计机构对大数据的研究和实践中,大数据的获取、质量及处理分析技术都还存在瓶颈,统一的大数据采集、处理、存储、分析的技术方法还没有形成,各类统计机构的应用实践中往往根据大数据的类型、应用领域和研究目的来运用不同的大数据技术方法与程序进行探索。

“近似”与“精确”是相对而言的,由于受学习者认知特点的限制,中小学数学教材中“综合与实践”类课程中的许多课题学习问题仅限于“近似”的解答,目的是让学生感知实际问题解决中估算与精确的数学差别,有助于学生估算意识与问题解决能力的培养.但课题学习问题的“近似”解答并不是说这些问题没有“精确”答案,也不是说教师仅仅将教材中“近似”解答的知识传授给学生就足够了,作为新课改理念下教材的使用者,教师还必须具备透过“近似”获得“精确”答案的知识与能力,只有这样,教师才能在教学过程中对教材中的“近似”解答过程做到合理解释与适度把控.

政府统计部门近几年在统计业务上也积极适应信息化发展潮流,通过提升信息化水平,提高了大数据的存储应用水平。以企业一套表联网直报为核心的统计四大工程的成功实施将统计信息化水平推进了一大步;研究以卫星遥感技术为代表的空间信息技术和物联网技术,并积极将其应用在农业、交通等统计调查领域;在第四次经济普查和CPI统计中充分利用手持电子终端进行数据采集;在房地产价格统计和基本单位名录库维护中充分利用工商、税务等政府部门的电子化行政记录来提高统计效能;这些在信息化领域的探索和应用极大的提升了政府统计的信息化建设和应用水平,也为进一步推进大数据在统计中的应用打下了良好的基础。

传统的统计分析是对结构化、标准化的统计数据进行分析,往往描述的是时间维度上调查对象发生的变化,对现在的发展情况进行刻画,对将来的情况进行统计意义上的预测。大数据时代,大数据发展的战略意义是对飞速增长的数据进行专业化的分析,寻找数据间的相关关系,不是仅仅占有庞大的数据信息。大数据时代的数据分析是利用大数据处理技术整理非结构化或半结构化数据,将其转化为更易处理的结构化数据,应用数据挖掘技术寻找数据之间的内在关系,获取有价值的信息。统计部门的主要工作将从数据生产逐渐转移到数据分析上来,数据分析将成为统计工作的一个关键性环节并变得越来越专业化。

5 大数据在价格统计工作中的研究与应用

传统的价格统计是通过比较不同时期固定数量篮子同质可比的产品和服务价格进行计算编制的。以最常见的CPI(居民消费价格指数)为例,目前是由全国500多个市县、60000多个调查网点,由近4000名物价调查员到各种不同类型的采价点采集价格资料编制而成。这种价格统计方法受限于人力、物力的影响,调查的规格品数量受限很大,同时手机、电脑等更新换代较快的产品对同质可比这一要求也提出了很大的挑战。大数据的发展为创新价格统计方法,突破传统价格统计框架创造了条件。

英国统计局针对网络抓取数据和扫描数据,采用大数据聚类价格指数方法(Clustering large datasets into price Indices,简称CLIP)[5]计算各类商品基本分类以下不同时期相同产品类群的价格之比,突破了传统调查人力、物力的限制。国内拥有大数据的企业如阿里巴巴集团,也利用淘宝、天猫、支付宝等网络平台的数据推出淘宝网络零售价格指数(简称淘宝ISPI),同样利用大数据突破了人力、物力的限制。针对电子类产品更新换代快,同质可比原则难把握的问题,欧盟统计局采用动态方法和多边比较方法(GEKS法、TPD法、GK法等)[6]编制商品分类价格指数,很好的解决了同质可比问题。

当前笔者所在统计部门的价格统计工作也面临着两个问题的挑战:一是由于CPI是月度指数,所以与淘宝网络零售价格指数相比,在实时性、感受符合度上都有差距,存在不能及时体现消费市场结构变化、数据发布滞后时间偏长等方面的不足。二是在价格统计中怎样合理体现网络购物交易规模逐年攀升的趋势。

为弥补现行CPI的不足,笔者所在的统计部门以大数据技术为基础,设计了两种价格指数模型,将其作为CPI的有效补充。一种是基于超市商品交易信息为数据来源的商超价格指数计算模型。另一种是基于网络商品价格信息为数据来源的网络商品价格指数计算模型。

两种价格指数模型均以现行CPI编制框架为基础进行编制;与月度价格指数CPI不同,这两种价格指数均为日度价格指数;两种价格指数的数据来源不同,一种是直接从超市商品交易信息中通过自动提取技术提取指数模型需要的相关价格信息,另一种是基于网络爬虫技术从电商网站海量的商品信息中提取需要的网络商品价格信息;两种价格指数的权数设定不同,一种是商品在报告期或基期的销售额占同分类下所有代表品销售额的比重,另一种是商品在报告期或基期的成交额占同分类下所有代表品成交额的比重;两种指数均是参照编制CPI所用的拉氏公式进行计算编制的。

因为上两种价格指数均为日度价格指数,所以与CPI相比,可以反映短期内价格变动趋势,在实时性、感受符合度等方面更好。在价格监测领域,它们预警能力更强,可以弥补CPI的不足,给党委政府和老百姓提供更为及时的价格趋势信息,为相关部门价格调控提供决策支持。

由图2可看出,当T>1 000 K时,反应式(1)~(5)的ΔGΘ<0,说明上述反应在热力学上是可行的。从热力学分析可知,苏打焙烧可能破坏Me3O5型固溶体结构,使Ti、Fe、Mg、Mn等元素形成的复杂黑钛石型化合物转变为简单的化合物而被溶解,SiO2和Al2O3则形成Na2SiO3和NaAlO2而被溶解。

【参考文献】

[1]马建堂 . 大数据在政府统计中的探索与应用[M]. 北京 : 中国统计出版社,2013.

[2]维克托.迈尔.舍恩伯格. 大数据时代[M].浙江:浙江人民出版社,2012.

[3]UNECE Task Team. Classification on Big Data [EB/OL].UNECE Wiki, June 2013.

[4]国家统计局,国家发展改革委. 非传统数据统计应用指导意见 [EB/OL]. 国统字 [2017]160 号 .

[5]Office for National Statistics of UK. Research indices using web scraped price data: clustering large datasets into price indices (CLIP)[EB/OL]. 30 November 2016.

[6]Eurostat. Practical Guide for Processing Supermarket Scanner Data [A]. 2017.

[中图分类号]B841.2

[文献标识码]C

[文章编号]2096-1995(2019)08-0181-02

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

戚伟业:大数据在统计中的应用研究论文
下载Doc文档

猜你喜欢