王娟:基于演化博弈论的政府开放数据质量控制机制研究论文

王娟:基于演化博弈论的政府开放数据质量控制机制研究论文

摘要:[目的/意义]政府开放数据质量是影响人们获取利用开放数据的重要因素,研究政府开放数据质量控制机制,对优化政府开放数据质量,促进公众更广泛地参与,实现政府开放数据宗旨具有重要意义。[方法/过程]本文运用演化博弈理论,构建了有限理性的政府开放数据提供者和使用者的复制动态模型,分析在不同的数据质量监管状态下博弈双方的进化稳定策略以及实现政府开放数据质量控制的均衡条件。[结果/结论]研究结果表明:高于一定阈值的监管激励能够有效控制政府开放数据质量,建立科学的数据质量评估标准和数据质量过滤机制,降低提供优质数据的额外成本以及完善数据发布机制有利于提高数据质量控制效率。

关键词:政府开放数据;数据质量控制;进化稳定策略;演化博弈

政府数据开放(Open Government Data,OGD)是政府或政府控制的实体产生的,可以被任何人自由使用、重用和再分配的数据[1]。增加政府透明度和数据重复利用是开放政府数据的两个主要目的[2]:一方面政府开放数据可以提高政府机构的透明度,提升政府公信力,改善政府与公众之间的关系,并使公众能够直接获取数据并利用数据参与数据驱动型决策[3],将被动沟通模式转变为更为积极的公众参与[4];另一方面,开放政府数据供社会公众重复利用以增值和创新,从而有效盘活政府数据资源,创造巨大的社会公共价值,推动经济增长和社会发展,提升国家整体竞争力[5]。

尽管开放政府数据旨在释放政府、公众的创新潜力,但其有效使用也面临着重大的挑战[6]。第四版开放数据晴雨表报告指出,政府开放数据通常是不完整的、过时的、质量低下且零散的。在政府机构中,政府数据开放的时间表、流程和责任往往不够明确。这使得整体开放数据管理和发布工作非常薄弱,而且容易产生多种错误[7]。学者Lourenco对美国、英国、加拿大等7国的政府开放门户网站进行评估,研究发现这些门户网站缺乏独立或外部数据质量控制机制[8]。

数据质量是开放数据价值的关键[9],是影响政府数据开放实现增强政府透明度和数据重复利用两个目标的主要因素。开放数据的质量的不确定性对开放数据价值的实现造成巨大威胁。政府开放数据的使用者通常不是数据提供者,如果没有专业的数据科学的知识来甄别数据基础质量的能力,可能获取低质量的数据却无法意识到数据质量不足,从而影响根据低质量数据分析结果做出的任何后续决策[10]。此外,政府数据开放中的数据质量控制失败不仅会妨碍数据的再利用,还会给开发数据门户的访问和使用带来负面影响[11]。

由图3(a)可知,四氢呋喃用量对稻谷中叶黄素的提取量影响较小。原因是稻谷中游离的叶黄素含量少,四氢呋喃对叶黄素的溶解性较好,可对稻谷中的叶黄素充分溶解。据Yuhas等[25]的研究显示,加入四氢呋喃有利于将叶黄素与脂肪分开,提高叶黄素提取效率和回收率。另外,四氢呋喃的沸点较低,易通过旋转蒸发除去。考虑到节约实验试剂的原则,选取四氢呋喃的用量为15mL,此时叶黄素提取量为(1.56±0.02)μg/g。

因此,在当下我国政府数据开放平台建设的关键节点,有必要对如何控制政府开放数据质量进行深入研究,探讨并实施可行的数据质量控制方案,从而促进政府开放数据的获取再利用,实现开放政府数据的宗旨,推进政府数据开放行动的顺利开展。

目前,环境水样中BPA的检测方法主要有高效液相色谱法、气相色谱-质谱法[5-7]、酶联免疫法[8]、分光光度法、荧光法、电化学法等[9-12]。这些方法在准确度上虽然有一定优势,但由于样品前处理时间长、对仪器要求高、操作复杂、经济成本高,一种新型快速有效的双酚A检测方法亟待被开发。

政府开放数据提供者为保障开放数据质量,需要投入大量的技术成本、人力成本和资金成本等;开放数据使用者需对政府所发布的开放数据予以积极关注、跟踪参与、浏览检索下载等,甚至在某些情况下需要按规定取得许可才能访问获取,所以获取政府数据需支付资金、时间、技术等成本。从经济理性角度来讲,政府希望以较少的成本提供开放数据让更多的公众关注、获取、利用开放数据从而促进数据重复利用、释放数据潜能;而用户期望通过支付成本获取优质数据,并能通过数据开发利用实现数据价值,否则可能拒绝获取政府开放数据。可见,政府开放数据提供者与使用者间就数据质量问题存在着博弈。因此,针对政府开放数据质量控制研究引入博弈论的研究方法具有可行性与必要性。

本文从演化博弈角度出发,将政府开放数据提供者和使用者作为博弈双方,分析双方在政府数据开放与获取过程中的进化稳定策略,找出政府开放数据质量控制的均衡条件,进而探讨政府开放数据质量控制机制,以期从开放数据供给的源头上进行质量控制,从而提高数据质量以及政府开放数据的利用率。

1博弈模型选择与构建

政府开放数据的供给与获取是个动态变化和重复的过程。由于数据质量通常是一个多维和相对主观的概念[12],数据质量的优劣也较难判断,并且大多政府开放数据普通用户和一般政府工作人员往往不具备专业系统的数据科学的知识,因此,政府开放数据参与者的理性通常是有限的,他们必须在博弈过程中学习,经过反复试错以寻找较好的策略,通常不是一开始就能找到最优策略。

有限理性博弈分析的关键是确定博弈方学习和策略调整的模式[13]。由于政府开放数据参与者普遍存在理性的局限性,在反复博弈过程中具有大群体随机配对的特征,适宜采用演化博弈中的“复制动态”模型来进行分析。

1.1 博弈方与策略选择

政府数据开放构成一个生态系统,开放政府数据(OGD)可被视为政府和公众之间的跨界信息共享,包括企业、非营利组织和个人[14]。因此,政府开放数据环境下最基本的参与者包括政府开放数据提供者和开放数据使用者。政府开放数据提供者包括各级政府部门、非盈利组织、承接政府外包业务的服务商等;开放数据使用者则是通过政府开放数据门户、平台获取并利用开放数据的任何用户,包括企业、非营利组织、科研团队和个人。

依据政府开放数据实践的实际情况,参与者还包括政府开放数据管理者,对数据的供给和利用起到一定审核、管理作用的组织和机构,通常是专门的政府开放数据管理部门或配备具有专业数据统计技能的专家的第三方部门机构[15]。

本文依据政府开放数据质量的好坏将其分为优质数据和劣质数据两类,其中优质数据主要指具有规范性、完整性、一致性、准确性、及时性、可解释性和可信度高的高价值密度的开放数据,而劣质信息与之相反,主要指无序重复、缺漏、不一致、模糊、滞后的低价值密度的开放数据。在政府开放数据生态环境下,数据提供者根据自身拥有的数据资源状况选择提供优质数据或劣质数据,而数据使用者在无法判断数据质量优劣的情况下选择是否获取数据。

在有限理性博弈的分析框架中,其核心不是单个博弈方的最优策略选择,而是有限理性博弈方组成的群体成员的策略调整过程、趋势和采用稳定性。此处稳定性指群体成员采用特定策略的比例不变,而非某个博弈方的策略不变[13]。因此采用生物进化的“复制动态”机制来模拟该博弈策略调整模式。

1.2 研究假设

为了便于构建政府开放数据参与者针对数据开放与获取的演化博弈模型,结合政府数据开放实践的实际情况,本文做出如下假设。

假设1:博弈中存在两类博弈群体,分别是政府开放数据提供者(G)和开放数据使用者(U)。博弈方群体G(以下简称G)的策略集合为{g=优质数据,b=劣质数据};其中提供g类数据的比例为x(0≤x≤1),则提供b类数据的比例为1-x。同时,博弈方群体U(以下简称U)在不明确其数据质量优劣的情况下,可选的策略集合为{a=获取,r=不获取};其中获取数据的比例为y(0≤y≤1),则采取“不获取”的策略的比例为1-y。

假设2:博弈群体G若提供b类数据,其成本C1(C1>0)是提供开放数据所需的基本成本,提供的数据价值为V2;若提供g类数据,其成本为C1+e(e>C1,为额外付出的成本),提供的开放数据的价值为V1(V1>V2且V1≥C1+e)。如前文所述,政府开放数据提供者和使用者在政府数据开放与获取的过程中均需付出一定的成本,在此处抽象为使用者U通过支付积分给G来获取开放数据,G期望以较低的成本获得最多的积分。

假设3:开放数据使用者(U)要获取所需的开放数据,需先在相应的政府数据开放平台进行信息搜寻,其成本为C2。对于检索到的数据集,若获取数据,则视为支付F2(C1+e≤F2≤V1)的积分给G,否则支付为0。用户期望通过支付积分获取优质数据,从而获得数据的价值V1(C1+F2≤V1)。

假设4:开放数据管理者(M):其职责主要是对G提供的数据进行质量审核,依据判断结果来选择是否予以G一定的积分。但由于开放数据的所属的领域千差万别,且除数据的表达形式即数据规范外,数据的内容优劣和实际效用都很难在使用之前正确判断,因此M在对数据进行审核时,会出现一定概率的判断失误。因此,假定G提供优质数据,则M通过检查能完全识别,并给予激励积分F1(F1>0);若G提供劣质数据,则M以p(0≤p≤1)的概率将其误判为优质数据,并给予激励积分F1;否则,M判断为劣质数据,其积分为0。

1.3 基本模型

根据上述研究假设,可得博弈双方的得益矩阵如表1所示,G和U分别代表数据提供者群体和数据使用者群体,他们是有限理性博弈方。

表1政府开放数据提供者G和数据使用者U的得益矩阵

数据使用者U获取(y)不获取(1-y)数据提供者G优质数据(x)F1+F2-(C1+e),V1-F2-C2F1-(C1+e),-C2劣质数据(1-x)p×F1+F2-C1,V2-F2-C2p×F1-C1,-C2

根据表1得益矩阵,可知博弈方G中提供g类数据和b类数据的两种博弈方成员的期望得益Gg、Gb和群体的平均得益分别为:

Gg=y×[F1+F2-(C1+e)]+(1-y)×[F1-(C1+e)]=F1+y×F2-(C1+e)

Gb=y×[(p×F1)+F2-C1]+(1-y)×(p×F1-C1)=p×F1+y×F2-C1

同理,可得博弈方U群体中选择“获取”、“不获取”两种博弈方成员的期望得益Ua、Ur和群体的平均得益分别为:

Ua=x×(V1-F2-C2)+(1-x)×(V2-F2-C2)=V2-F2-C2+(V1-V2)x

Ur=x×(-C2)+(1-x)×(-C2)=-C2

对博弈方群体G进行复制动态公式分析,由此可得政府数据开放者的复制动态方程为:

同样对博弈方群体U进行复制动态公式分析,可得博弈方U的复制动态方程为:

根据D Friedman[16-17]提出的方法来研究均衡点的稳定性,可计算除该系统的雅克比矩阵J:

其中,∂(dx/dt)/∂x=(1-2x)(F1-pF1-e)

通过地下水系统脆弱性评价分析,可以掌握不同等级脆弱性的地下水分布,特别是了解地下水水质脆弱性高,即易于污染地区的状况。这样,地下水水质保护就能做到更有针对性。地下水系统的脆弱性,除了地下水系统固有的对污染物的敏感性外,还与天然或人为造成的污染源的位置和类型以及污染物距离含水层的相对位置和污染物的运移情况等因素有关。因此,应了解和掌握受水区地下水系统对污染物的固有敏感性,研究评价受水区地下水系统的脆弱性。

∂(dx/dt)/∂y=0

本文采用Opricovis[19]提出的模糊值转清晰值 (Converting Fuzzy Data Into Crisp Scores, CFCS)方法将模糊评价语言变量进一步转化为清晰值。

∂(dy/dt)/∂x=y(1-y)(V1-V2)

采用偏最小二乘回归分析法进行谱效分析。以紫荆叶提取物的量化特征图谱中共有峰的峰面积为自变量(X)、紫荆叶提取物对酪氨酸酶活性的抑制率为因变量(Y),采用DPS 7.05分析软件建立偏最小二乘回归方程,分别筛选出与酪氨酸酶活性抑制作用有显著相关性的色谱峰。

∂(dy/dt)/∂y=(1-2y)[(V1-V2)x-(F2-V2)]

由此可得,系统的4个局部均衡点的Det(J)和Tr(J)值见表2。

表2局部均衡点的Det(J)和Tr(J)值

均衡点Det(J)Tr(J)(0,0)(F1-pF1-e)(V2-F2)(F1-pF1-e)+(V2-F2)(0,1)-(F1-pF1-e)(V2-F2)(F1-pF1-e)-(V2-F2)(1,0)-(F1-pF1-e)(V1-F2)-(F1-pF1-e)+(V1-F2)(1,1)(F1-pF1-e)(V1-F2)-(F1-pF1-e)-(V1-F2)

从表2中可以看出,对于4个局部均衡点,Det(J)和Tr(J)值分别受[F1(1-p)-e]、(V2-F2)和(V1-F2)的影响,由于假设中V1≥F2,因此(V1-F2)始终大于0。[F1(1-p)-e]取值可分为大于、等于和小于0三种情形,(V2-F2)取值可大于和小于0(暂不考虑等于0),因此组合可分为6种情况,下一章将对每一种情况进行讨论。

2政府开放数据的博弈模型分析

针对上述政府开放数据的三大参与者,本文分别对管理者存在与否两种情况进化博弈分析,剖析政府开放数据提供者G和开放数据使用者U的进化稳定策略和实现政府开放数据质量控制的均衡条件。

2.1 无监管状态下的政府开放数据质量控制分析

在无监管状态下,即不存在开放数据管理者,因此第三方管理者给予的激励F1=0,即[F1(1-p)1-e]=-e<0。由公式(1)、(2)可推导出无监管状态下博弈双方的复制动态方程分别为:

同公式(2))

山西铁矿床类型主要有沉积变质铁矿床,其次为接触交代-热液铁矿床,风化淋滤沉积型铁矿床,另外有零星分布的震旦纪、寒武纪沉积型菱铁矿矿床等。

根据进化稳定策略的性质,一个稳定状态必须对微小偏离干扰具有稳健性才能称为进化稳定策略,以下分别对博弈方群体G与博弈方群体U分别进行进化稳定策略分析。分析公式(1-1)可知,由于x∈[0,1],且e>0,所以令可得x=0或x=1是稳定状态。分别对政府开放数据提供者这两种稳定状态具体分析如下:

言谈之中,夏碎娒偏爱与大家聊一些人生感悟。其实,在我们这些晚辈看来,他就像是一位语重心长的长者,令人心生敬佩。

表3情形(1)的局部稳定分析

均衡点Det(J)Tr(J)均衡结果(0,0)+-ESS(0,1)-不确定鞍点(1,0)++不稳定(1,1)--鞍点

图1情形(1)系统动态演化相位图

在此情形下,博弈模型中的(0,0)构成演化系统中唯一的ESS稳定均衡点,即{提供劣质数据,不获取}。这表明在无监督状态下,且劣质数据的价值远小于开放数据用户获取数据的所支付的成本时,最终的稳定策略是G提供劣质数据,U采取“不获取”策略。

在情形1中,当(V2-F2)<0时,即劣质数据的价值小于开放数据用户获取数据的所支付的积分时,该系统均衡点的局部稳定性分析如表3所示。

当x=1时,即开始时G群体中所有博弈方都提供g类数据,那么采取提供b类数据的策略的博弈方就不会出现。因为对有限理性的博弈方来说,一定要有模仿的对象才能进行模仿,而不会主动有意识地改变策略[13]。

当出现干扰因素使0<x<1时,即个别博弈方由于偶然因素改变策略,提供b类数据时。根据公式(1-1)可知,由于e>0,故这些博弈方会发现此时他们的期望得益大于平均得益,那么提供b类数据的的博弈方会逐渐增多,最终使x=0。即干扰使少量博弈方偏离x=1的稳定状态时,复制动态会使结果越来越远,反而收敛于0,因此x=1不是进化稳定策略。

当复制动态过程达到x=0时,有限理性的博弈方G找到本博弈的纳什均衡,且该稳定状态对少量扰动具有稳健性;因此x=0是唯一的进化稳定策略,即在博弈方G群体中,所有成员均提供b类数据。

对于博弈方U来说,分析公式(2)可知,令则即当时,y总是处于稳定状态,即群体U所有的博弈方都不会改变策略。又由于(V2-F2)<0,V2<V1,所以由上述分析可知,博弈方G在该情形下的进化稳定策略是提供b类数据(x=0),所以在复制动态机制演化下,最终此时令可得y=0和y=1为稳定状态。

与情形(1)述分析类似,该演化博弈的进化稳定状态是博弈方G在e>0,(V2-F2)>0的条件下始终提供b类数据(x=0),且故始终成立。令可得y=0和y=1为稳定状态。

上述分析证明,在用户获取政府开放数据成本高于低质量数据的价值条件下,如果没有管理者对政府开放数据质量进行监督控制,最终会导致整个政府开放数据处于劣质状态,而数据使用者无法使用、逐步退出,形成恶性循环,进而破坏政府开放数据生态。

马尔库塞认为,马克思与黑格尔理论的不同主要表现在二者对理论的阐述方式不同,即马克思事实上完成了一种形而上学思考方式的变革,“马克思理论的所有哲学概念都是社会的和经济的范畴,然而,黑格尔的社会和经济范畴都是哲学的概念。即使马克思的早期著作也不是哲学著作。它们表述的是哲学的否定,尽管它们是用哲学的语言表述的。”[1](P235)尽管如此,黑格尔的思想与马克思主义并不是根本对立的,马克思主义是黑格尔哲学的直接继承者,二者之间的同一性在于他们都从理性中获得了自己的力量,要求世界服从理性。

3.2.1 启用第三方数据质量监控机制

表4情形(2)的局部稳定分析

均衡点Det(J)Tr(J)均衡结果(0,0)-不确定鞍点(0,1)+-ESS(1,0)++不稳定(1,1)--鞍点

图2情形(2)系统动态演化相位图

这表明在无监督状态下,且劣质数据的价值大于开放数据用户获取数据的所支付的成本时,博弈模型中的(0,1)构成演化系统中唯一的ESS稳定均衡点,即{提供劣质数据,不获取}。

当0<y<1时,即如果初始时刻开始时有部分博弈方采取“获取”策略,根据公式(2),由于故即采取该策略的期望得益小于平均得益,因此采取该策略的博弈方会逐渐减少,最终回到U所有博弈方均采取“不获取”策略状态。因此y=0为唯一的进化稳定策略。

当0<y<1时,即初始时刻有博弈方采取“获取”策略,根据公式(2),由于故即采取该策略的期望得益大于平均得益,因此采取该策略的博弈方会逐渐增多,经过复制动态演化,最终会实现y=1,即U所有成员均采用“获取”策略。因此y=1是唯一的进化稳定策略。

这说明即便“劣质”数据质量存在某些方面的缺陷,例如格式一致性、或规范性等方面欠缺,若“劣质”数据的价值大于政府开放数据用户获取所需支付的成本,依然具有一定的价值,用户仍倾向获取该类开放数据。

研究表明,当学生处于不被延误刺激而产生的不被影响的情境中时,对成功的期望更强烈,但是当学生的情绪是不稳定且反复的这种情况,在面临一个行为、任务、活动时自我效能会受到影响。大学生就业焦虑这种情况就是一种不稳定的复杂的情绪体会,会伴随毕业时间的临近而越来越严重,也会伴随成功就业而消失。所以,在面临毕业就业问题时,大学生要学会控制自己的情绪,对就业形势全面看待,不要以为盲目乐观或过于自卑,再就业选择上作出错误的决定。要学会自我调节,通过各大招聘网站了解就业信息,借助老师和已就业学长学姐对职场的感知帮助自己判断,并为自己制作一个符合自身能力以及未来期望的职业规划方案。

2.2 监管状态下的政府开放数据质量控制分析

在监管状态下,政府开放数据管理者M对G提供的数据进行审核。若审核为优质数据,M给予G激励积分F1即(F1>0),否则积分为0。分析公式(1)可知,由于x∈[0,1],当时,始终成立,此时x的所有状态都是稳定状态。

在情形3中,当[F1(1-p)1-e]>0且(V2-F2)<0时,该系统均衡点的局部稳定性分析如表5所示。

表5情形(3)的局部稳定分析

均衡点Det(J)Tr(J)均衡结果(0,0)-不确定鞍点(0,1)++不稳定(1,0)-不确定鞍点(1,1)+-ESS

图3情形(3)系统动态演化相位图

在此情形下,该演化系统中唯一的ESS稳定均衡点是(1,1),即{提供优质质数据,获取}。

对G进行复制动态分析,当时,令可得x=0和x=1是稳定状态。根据公式(1),当0<x<1时,由于因此即初始状态时群体G有部分博弈方提供g类数据,该策略的期望得益被发现大于平均得益,因此采取该策略的博弈方会逐渐增多。经过复制动态的学习过程,最终所有博弈方都会提供g类数据,达到x=1的稳定状态,因此x=1为唯一的进化稳定策略。

对U进行演化博弈的复制动态分析结果类似情形(1)、(2),令则由于x=1是博弈方G唯一的进化稳定策略,在复制动态机制演化下,最终所以在此条件下,博弈方U将采取“获取”策略。该演化博弈的最终将达到G提供g类数据、U选择“获取”这样一个理想的稳定均衡状态,实现双赢。

在情形4中,当[F1(1-p)1-e]>0且(V2-F2)>0时,该系统均衡点的局部稳定性分析如表6所示。

表6情形(4)的局部稳定分析

均衡点Det(J)Tr(J)均衡结果(0,0)++不稳定(0,1)-不确定鞍点(1,0)-不确定鞍点(1,1)+-ESS

图4情形(4)系统动态演化相位图

由图4可知,情形(4)中的博弈双方的唯一ESS稳定均衡点也是(1,1),即{提供优质数据,获取},但与情形(3)的演化路径有所区别。具体而言,根据公式(1)博弈方的G的演化博弈策略分析结果同情形(3),经过多次演化,最终所有博弈方G达到x=1的稳定状态。

而当(V2-F2)>0时,可知恒成立;在此条件下,博弈方U复制动态分析结果类似情形(2),将总是倾向采取“获取”策略,因此y=1是唯一的进化稳定策略。

说明,在有政府开放数据质量控制的情况下,如果劣质数据的价值大于用户的支付,博弈方G总是愿意提供优质数据,而博弈方U始终采取获取数据策略。

在情形5中,当[F1(1-p)1-e]<0即且(V2-F2)<0时,该系统均衡点的局部稳定性分析如表7所示。

但是从市场构成来看,行业总体的低迷并没有阻止产品结构升级的步伐。中怡康监测数据显示,2018年1-9月,两门冰箱全渠道占比为21.1%,线上零售额同比微涨0.4%,线下零售额则同比大幅下降13.2%;三门冰箱全渠道零售额占比与两门冰箱基本持平,为21.2,%,其中线上零售额同比增长17%,而线下零售额则同比下降17.7%;多门冰箱全渠道份额提升至31.5%,其中线上同比大幅增长61.9%,线下同比增长7.5%;对开门冰箱全渠道零售额占比为25.6%,其中线上实现35.3%的同比涨幅,线下则出现8.4%的跌幅。

表7情形(5)的局部稳定分析

均衡点Det(J)Tr(J)均衡结果(0,0)+-ESS(0,1)-不确定鞍点(1,0)++不稳定(1,1)--鞍点

由表7和图5可知,该条件下进化稳定策略(0,0)以及博弈演化路径与情形(1)是完全一样的。这表明在监督状态下,监管者给予数据提供者的激励小于一定阈值时且劣质数据的

图5情形(5)系统动态演化相位图

价值小于开放数据用户获取数据的所支付的积分F2时,最终的稳定策略是博弈方G群体提供劣质数据,博弈方U群体采取“不获取”策略。

3.2.2 建立科学的数据评估标准和数据质量过滤机制

他常常一坐就是许久,混沌的眼珠望着庭中空荡荡的一方似在想着什么,是想这原来的花呢,还是栽花的人?我总是在心里问着,为什么把花搬走了呢,看着那空荡荡的一块总觉得心里硌得慌。人来人往,没有谁停下看他一眼,人来人往,他也不曾看谁一眼,原来,沉默不是冷漠。

表8情形(6)的局部稳定分析

均衡点Det(J)Tr(J)均衡结果(0,0)-不鞍点(0,1)+-ESS(1,0)++不稳定(1,1)--鞍点

图6情形(6)系统动态演化相位图

同样,由表8和图6可知,该条件下进化稳定策略(0,1)以及博弈演化路径与情形(2)是完全一样的。这表明在监督状态下,监管者给予数据提供者的激励小于一定阈值且劣质数据的价值大于开放数据用户获取数据的所支付的成本时,博弈双方最终的稳定策略是G提供劣质数据,U采取“获取”策略。博弈方双方的博弈策略调整和最终稳定策略会与无监管状态时一致,无法发挥政府开放数据质量控制的作用。

3研究结论与启示

然而,政府数据有别一般的网络数据,某种情况下存在一定的特殊性和敏感性,因此这种数据质量监控机制也需要考虑制定一系列保密协议等事项,以确保政府数据开放共享在充分的数据安全内推进。

表96种情形的假设条件与博弈均衡结果汇总

情况有无数据质量监控“劣质数据”价值V2与用户支付F2比较均衡结果(1)无V2<F2(劣质数据,不获取)(2)无V2>F2(劣质数据,获取)(3)有V2<F2(优质数据,获取)(4)有V2>F2(优质数据,获取)(5)有V2<F2(劣质数据,不获取)(6)有V2>F2(劣质数据,获取)

通过上述6种情况对博弈双方政府开放数据提供者群体和政府开放数据使用者群体进行复制动态分析,可得出相关的结论与启示。

3.1 研究结论

首先,启用第三方数据质量监控机制有助于实现政府开放数据质量控制。对比所有情形,唯有情形(3)与情形(4)的进化稳定策略为{优质数据、获取},达到政府开放数据生态环境下的理想状态。即当政府开放数据质量处于监管状态下且激励时,才会导致博弈双方的进化稳定策略为分别是政府数据开放提供者提供优质数据,而政府开放数据使用者采取“获取”策略。

其次,对比情形(3)与情形(5),可以发现在监管状态下,监管者提供的激励只有达到一定阈值即才能达到数据质量控制目的这一条件,反映了管理者M提供的激励w1、误判率p和博弈方G为提供优质数据额外支付的成本e之间的关系。它说明:①在博弈方G为提供优质数据所额外付出成本e为定值的情况下,博弈方F是否提供优质数据主要取决于与监管者M相关的两个变量:误判率p和激励F1。当M将劣质数据误判为优质数据的概率较大即p值较大时,需要支付更多才能激励G提供优质数据。②博弈方G是否提供优质数据与提供优质数据所付出的额外成本e的大小有关。只有当e≤F1×(1-p)时,G才愿意提供优质数据。

2.3.1 使用剂量。我国的水产养殖户在应用微生物制剂的时候,养成了不断增加剂量的不良习惯。然而,微生物制剂的使用数量并不是愈多愈好,在水体中投入过量的细菌反而会造成池塘生态体系失衡,导致氧溶解速率不断下降,最终造成水产养殖品出现应激反应。然而,使用剂量偏少又无法发挥相应的作用。单位面积水体的最适微生物制剂使用剂量需要相关工作人员进行更深层次的研究。

这表明,在进行政府开放数据质量管理监控时,需要建立较为完善的数据评估标准,强化数据质量判断过滤机制,降低数据质量的误判率p,真正将优劣数据甄别开来,则可减少相应的监控管理激励支付,进而提高数据质量控制效率。另外,减少政府部门提供优质数据的额外成本也是促进政府开放数据提供者尽可能提供优质数据的有效途径之一。

最后,综合情形(1)~(6),可以发现在情形(2)与情形(4)、情形(6)中,即用户支付小于劣质数据的价值的条件下即(V2>F2),可以发现所有的博弈方U最终都会采取“获取”的稳定性策略。这启示我们两点:①降低用户获取政府开放数据的成本有利于促进公众获取利用政府开放数据;②尽管“劣质”数据质量存在某些方面的缺陷,但在一定程度上仍具有价值,只要大于用户获取的支付,则应及早发布出来,可以“先发布出来,再改善”[18]。

3.2 研究启示

根据上述研究结论,结合对博弈模型的分析,本文提出如下建议:

6、定植:定植时间根据当地终霜期定植,一般在终霜期前10天可定植。定植时采用1∶1法,株距0.80米,行距1.30米,亩保苗600株左右,横垅刨埯,埯深15厘米,浇水时在水里兑上20%地菌虫杀,每亩1公斤。浇水量根据墒情而定,避免浇水过多,土壤过于粘重,栽苗后影响幼苗生根。栽苗时顶水埯苗,以免涝干,注意栽苗时苗子叶不能低于垅面,苗栽好后,扣上70cm宽地膜,扣地膜后直接出苗压膜,出膜时膜口直径要在10cm,不要把叶片压入土内。

在情形2中,当(V2-F2)>0时,即劣质数据的价值小于开放数据用户获取数据的所支付的积分时,该系统均衡点的局部稳定性分析如表4所示。

根据本文对政府开放数据参与者的演化博弈分析,外部独立的第三方数据质量监管机构对政府开放数据提供者予以一定的激励,能够有效地促使其发布优质数据,实现数据质量控制。第三方数据质量监管责任可以由具备专业数据科学知识、技术以及政府开放数据领域专家等组成的团队或组织机构承担。

通过上述6种情况(见表9)对博弈双方政府开放数据提供者群体和政府开放数据使用者群体进行复制动态分析,可得出相关的结论与启示。

在情形6中,当[F1(1-p)1-e]<0即且(V2-F2)>0时,该系统均衡点的局部稳定性分析如表8所示。

根据研究结果,建立科学的数据评估标准和数据质量过滤机制有助于提高政府数据质量的控制效率。数据质量评估标准在过去被学者和相关从业者研究的比较充分[19]。政府开放数据的评估标准可以结合实践,调查分析用户和管理者的数据质量需求,合理的借鉴已有的研究成果,从而制定科学的数据评估标准。

数据质量监管机构则可以利用其专业知识设置多维度审查机制,并内化在数据质量检查程序中,以降低数据质量误判率。此外,针对数据质量核查采取二级或多级复核制,也能从流程层面提高判断准确率,从而达到政府开放数据质量控制的目的。

3.2.3 降低提供优质政府开放数据的额外成本

本文中的博弈模型分析证明了降低政府开放数据提供者发布优质数据所需支付额外成本,有助于控制政府开放数据质量。具体可从以下两方面展开:

1)制定并实施统一的元数据规范,不仅有利于从标准层面提升数据质量,提高数据标准化程度、关联度和一致性,有利于大规模处理和分析数据,更能从政府开放数据供需层面提高生产和消费的效率[20],从而减少政府开放数据提供者为发布优质数据所额外付出的成本。

2)通过统筹划分政府开放数据类别,制定标准化数据生命周期管理流程,从而系统地规范与控制数据产生—收集—组织整理—存储—发布整个周期,将数据质量管理流程贯穿所有环节。

3)将数据自动发布流程嵌入IT系统中,确保实现数据集的最新版本和最完整版本始终直接从源代码获得,能够减少对手动上传发布数据的依赖[7],也有助于降低为提供优质数据而产生的额外成本。

3.2.4 完善数据发布机制

尽管部分“劣质”数据质量存在某些方面的缺陷,但在某种情况下具有一定的价值潜力,一些具备相当数据处理技术的用户对及时获取原始数据具有强烈渴求,他们擅长从不完善的数据中获取价值。但是在政府数据开放实践过程中,常常由于官方谨慎的态度阻碍数据开放的执行,从而迟缓发布数据。

本文认为开放政府数据应兼顾质量与效率,可以借鉴Stephan Shakespeare提出的“数据双轨发布”[18]的办法,能兼顾政府数据开放“快速及时发布”和“以高质量为核心”的双重目标,是一种既实用又实际的双效方式[21]。

此外,应将传统的自上而下的政府开放数据发布机制与“自下而上”的市场需求拉动数据发布的机制结合起来[22],依靠自上而下的数据发布方式将优先级别高,影响范围广的数据高质量的发布出来,以推动经济增长;同时针对用户的请求进行合理性、可行性评估分析后,发布相应的数据集,以充分释放政府开放数据能量。

3.2.5 设置政府开放数据事中控制机制与事后控制机制

上述演化博弈,分析了监管状态下政府开放数据可实现质量控制的条件。从控制获取的方式和时点上讲,这种监控机制属于事前控制。这种进化博弈分析思路可以衍生到事中控制和事后控制机制。事中控制方式例如充分纳入用户参与机制[23],在政府数据开放平台设置互动交流版块,供用户点评、分享、评论数据以及对数据质量进行评价打分等方式,这样的即时反馈可以促使政府开放数据发布优质数据,推动政府数据开放、获取利用发展步入良性循环。

在宏观管理层面,中央政府专门大数据管理部门或者机构,设置一定的激励机制,对地方政府开放政府数据实践的优秀案例给予相应奖励,从而促进全国各地积极推动政府开放数据工作,优化开放数据质量,推动政府开放数据事业的蓬勃发展。

4结束语

政府开放数据受到全世界各国的高度重视,已成为不可逆转的趋势[2]。在政府开放数据生态环境下,开放数据质量是影响用户获取与利用数据的关键因素。实施政府开放数据质量控制,有利于促进政府开放数据提供者发布优质数据以及使用者积极获取利用开放数据创造公共价值,形成良性循环,从而优化开放数据生态系统的健康发展,构建可持续的政府数据开发生态系统。

本文从博弈的视角,针对政府开放数据的提供者群体和使用者群体就政府开放数据供给与获取进行了演化博弈分析,剖析了实现数据质量控制的条件,得出相关结论与启示,对优化政府开放数据质量,促进公众更广泛地参与具有一定的指导意义。本文的博弈在一定的假设环境下进行,并假设以积分形式奖励提供优质数据,未考虑其所需耗费的成本因素,存在一定的局限性,有待后续进一步完善研究。

参考文献

[1]Open Government Data[EB/OL].https://opengovernmentdata.org/,2018-04-08.

[2]Attard J,Orlandi F,Scerri S,et al.A Systematic Review of Open Government Data Initiatives[J].Government Information Quarterly,2015,32(4):399-418.

[3]Torchiano M,Vetro A,Iuliano F.Preserving the Benefits of Open Government Data by Measuring and Improving Their Quality:An Empirical Study[C]//IEEE Computer Software and Applications Conference,2017.

[4]OECD.Annex B.Reaping the Benefits of Cloud Computing,Web 2.0 and Open Data:OECD Country Experiences[J].Sourceoecd Science & Information Technology,2010:172-185.

[5]郑磊.开放政府数据的价值创造机理:生态系统的视角[J].电子政务,2015,(7):2-7.

[6]Sadiq S,Indulska M.Open Data:Quality Over Quantity[J].International Journal of Information Management,2017,37(3):150-154.

[7]Global Report | Open Data Barometer[EB/OL].https://opendatabarometer.org/4thedition/report/,2018-04-09.

[8]Rui P L.An Analysis of Open Government Portals:A Perspective of Transparency for Accountability[J].Government Information Quarterly,2015,32(3):323-332.

[9]Murillo M J.Evaluating the Role of Online Data Availability:The Case of Economic and Institutional Transparency in Sixteen Latin American Nations[J].International Political Science Review,2015,36(1):42-59.

[10]Yeganeh N K,Sharaf M A.A Framework for Data Quality Aware Query Systems[M].Springer Berlin Heidelberg,2011:478-489.

[11]Detlor B,Hupfer M E,Ruhi U,et al.Information Quality and Community Municipal Portal Use[J].Government Information Quarterly,2013,30(1):23-32.

[12]O Hara K.Enhancing the Quality of Open Data[M].Springer International Publishing,2014:201-215.

[13]谢识予.经济博弈论[M].第3版.上海:复旦大学出版社,2007:210-211.

[14]Yang T M,Jin L,Jing S.To Open or Not to Open?Determinants of Open Government Data[J].Journal of Information Science,2015,41.

[15]徐双敏,崔丹丹.完善社会组织第三方评估工作机制研究——基于5市调查数据的分析[J].中南财经政法大学学报,2016,(6):52-57.

[16]黄如花,李白杨,周力虹.2005~2015年国内外政府数据开放共享研究述评[J].情报学报,2016,35(12):1323-1334.

[17]Friedman D.On Economic Applications of Evolutionary Game Theory[J].Journal of Evolutionary Economics,1998,8(1):15-43.

[18]Shakespeare Review of Public Sector Information[EB/OL].https://www.gov.uk/government/publications/shakespeare-review-of-public-sector-information,2018-04-04.

[19]Sadiq S.Handbook of Data Quality[M].Springer Berlin Heidelberg,2013.

[20]The State of the Union of Open Data[EB/OL].https://static1.squarespace.com/static/56534df0e4b0c2babdb6644d/t/5832fba103596e27e24fb969/1479736237872/the-state-of-the-union-of-open-data.pdf,2018-04-08.

[21]贾一苇,刘鹭鸶.英国完善数据开放提升政府服务质量经验借鉴[J].电子政务,2015,(12):105-116.

[22]Government Response to Stephan Shakespeare’s Review of Public Sector Information[EB/OL].https://www.gov.uk/government/news/government-response-to-stephan-shakespeares-review-of-public-sector-information,2018-04-08.

[23]Zuiderwijk A,Janssen M.Participation and Data Quality in Open Data Use:Open Data Infrastructures Evaluated[J].Acpi,2015.

TheOpenGovernmentDataQualityControlMechanismBasedonEvolutionaryGameTheory

Wang Juan1,2 Li Yuhai3

(1.School of Information Management,Wuhan University,Wuhan 430072,China; 2.Laboratory Center for Library and Information Science,Wuhan University,Wuhan 430072; 3.School of Information Management,Central China Normal University,Wuhan 430072,China)

Abstract:[Purpose/Significance]The quality of open government data(OGD)is an important factor that affects people’s access to data.It is significant to study the OGD quality control mechanism,which is helpful to optimize the quality of OGD the government,promote wider public participation.and achieve the goals of OGD.[Methods/Procedures]In this paper,evolutionary game theory was used to construct a copy dynamic model of boundedly rational open government data providers and users,to analyze the evolutionary stability strategies of both sides of the game and equilibrium conditions of the OGD quality under different data quality supervision conditions.[Results/Conclusion]It was found that regulatory incentives above a certain threshold could effectively control the OGD quality.In addition,it established scientific data quality assessment standards and data quality filtering mechanisms,reduced the additional cost of providing quality data and enhanced the data release mechanism which would improve data quality control efficiency.

Keywords:open government data;data quality control;evolutionary stable strategy;evolutionary game

DOI:10.3969/j.issn.1008-0821.2019.01.012

〔中图分类号〕D63-39

〔文献标识码〕A

〔文章编号〕1008-0821(2019)01-0093-10

收稿日期:2018-08-25

作者简介:王娟(1990-),女,博士研究生,研究方向:信息资源管理与配置、信息行为、竞争情报。李玉海(1962-),男,教授,博士生导师,研究方向:管理信息系统、信息资源管理与配置、竞争情报。

(责任编辑:郭沫含)

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

王娟:基于演化博弈论的政府开放数据质量控制机制研究论文
下载Doc文档

猜你喜欢