侯学慧:大数据环境下网络舆情演化规律及预警模型问题探讨论文

侯学慧:大数据环境下网络舆情演化规律及预警模型问题探讨论文

内容摘要:大数据环境下的网络舆情事件可以分为突发型、持续型、混合型等几类。通过对网络舆情真实案例的数据提取、挖掘、分析,可得到结构化数据,在此基础上,再对新闻报道量与时间序列的离散点进行函数拟合——基于多项式函数拟合,可建立预警数学模型。利用其图像特征分析所得出的突发型舆情事件符合指数函数分布,持续型舆情事件符合多峰值的高斯分布函数,混合型舆情事件符合分段函数的概率分布特征。据此有助于做好网络舆情监控、对策制定、预警机制建立等工作。

关键词:函数拟合;多项式函数;最小二乘法;相关系数

一、问题提出

在大数据环境下网络信息和舆论信息的监管及正确引导是非常重要的,保护好我们祖国、人民群众的安全是我们警察的使命和义务。网络舆情是指由于各种事件的刺激而产生的通过互联网传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合[1]。我们生活在一个突发事件频发的大数据网络时代下,突发事件是指突然发生,造成或可能造成严重的社会危害,需要采取应急处置措施予以应对的公共事件[2]。突发事件的网络舆情演化是指“没有对事件源和次发生事件进行人工应急干扰的原扩散路径”[3]。突发事件爆发后,一定会引起网络舆情发生,在各种网络平台上信息快速传播和蔓延下,政府部门要发挥常规的传播模式的效力,还要积极有效的给予矫正型的传播影响作用,才能更好有效地控制网络舆情发酵。为此,必须要做到日常网络舆情的预警、完善舆情监管监督机制、加强舆情的导控。

目前对网络舆情的预警机制的定量研究,更多是注重网络舆情的构成因素和因素之间的关系方面,没有对时间序列模式与网络舆情的变化规律上研究更深入。在大数据的网络环境下,只有定量、深层次地分析网络舆情的动态演化过程,分析其函数特征和演化规律,才能针对将要发生的网络舆情做出预警应对。针对现有的网络上热门案例,通过信息提取工作包GooSeeker等信息提取软件,对案例建立事件发生的时间与每天新闻发布数量做函数拟合,得到网络舆情随时间周期的发生、发展、扩散、消亡的动态演化过程,从而建立网络舆情导控和预警机制。

研究者们运用不同的模型和方法对网络舆情演化阶段和构成因素进行分析,建立预警机制,主要包括三方面的研究。一是建立预警指标因素体系,注重于影响舆情变化的关键指标讨论。二是基于情感倾向性分析,这里包括群众的态度是“赞同”“中立”“反对”,从海量信息中,发现潜在的危机隐患。三是基于数据挖掘的预警,这种方法是从网络中提取和目标相关的数据,构成数据集。本文就是基于真实数据,从数据挖掘中找到规律,从而做到更加精确的预警。

大数据环境下网络舆情具有突发性、群体性、不确定性等特征,本文从其特征分析,建立数学模型符合基于多项式函数的数据特征。可以通过已有的国内热门网络舆情案例与实际数据挖掘,建立网络舆情演化模型,分析、量化舆情动态,做好预警模型。分析事件的真实性、敏感度、主题吸引力、发布者影响度、主题聚焦度、舆情观点倾向度、参与度、容忍度、变化频度、突变度等。在大数据环境下建立基于多项式函数的网络舆情预警机制,并用MATLAB软件对预测数据作仿真实验。从而建立网络舆情随时间发展,每个时间段的预警信号及相关参数、关键词、事件的动态演化预警模型。

二、研究方法与模型

持有、接受、表达某种相同、相似的观点的人在社会人群中所占的比例超过一定的阀值,这时候这种观点就上升为舆论[1]。我们从定量的、模型化的分析大数据环境下网络舆情的演化规律:

(一)分析网络平台(微博)得到相应的数据背景

我们主要针对互联网上的网络舆情进行研究、分析。关注的新媒体网络平台主要是新闻网站-微博等。也通过相应的舆情观测平台和软件得到相应的数据和图表。利用数据挖掘和分析突发事件随时间的演化规律和普通民众对突发事件的关注度等指标因素,从而做到下一阶段的舆情预警机制,并且对下一次发生的相同突发案件有应对的预警模型。

(二)数据挖掘、分析方法

组织是人类走向文明的产物。作为一个独立的概念,组织传播最早见于西蒙(H.A.Siom)在1945年发表的关于管理行为的文章中。由于受到企业管理理论的影响,组织传播研究早期主要集中于组织内部的管理传播技巧方面。20世纪70~80年代后,在社会学、文化学等学科的介入下,组织传播研究呈现多元化的趋势。现在,西方的组织传播研究可分为功能主义、解释主义和批判学派三大取向,并以功能主义为主导[12]。韦伯将组织定义为一个为完成协作任务而进行的具有一定目的性人际活动的体系。在一个组织中,交流能否被接受取决于上层领导的权力合法化的程度。

(三)函数拟合方法-基于多项式函数的网络舆情演化规律

对通过信息抓取的获得的数据进行挖掘、分析,我们知道突发事件的网络舆情新闻报道数量(普通民众关注、评论程度)是分布在事件发生时间轴上的一些离散的点,制止整个事件最终消亡。在网络热门事件影响力较大、关注度较高的突发事件,往往这些离散点成规律性的变化,假定任何事件的真实发展都可以被看成是时间的连续函数。在网络的大数据背景下,从已经发生的突发事件案例挖掘的数据入手,量化的去分析网络舆情的演化和发展。根据散点图的规律,拟合相应的多项式函数,找到其函数分布规律,从而做好更好、更早、更加正确的预警机制和应对手段。

p(x,a)=a*e-a*x(x>0)X是时间变量;其中a>0是分布的一个参数,常被称为率参数,即每单位时间发生该事件的次数。其中我们定义a是影响因子,a决定着突发事件网络舆情的开始影响程度,a的值越大,整个事件的影响力就越大,所以在预警时一定要关注影响因子的值。

我们通过分析案例的散点图,得到拟合多项式函数图像,发现突发事件网络舆情的演化规律,从概率和统计学上分析,服从指数分布(突发型)和多峰值高斯函数分布特征(持续型),函数分布成分段函数型(混合型)。

分析突发事件的舆论数据是一些在时间轴上离散的数据点。根据其图像,规律的发现散点图符合基于最小二乘法的多项式函数拟合。下面给出一些定义:

分段概率分布函数(混合型):根据分析具体的舆情案例,有些较为复杂的突发事件舆情演化,呈现出前段图像走势呈指数函数分布,后段呈多峰值高斯分布函数模型,其函数如下:

所导致的病死率可达27% ~43%[1-2]。有效预防呼吸道内细菌定植的措施有助于控制VAP的发生,但所有的措施需同时施行,这些综合性的措施即为集束化管理措施。我院从2010年下半年根据证据查找后更新了集束化管理措施,效果显著,现报道如下。

多项式函数:形如:的函数,叫做多项式函数,它是由常数与自变量x经过有限次乘法与加法运算得到的。

最小二乘法:通过最小化误差的平方和找到数据的最佳拟合函数,对挖掘出的真实数据再取定相应的多项式函数Px(x),使得误差的平方和E2达到最小值,定义:

E2=,其中Yi为数据的真实值、p(xi)为数据预测值,我们称pn(x)为拟合函数或最小二乘解。

(3)中期 在肝衰竭早期表现基础上,病情进一步发展,ALT和(或)AST快速下降,TBil持续上升,出血表现明显(出血点或瘀斑),20%<PTA≤30%(或 1.9≤INR<2.6),伴有 1 项并发症和/或1个肝外器官功能衰竭。

由最小二乘法原理,可以知道拟合函数应该满足:

2.网络主体的形成:群集、群体与社会整合。网络中的人们一开始并没有像政治生活中的共同体那样拥有统一的行动纲领。个体也没有孤立,他总是能够在网络世界中寻觅到一些和自己相似的人群并产生共鸣。所以网络民主的主体形态既不是铁板一块,也不是一个个孤立的原子,而是一种多元中心的格局,这个格局的形成经过群集、群体两个过程并最终整合为一个统一的网络社会。

(四)突发事件网络舆情演化的函数特征分析——基于概率的指数型分布、多峰值高斯分布函数演化规律

笔者采用根据大数据背景下具体真实案例的数据进行挖掘和分析,做出相应的散点图,通过MATLAB软件进行函数拟合,得到与网络舆情的动态演化最贴近的连续曲线-多项式函数拟合,建立数学模型,分析其演化特征。在考虑是否符合相应的函数拟合时,采用最小二乘法[5]来分析误差,找到离散点的最佳的函数逼近,在有限数据的基础上建立合适的、合理化的数学模型。利用变量之间的相关系数R,分析拟合的多项式函数的预测值与真实值之间的具体的相关性。

指数分布(突发性):在概率论和统计学中,指数分布是一种连续概率分布,可以用来表示独立随机事件发生的时间间隔。一个指数分布的概率密度函数是:

对于大数据背景下,已有的网络突发案件的客观数据,利用网络爬虫、信息提取工具包Goo-Seeker中的抓取规则和网页信息抓取工DataScraper等,抓取网站的新闻报道数量和相应的时间分布,以及频繁出现的关键词等指标因素[4]。通过DataStudio定义搜索信息属性为url(网页链接地址)、title(新闻标题)、time(新闻发布时间)、num(新闻机构名称以及新闻关注条数)

《普通高等学校图书馆规程》第四十条规定:高等学校应支持图书馆有计划地开展学术研究,组织和参与国内外学术交流活动,发表研究成果[4]。 目前,我国各高校已充分认识到学术会议的重要性。例如笔者所在学校已把参加学术会议算为科研积分,规定:参加国际性学术会议、全国性学术会议,每次积2分;参加省级学术会议,每次积1分。但个人所得参加学术会议部分年度总积分不超过4分[5]。由此可见,国家和高校是鼓励图书馆员参加学术活动的。

多峰值高斯分布模型(持续型):高斯分布又称为正态分布,根据具体的案例分析,我们不难发现持续型舆情案例,呈现峰多值的高斯分布,其函数如下:

p(x)=;其中n是指峰的个数决定。当n=1时,是一次单峰的持续型舆情案例,当n=2时,是双峰的持续型案例;ai是第i个峰值的影响因子,ai决定着突发事件网络舆情该峰值的影响程度,ai的值越大,整个事件的影响力就越大。βi是事件的关注因子,当βi的值说明在该峰值内的关注时间长短,越大时,说明事件关注时间较长。

三是政府应引导国产钾肥与境外开发资源由竞争走向竞合,构建协调统一的境外预警机制。国内外统筹规划已经成为重新布局中国钾盐战略的切入点,在国内产能提升、境外资源即将释放之时,国内外的统筹规划、协调发展并制订合理的“游戏规则”显得尤为重要。随着境外开发企业取得的共识,境外钾盐企业与国内企业应当“从竞争走向竞合”,实现资源开发与市场渠道的合作共享。此外,“走出去”的企业应建立彼此的互信关系,协调统一地构建境外舆情监测机制,提升危机公关意识和应对能力,化解政治、环保、人文、地域矛盾。

三、模型的分析与建立、求解

(一)模型的分析、建立概述-网络舆情随时间序列函数的特征分析

按照关于社会治理、公共安全服务类、法制信息化、刑事案件等四类典型舆情案例进行分析,具体分析其动态变化情况。

1.“天津毒瘤造假”事件——突发型。2017年1月16日,在天津市静海区独流镇的一些普通民宅里,每天生产着大量假冒名牌调料,雀巢、太太乐、王守义、家乐、海天、李锦记等市场知名品牌几乎无一幸免。这些假冒劣质调料,通过物流配送或送货上门的方式,流向北京、上海、安徽、江西、福建、山东、四川、黑龙江、新疆等地区。监测关键词[(天津+独流)*(造假+假冒+劣质+制假)*(调料+窝点)]

由古至今,彝族人的家庭教育通过言传身教、口口相传得以相伴而生,相随而长。在此环境下,彝族小伙张伦一家家庭和睦,也得到了汉族媳妇谢婉娇的尊重。

我们在大数据环境下,通过数据爬虫得到1周之内新闻网站、大型媒体传播情况。如图1、图2:

图1 天津毒瘤造假舆情监测传播数据

图2 多项式拟合——天津毒瘤造假舆情传播

建立基于最小二乘法的多项式函数拟合,新闻报道量与时间序列的函数关系满足:

2.“怕冷哥”事件——持续型(单峰值)。2016年1月央视记者大闹冬运会的安检口的视频,全长1分44秒。根据视频显示,该名携带央视“媒体记者”证的黑衣男子在某安检口和安检人员发生冲突,安检人员让其脱掉外套配合安检,男子态度嚣张,回复八个“我冷”,并质问“省领导需要安检吗?”因男子拒不配合工作,安检人员要求其从安检仪上下来,对此,男子回应“我冷,怎么了,小心我投诉你”,这类社会公共服务类舆情事件。监测关键词[(新疆+安检)*(央视+记者)*冬运会]

通过对微博信息数据爬虫抓取,得到一周之内微博网友的传播情况。

图3 多项式拟合——怕冷哥事件舆情传播

3.“法制信息化建设”舆情——持续型(双峰值)。2017年2月23日,由中国社科院法学研究所和社科文献出版社共同发布的《法治蓝皮书·中国法院信息化发展报告》指出,借助法院信息化的应用和发展,中国法院的司法透明度得到全方位提升,信息化为司法公开提供了平台,拓展了司法公开的广度与深度。监测关键词[法院信息化发展,法院*信息化,法院*智慧,法治*蓝皮书,社科院*法治]。

微博发表转帖数与时间序列的函数关系满足:

社会信息化水平的提升,使得企业对人才素质的要求逐渐提高。企业传统的会计核算方式,以人工核算为主。在互联网背景下,人工核算已经逐渐被“电算化”所取代。在此环境下,会计专业教学,必须适应时代以及企业的需求,对自身的教学模式进行改革。通过提高会计电算化课程教学效率及质量的方式,提高人才的综合技能。

通过舆情观测软件,得到15天新闻媒体的传播情况。

图4 法制信息化建设舆情监测传播数据

图5 多项式拟合——法制信息化建设舆情传播

新闻报告量与时间序列的函数关系满足:

4.“杭州保姆纵火案”事件——持续型(双峰值)。2017年6月22日,杭州小区保姆纵火案是于北京时间6月22日凌晨5点左右在杭州某小区发生的纵火案。该事件造成4人死亡(1位母亲和3个未成年孩子)。23至24日,受害人家属林生斌的家庭生活细节、作案保姆的嗜赌欠债背景曝光,由此,夹杂着群众对消防部门和物业部门的救援行动的质疑,以及对保姆、家政行业深入反思的舆情呈井喷之势。

截至目前,山水集团在境内发行的71亿元债券中尚有45亿元未进行兑付。此外,多数债权银行对山水集团信贷业务到期的处理也大多采取展期或借新换旧方式,若山水集团贷款形成不良,将对债权银行到期贷款续作造成较大不利影响,同时对其他债权银行履行债权银行公约造成一定障碍。

通过舆情观测软件,得到30天新闻媒体的传播情况。监测关键词[保姆*家政,小区*物业,消防设施*消防]。

图6 多项式拟合——杭州保姆纵火案舆情传播

新闻报告量与时间序列的函数关系满足:

(二)模型的分析、建立概述——网络舆情演化的概率分布特征分析

我们把大数据背景下的突发事件网络舆情事件分成三种类型:突发型、持续型、混合型。突发型:“天津独流造假”事件属于突发型舆情事件,函数满足:p(x,a)=a*e-a*x。

根据研究基于多项式函数拟合的图像分析,符合指数型分布的特征。该类事件的突发性强、破坏性大、社会影响大。事件发生频率低,具有很大的轰动性,事发后引起数量大的报道,但随着网民对该事件的了解和解决,网络舆情呈现出递减趋势,直至消亡。

持续型:“怕冷哥”事件、“法制信息化建设”“杭州保姆纵火案”事件都属于持续型网络舆情。均满足多峰值的高斯分布函数特征;其函数表达式:

p(x)=;具有持续型特征的网络舆情事件,从事件发生到高涨,一般经历一段时间的发展过程,从而达到第一次峰值,通过社会、政策、公安等采取一定措施后,在舆情生命周期内达到平缓,但由于信息传播的波动性或者应对舆情处理措施等,可能会再一次达到峰值,最终消亡。

混合型:既包含“突发型”特征,也包含“持续型”网络舆情特征,我们用分段函数表示这一类舆情演化:

选取南京体育学院有慢跑和慢跑中听音乐习惯的学生为研究对象,在南京体育学院田径场进行为期一周的调研,调研结果发现,有慢跑习惯、不听音乐的24人,有慢跑并且有听音乐习惯的18人,一共42人。让这42人在慢跑前填写一次问卷,慢跑后再次填写问卷发放问卷,立即回收。慢跑时长不少于20min,速度不限。音乐类型不限,根据自己爱好而定。

四、模型的推广与评价

综上,本项目研究的主要脉络是,在大数据条件下选取网络上的热点事件进行分析,利用了网络爬虫、信息提取工具包等手段,抓取了网站的新闻报道量和相应的时间分布以及在热门事件中出现的关键词,以网络舆情演化特征为标准,将舆情事件分为突发型、持续型、混合型,对网络舆情每一种类型进行了数据挖掘,分析相应的新闻报道量和时间分布的离散点,构造出合理的多项式函数。由此探索网络舆情演化规律,有助于对网络舆情事件的监控和预警,为引导网络舆情提供参考。由于案例样本量有限,成果的推广价值尚有待进一步验证。对数据的抓取,也可能存在一定程度的误差,这可能影响舆情演化规律探索的精确性。而且影响网络舆情的因素很多,本文中考虑的因素未及全面,研究还需要继续深入。

[参考文献]:

[1]曾润喜.网络舆情管理工作机制研究[J].图书情报工作,2009,53(18):79-82.

[2]李岳德,张 禹.《突发事件应对法》立法的若干问题[J].行政法学研究,2007(4):769-75.

[3]曹学艳,韦永智,赵鹏飞.非常规突发事件演化机理研究[C].第四届国际应急管理论坛,2009:68-71.

[4]李玉海,李友巍.网络舆论风险评估体系探讨[J].情报杂志,29(6):128-131.

[5]贾小勇,徐传胜,白欣.最小二乘法的创立及其思想方法[J].西北大学学报(自然科学版),2006(3):507-511.

Exploration on Evolution Law and Early Warning Model of Network Public Opinion

HOU Xue-hui

Abstract:Online public opinion events can be classified into emergent,persistent and mixed types in the big data environment.Structured data are obtained through extraction,excavation and analysis of the data from the real cases.An early warning mathematical model is established based on polynomial function fitting of discrete points of news reporting volume and time series with these structured data.Analysis from the image features shows that the emergencies public opinion event conforms to the exponential function distribution,the persistent public opinion event conforms to the Gaussian distribution function with multiple peaks,and the mixed public opinion event conforms to the probability distribution of the segmented function.It is helpful to monitoring network public opinion,making corresponding countermeasures,and establishing an early warning mechanism.

Keyword:function fitting;polynomial function;least squares method;correlation coefficient

中图分类号:C916

文献标识码:A

文章编号:1674-5612(2019)05-0104-07

基金项目:2017年度新疆维吾尔自治区高校科研计划项目(XJEDU2017S061)

收稿日期:2019-09-03

作者简介:侯学慧(1986—),女,河南人,新疆警察学院信息安全工程系讲师、网络安全教研室主任科员,研究方向:数学与应用数学、数学建模。

(责任编辑:吴良培)

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

侯学慧:大数据环境下网络舆情演化规律及预警模型问题探讨论文
下载Doc文档

猜你喜欢