摘 要:[目的/意义]公共危机事件爆发后极易引发网络群体极化现象,造成严重的不良影响,甚至影响社会和谐稳定发展。因此对风险识别监控并有效预警的研究具有重要的理论及实践意义。[方法/过程]基于OCS-EGM模型提出了一种集识别、监控、预测、评级、治理于一体,覆盖网络集群行为在孕育后的形成、发展、消亡各个阶段的监测及预警模型设想,并利用Python和历史数据进行模拟实现与实例研究。[结果/结论]结果表明,该体系在适用性、可扩展性、体系化等诸多方面具有一定优势,有很高的应用前景。
关键词:网络集群;舆情预警;OCS-EGM;灰色预测
伴随着互联网技术的快速发展,网络“自媒体”平台日益成为民意表达的重要渠道[1]。在这种背景下,信息的传播速度、影响范围都大大增加,公共危机事件爆发后极易引起网民迅速聚集且持续关注,形成了具有不同观点导向的网络集群。但由于一些反社会性、蛊惑人心的煽动言论存在,诱发了许多恶性网络集群行为,形成了不健康的网络舆情环境。
鉴于网络集群的复杂性,可以将其看作一个具有不完全信息的“灰色系统”[2]。在这种思想的指导下,许多研究借助灰色预测方法,建立了网络舆情的研判体系和评级预警机制,以求为政府部门的舆情治理提供决策依据[3-4]。然而,网络舆情研判的重要前提是各大平台网络集群行为的识别监测,这一技术瓶颈使得大部分研究止步于理论模型。如何建立一套通过对网络集群行为在孕育后的形成、发展、消亡各个阶段识别、监控、预测、评级的监测与预警模型,最终实现对网络舆情治理,具有十分重要的现实意义。本文提出一种基于OCS-EGM模型的网络集群行为监测与预警体系,以求为政府有效引导网络集群行为并缓解网络舆情压力提供有力的决策支持。
1文献回顾
1.1OneClass-SVM理论知识 Perdisci R[5]等对单类技术(One Class)概念界定:一类分类技术在两类学习问题的情况下特别有用,其中一类(称为目标类)被充分采样,而另一类(称为异常类)被严重缺乏采样。一类分类的目标是围绕目标类的示例构建决策表面,以便区分目标对象和所有其他可能的对象,最终找到更精确的描述类即异常值[6]。支持向量机(Support Vector Machine,SVM)能够有效地处理大约10 000个维度的特征向量,并且提供了一种从示例中学习文本分类器的快速有效方法,LEOPOLD E [7]基于支持向量机技术,研究了频率与输入空间的不同映射并组合这些具有不同内核函数的影射,发现了如何在网络空间上预处理不同种类的语言。单类支持向量机的灵感由Schöolkopf B[8]等提出,这是一种计算二进制函数的算法,该函数应该捕获概率密度所在的输入空间中的区域(其支持)即大多数数据将存在于该区域中的函数,其中函数非零的地方符合Vapnik的原则,同样它也适用于数据分布的密度甚至没有明确定义的情况,例如有单一的成分。Manevitz L M[9]与Jin B[10]等分别基于OCS的研究基础上提出利用该技术对文档进行分类和检测时间序列的异常点。
1.2灰色预测模型知识灰色预测模型基于广泛的适用性范围以及耦合程度高等特点被不断研究、挖掘、应用[11]。谢乃明[12]等通过探究灰色预测模型的基本性质,首先提出离散灰色模型以及该模型所具备的特有质性;Wu[13]等在离散灰色模型的基础上通过分析其受扰动性规律,发现累加分数阶离散灰色模型可以很好地解决原有离散灰色模型的扰动性问题。同时对于灰色预测模型的研究、拓展、更新不断丰富着原有的灰色预测模型,其中Dang[14]等研究了GM模型组的起始条件并通过选择X(1)的第n个分量作为灰度差分模型的起始条件,对模型进行了改进;Garmona[15]等将灰色预测模型应用到了实践中即通过灰色预测模型对美国航空运输业的客流量趋势进行预测。2014年刘思峰[16]等教授对四种GM(1,1)基本模型即EGM、DGM、EDGM、ODGM进行了适用范围的细致分类,均值GM(1.1)模型中的参数-a为发展系数,b为灰色作用量,发展系数-a反映了及的发展态势,并指出带有非指数增长与振荡特点的序列首先选择微分、差分混合形态的EGM。
(4)加强施工成本控制。按照施工前期的成本预算,充分进行市场行情调研,对施工中的主要成本支出进行合理的走势预测,提高成本预算的可参考性。同时,施工单位要加强和财务等部门的沟通,财务部门要及时了解施工过程中各类物资的消耗、库存、运输和价格变动等具体情况,对资金投入进行预估,方便日后的成本管理工作。
1.3网络集群行为治理网络集群行为是网民群体围绕特定议题或利益事件的刺激,在网络环境中采取聚集、声援等形式同时也包含有线下群体性活动的行为[17],也是传统集群行为借助互联网手段进行的自我延续和创新[18]。根据网民在信息交互中表现的特点可以划分为“In-formers”和“Me-formers”[19]两类。其中,一部分“Me-formers”在面对一些有关公共事件的讨论时,可能会煽动言论令网络集群间出现极化[20]现象,即网民群体在针对特定事件进行沟通交流时,观点不断融合最终形成一种倾向。以“六条件论”[17]为指导,国内外学者对网络集群的形成机理与发生条件做出了一系列探究[21-22],根据网络集群行为发生、发展的特征,将网络集群行为划分为三阶段:“基于共同关注点”“基于共同信念”“基于共同行动目标”。针对网络集群行为发生的不同阶段进行探究,网络集群行为有其内在特征。从定性角度看,网络集群行为在承载体中的执行意向受到社会规范、群体认同等因素的影响[23-24],运用扎根理论并结合质性分析方法可以厘清网络集群行为执行意向关系特点及其作用机制[25]。而从定量角度看,许多研究者结合具体平台的数据进行了分析:例如,杨庆国[26]等对微博集群发生环境进一步细分并通过感知实验以及实证分析发现社会规范感知因素在理性环境下占主导作用,而不确定性信息和群际感染因素在非理性环境中占主导因素;吴鹏等基于BDI-Agent模型探究不同类型的网民信念与愿望的差异以及影响网民集群行为的因素[27]。网络集群行为的演变直接影响了网络舆情环境。网络舆情是事件经由互联网传播所引发的网民对该事件“认知、态度、情感与行为倾向”的集合,具有复杂性、感染性、交互性以及系统可控性。网络集群是网络舆情的产生主体和发生事端的基本受众,网络舆情是网络集群社会意识形态的综合体现与行为作用下的结果。因此,网络舆情治理的关键在于对网络集群行为演变进行监测和预警。
1.4网络数据的异常监测与预测用户集群的行为数据模式包含正常类行为和异常类行为两类数据,对这些异常行为数据进行监测识别对网络集群行为的管控和治理有着重要意义[28]。异常检测通常是利用正常行为数据构建假设模型h(x)和阈值ρ(满足h(x)≥ρ时,则判定x为正常行为数据),其中ρ根据经验误差α设定(满足P(h(x)≥ρ)≥1-α,P0为分布函数)[29]。在以往研究中,曹树金[30]等根据统计学原理,设计7个规则算法和阈值,对网络舆情突发异常进行预警识别,夏一雪[31]等运用Gompertz模型进行舆情趋势区间监测并定义阈值对数据异常进行评级。虽然这些方法都取得了一些成效,但是缺乏自动化应用和依照数据特征自适应的调整能力。而网络集群行为数据通常具有高维特征,单纯的异常检测算法耗时较长,无法对异常类行为数据进行快速有效识别。Kown[32]等提出KRX(核RX)检测算法,处理经过核函数投影到高维线性空间后的数据;Chen[33]等首先提出利用稀疏表示应用到算法中以加强非线性处理能力对目标进行检测。信息不完全的系统称为灰色系统[2],针对网络舆情的复杂性,可以利用灰色系统理论进行分析预测。根据衡量网络舆情严重程度的指标可以进行舆情的灰色预测和预警[34]。同时,灰色预测模型还具有非常好的耦合性,可以与各类方法进行结合。在网络舆情研究领域,最经典最广泛的灰色预测模型是GM(1,1)即利用舆情指数单数据序列建立模型,预测未来舆情指数[4]。在残差修正[35]后可以使预测结果更加精确化,并更好地反映网络集群行为与舆情环境的演化过程。现代智能算法和机器学习技术的进步为了灰色预测方法带来了新的生命力,融入了粒子群(PSO)等启发式算法的组合灰色模型[36]在实践中被证明有较好的效果,而模式识别[3]、支持向量机(SVM)[37]在网络舆情的灰色预测中也有诸多研究,这种基于灰色组合模型的网络集群行为和网络舆情的预测有着广阔的应用前景。
上述国内外学者的相关研究理论与研究成果能够对网络集群行为的演变过程、阶段特征以及网民参与行为意向进行较好地识别与制定有效的引导决策,同时也能够对网络舆情实现快速准确的预警,但我们综合上述理论研究成果和现实运用实践中,可以发现:a.很多学者针对异常数据检测和行为数据的趋势预测,都是分别利用One Class-SVM与EGM(1,1)模型对各类数据进行单一的技术执行,然而现实中的网络集群数据具有复杂性、瞬变性等特点,只是单一分开使用这两个模型并不能形成一种完整的体系。所以,本研究针对网络集群数据的阶段特点将OCS-EGM模型结合,使得该模型能够涵盖网络集群各个阶段并能够充分利用每个单一模型的优势,使得整个网络集群预警体系更加完备。b.网络集群行为是由突发公共危机事件所引发的,其演变过程、特征都会掺杂着网络环境中的复杂性,如果只针对网络集群行为中网民参与行为意向进行研究而提出引导策略,则会缺乏引导网络集群行为的时效性和整体性。所以本研究基于网络集群行为的演变过程并结合大数据等相关技术方法,从各阶段切入来实现对网络集群行为的监测与预警。c.基于网络舆情的复杂性特点,很多研究成果基于网络舆情数据提出通过灰色预测理论以及模式识别等方法对其进行预测与预警,鲜有学者关注并重视网络集群行为是治理网络舆情的关键。所以本研究基于网络集群行为数据可视化处理的基础上构建网络集群行为监测与预警体系,以期最终更好地治理网络舆情。基于此,本研究借鉴了网络集群行为演变过程及发展规律的研究基础,构建网络集群行为演变过程模型,并在其形成阶段集合异常数据监测模型、发展阶段灰色预测模型以及评级预警,引导网络集群行为良性发展并进入消亡阶段,最终实现对网络舆情的更好治理。
华中科技大学档案馆在学生毕业季即时推出了“毕业了,请办好这档子事!”,通过推文,提醒毕业生们一旦没有档案,会给个人生活及工作带来极大的不便,毕业后在转正、职称申报、办理养老保险、公务员或者考研政审,以及开具一些证明,如亲属关系、出国、考研等,都要用到档案。
2网络集群行为全生命周期演变过程
基于灰色系统理论,对预测结果利用后验差法进行检验。首先计算方差与的比值,其中其中然后根据公式当满足p≥0.95且C≤0.35时,模型的预测精度是极佳的。
国立北平图书馆编纂职位的业务工作是文献整理、编辑与出版,其职责之一是编制专题书目和索引,以服务于学术研究。例如王重民编《国学论文索引》(中华图书馆协会1929年出版)、赵万里编《北平图书馆善本书目》(国立北平图书馆1933年出版)、孙楷第编《中国通俗小说书目》(国立北平图书馆1933年出版)等。其职责之二是参与编辑馆刊和杂志。二十世纪三十年代国立北平图书馆出版有《国立北平图书馆馆刊》《读书月刊》《北京图书馆协会会刊》以及《图书季刊》(中、英文两版)等。赵万里、向达、王庸、贺昌群等青年编纂都曾参与上述馆刊和杂志的编辑事务。其职责之三是进行文献整理与研究,发表学术文章。
2.1形成阶段网民群体针对某一公共危机事件或者由公共危机事件引发的议题刺激形成自己的态度、看法或者言论。这是网络集群行为形成的初级阶段,包括网络留言等形式。此时的网络集群行为是发散性的,仅表现为网民群体利用网络这个自由空间以及该空间的虚拟和匿名性行使言论自由权利,但此时的网民群体已初具规模。
2.2发展阶段网民群体已经形成了对该公共危机事件以及议题的共识,极易受到网络舆论以及意见领袖的煽动,会出现线上或线下的集群行为。此阶段是网络集群行为的爆发阶段,线上的网络集群行为包括有:“人肉搜索”“网络恶意攻击”等形式;线下进行实际行动的网络集群行为较为典型的事件包括:“厦门反PX事件”“河北天主教事件”。
3.3预警及评级管理通过基准值作为界限范围和该阶段中各类公共危机事件的一些特征值进行对比来判断发展阶段网络集群行为的等级,并将网络集群行为的等级分为“红色”“橙色”“黄色”“蓝色”四个等级,xj(j=1,2,3,……,n),根据下列公式求得基准值。
3研究设计
基于上述网络集群行为演变过程模型的构建,在这一部分提出针对网络集群行为不同阶段的方法策略,即形成阶段采用OCS模型进行异常数据检测、发展阶段利用EGM模型进行数据预测,并综合历史数据进行评级管理,最终实现对网络集群行为的监测与预警,以期更好地实现对网络舆情的治理。
图1网络集群行为的演变过程模型
N0=max{x1、x2、x3……xn}
(1)
使得其满足:
基于灰色系统理论处理部分已知数据序列时,部分已知数据序列即x(0)(k)需要经过准光滑度检验,当满足ρ(k)∈[0,0.5]时,此时数据的光滑性好,标志着预测精度就越高。
正是由于社会力量的壮大,政府的职能简化但更注重精细化,在有限权责的范围下,政府的职责定位更加细致,现在已有足够的能力解决相应的社会问题,但针对社会问题的治理秩序却还未形成,依旧具有滞后性和懈怠性。政府在不断扩大社会服务量的同时,更要注重社会服务的保障体系和监管机制。治理机制的形成是社会发展的产物,政府的话语权与公信力似乎受到了大众的质疑,政府在治理中存在的不足也正是我们今后在改革过程中所需突破的方向,而在多中心协同治理模式中政府需要发挥更多的监管作用,通过监督和激励机制设置与企业保持良性互动的关系,并约束企业的不良私利行为。
(2)
其中xi是数据点,ξi是松弛变量。在上述目标和约束条件下,可以利用拉格朗日乘子法结合核函数进行求解[38],以此找到区分数据集的最佳球面。
3.2EGM灰色预测模型灰色系统是灰色控制系统的简称,这个系统只能掌握或控制部分信息[39],并根据部分有效信息提取关键信息以描述系统的演化行为规律和达到监控目的[40]。本研究基于灰色系统模型中运用最广泛的GM系列灰色预测模型中的EGM(1,1)模型即均值差分模型,它是刘思峰教授[16]根据原始数列的指数增长与振荡的特点提出的。根据该模型及网络集群行为的阶段性划分与演变过程可以构建网络集群行为的灰色预测模型,构建过程如下:
MSDS的正文应采用简捷、明了、通俗易懂的规范汉字表述,数字资料要准确可靠,系统全面。从该化学品的制作之日算起,MSDS的内容应每5ɑ更新一次,若发现新的危害性,在有关信息发布后的半年内,必须修订MSDS的内容。
第一步,根据某一热点事件在各大平台的关注指数得到原始预测序列。
x0(k)=[x0(1),x0(2),…,x0(k)]
(3)
第二步,根据变权一次累加生成算子(1-AGO)得到序列,其中k为时间序列编号:
(4)
第三步,由原始预测序列和一次累加算子可得EGM(1,1)的原始形式:
x0(k)+az1(k)=b
Cluster 0中通过对“碎片化”“APP”“移动互联网”“微信”“受众”“媒介融合”等具有代表性的关键词进行文献查询,发现大部分文章均提到了媒介、新闻客户端、传播等内容,综合可确定Cluster 0的研究热点为“移动新闻媒体”。
(5)
其中,为解出上式,可引入参数向量的最小二乘估计与Y分别为:
(6)
所以,EGM(1,1)模型对实际时间响应序列进行预测的公式为:
丹皮酚为无色针状结晶,气味特殊,熔点49~51 ℃,稍溶于水,能随水蒸气挥发,溶于乙醇、乙醚等有机溶剂,紫外吸收特征波长和吸光系数为274 nm(14 700)、291 nm(10 230)和316 nm(6 920)。丹皮酚的CAS号为552-41-0。
(7)
对于预测结果可以通过以下方法判断精度:
第一种,准光滑度检验。
(xi-a)T(xi-a)≤R2+ξi,∀i,ξi≥0
3月1日至3日在三亚举办的三亚国际音乐节,不仅成为国内外游客的狂欢节,也为海南推动供给侧结构性改革提供了“生动教材”。除了主会场,主办方还在三亚全城开展花车巡游、主题演唱会等文化休闲活动。音乐节带来的人潮,让酒店客满。三亚市旅游委负责人透露,海棠湾区域酒店客房入住率基本达到100%。这场音乐节无疑是成功的。主会场6万人,分会场十几万人,直播平台上数十万人。三亚国际音乐节的成功,受到了许多业内人士的关注。这场音乐节,被视为海南供给侧结构性改革的范例,主办方没要政府一分钱一寸地,通过优化供给产品挖掘了市场空间。
第二种,准指数检验。
基于灰色系统理论给出的数据处理原则:当一次累加生成算子(1-AGO)得到的序列满足σ1(k)∈[1,1.5]时,才能对x1(k)进行EGM(1.1)建模。
11月份内主要自然灾害是川藏交界金沙江滑坡堰塞湖灾害。11月3日17时40分左右,西藏自治区昌都市江达县波罗乡白格村“10·11”山体滑坡点再次发生滑坡,造成金沙江阻断,上游水位持续上涨,形成堰塞湖。泄洪后,由于蓄积水量过大出现较大洪峰,四川、云南等下游部分沿江地区受到一定影响。据统计,灾害共造成西藏、四川、云南3省(自治区)10.2万人受灾,8.6万人紧急转移安置;3400余间房屋倒塌,1.8万间不同程度损坏;农作物受灾面积3.5千公顷,其中绝收1.4千公顷;沿江部分地区道路、桥梁、电力等基础设施损失较为严重。
为了检验研究结论的稳健性,本文采用了Hummels等(2001)的方法以及企业出口中加工贸易的份额来衡量企业层面垂直专业化程度;采用差分计量模型以及进行子样本分析等方法进行分析,回归结果与基准模型基本一致,说明结论较为稳健。
b.网络集群行为“黄色”等级:满足其中两个。
本研究基于网络集群行为的形成过程与发展规律,借鉴现有的网络集群行为与网络群体性事件研究基础,结合乐国安教授的研究经验[22],总结出网络集群行为演化可以划分成3个阶段:
2.3消亡阶段在该阶段中,政府部门妥善处理公共危机事件并积极引导网络集群行为,并且伴随着议题热度的衰减,网络集群行为得到控制,缓解了舆情的压力。而如果政府部门未进行有效的疏导控制,网络集群行为也会随时间推移关注点转移走向消亡,但这种情况下的消亡往往耗时较长且伴随着政府公信力丧失、官方信任危机、一定的社会危害等负面结果。上述阶段可以表示为图1。
3.1OCS异常检测模型单类支持向量机通过将数据由低维映射到高维以解决线性不可分问题,将数据集划分为两类:一类是构造球面范围内的正常点,另一类是构造球面范围之外的异常点,以此实现异常检测[8]。上述过程可描述为构造一个中心为a、半径为R的最小球面,即:
区域协同发展的重要性不言而喻,因为现代经济发展的本质要求是开放、分工与合作。一组相互协调良好的区域经济,可以使地理位置、要素禀赋和产业结构不同的地区承担不同的经济功能,实现单个孤立市场无法达到的规模经济和集聚效应。
(8)
(9)
(10)
a.网络集群行为“红色”或者“橙色”等级:
第三种,后验差检验。
c.网络集群行为“蓝色”等级:满足其中一个或者一个都不满足。
坡屋顶民居立面主要分为墙体和屋顶两部分。沿河地区的民居,朝向院落的立面窗下多选用加工整齐的石条,窗台石会选用一整块条石,上面雕刻精美的图案,有些经济条件好的人家立面会部分或全部用青砖。山墙面及背立面墙体多下半部分用条石或大块的荒石,上半部分用夯土或土坯,表面抹麦壳泥;山区民居的墙体做法就随意一些,窗下墙部分一般用锻的比较工整的大块条石,上面用较小的碎石,有些民居上半部分也会用夯土或土坯,墙体表面都会抹泥找平,大多数山区民居的山墙及背立面都采用石块干垒的方式砌筑(图11)。
d.红色等级与橙色等级的界限区分为,根据待评价值集与基准值集为的标准差:通过两个值集的标准差对比,如果或者则把拥有较大标准差的值集定为红色等级,拥有较小标准差的值集定为橙色等级。其中,通过熵权法计算得到)。
3.4评级管理对应决策建议依据上述针对网络集群行为等级评级的结果,可将网络集群行为等级分别划分为“红色”“橙色”“黄色”“蓝色”这四个颜色等级。类似于关于气象灾害等级的划分,颜色越深代表着事态越严重,其中“蓝色”代表着该阶段的网络集群行为处于正常的发展态势,不需要进行干涉或者防范;“黄色”代表着该阶段的网络集群行为超过了正常值范围并且伴有扩大态势,虽然事件本身的关注度不高,但是也会充斥着各类谣言以及意见领袖的负面情绪引导,极易导致网络集群行为朝着不良态势上发展,这种趋势会使得网络集群行为等级从“黄色”变为“橙色”或者“红色”;“橙色”表示该阶段的网络集群行为发展态势已经很严峻但暂未大范围扩散,此时网络中的网民群体间的群际情绪已经趋向一致、稳定,意见领袖所进行的负面情绪引导极易引发负面性的网络集群行为;“红色”等级代表着该阶段的网络集群行为已经出现了大范围扩散,并面临着进一步升级、恶化的势态,甚至会引发线上线下的集群攻击行为,政府部门不仅要阻隔网络中煽动言论的传播,也要警惕意见领袖的恶意引导所导致的线上“人肉搜索”“道德审判”的攻击行为。
基于上述不同颜色等级网络集群的评级管理描述,本研究通过建立不同颜色等级的针对性预案决策以期能够为政府部门提供决策支持。a.如果此时针对预测结果的评级为“蓝色”,说明网络集群呈良性势态发展,意见领袖以及网民等群体对该事件关注度不高,公共危机事件热度较低,政府部门不需要做过多应急管理预案以及强制干预措施。b.如果此时针对预测结果的评级为“黄色”,说明网络集群势态呈现扩大趋势,网络中的各类谣言以及意见领袖的负面情绪煽动都会使得关注度不高的事件迅速蹿红,甚至演化至带有负面影响的恶性集群事件。政府部门应当迅速针对恶意造谣、散播谣言等行为的网民群体采取适当性的处罚,同时也要对部分意见领袖的负面情绪引导进行高压惩戒,并利用社交媒体对处理结果及时报道,实时更新动态。另外,也要对公共危机事件的未来发展态势保持着高度敏感性与警惕性。c.如果此时针对预测结果的评级为“橙色”,说明网络集群态势十分严峻但并未大范围传播、扩散,网民群体中的群际情绪趋向一致、稳定并且意见领袖做出的负面引导已经得到了大部分网民群体的群际认同,这给网络社会以及现实中的政府部门都带来了一定程度上的压力。所以政府部门在此时应当启动应急预案,迅速控制住带有煽动性质的网络舆论的传播以防止网络集群行为出现大面积扩散,抑制煽动性质的网络舆论,及时利用官方媒体培植舆论导向元素牢牢把控住话语权,进而引导网络集群行为朝着良好态势发展,缓解舆情压力。d.如果此时针对预测结果的评级为“红色”,说明网络集群势态已经大范围扩散,呈现进一步恶化、升级的趋势,甚至会引发线下的群体性事件。所以政府部门面对该行为态势,要针对不同的行为主体采取不同的措施,要继续对意见领袖主体实施高压惩戒措施,必要时要采取强制性的法律手段,同时也要建立激励机制以鼓励官方媒体采取积极引导决策,以期通过官方媒体的积极引导来增加意见领袖负面引导的成本。其次,面对网民群体要通过增加网民恶意参与的成本,例如实名制发表言论、个人信息核对制度等,这也会使得意见领袖在选择负面引导时无人响应,以期达到网络集群迅速消亡的目的。
3.5预测及预警体系运行路径网络集群行为监测与预警体系主要分为3个部分,即异常数据识别模块、网络集群行为发展灰色预测模块和预警评级及决策支持模块,分别对应解决形成、发展、消亡3个阶段的网络集群行为,其技术框架示意如图2所示。
其运作过程如下:该体系每隔一个固定的时间周期会利用爬虫爬取一遍各大社交平台的舆情数据,并运转OCS算法进行识别,当出现某一关注焦点话题(即网络集群行为形成阶段),一些平台数据会偏离历史数据成为异常值,此时,该监测与预警体系捕获到了异常数据;在发展阶段,基于EGM(1,1)灰色预测模型对网络集群行为发展趋势进行预测,进而判别出网络舆情的发展趋势;其次,针对预测出的结果通过具体的评级算法计算出预测结果的等级;最后通过对预警结果进行评级,从针对网络集群行为不同级别的决策建议中选择对应的解决方案,使得网络舆情信息进入消亡阶段。
图2网络集群行为监测与舆情预警体系技术框架
4OCS-EGM模型模拟实现与实例研究
结合前面的模型可以利用Python进行编程,模拟模型实现过程,通过2018年历史数据模拟监测和预警过程。因2018年发生公共危机事件的初始数据已难以获得,此处使用Scikit-learn中的数据生成器进行模拟,运行OCS后,模拟捕获结果示意如图3所示。
2.6 护士婚姻质量影响因素回归分析 以婚姻质量总分为因变量,将单因素分析结果中的编制、翻班与否以及月收入作为自变量,进行多元线性回归分析,结果见表4。
图3模拟异常数据识别捕获
据此可以调出9个2018年的公共危机事件舆情数据如表1所示。
表12018年9个公共危机事件舆情数据表
公共危机事件负面煽动评论数量负面煽动评论转发数量负面煽动评论点赞数量长春长生60.8824.648.86重庆万州公交坠江58.2723.627.53苏州马拉松摔国旗3.461.930.81泉港“碳九”泄漏17.546.393.87“杜嘉班纳”辱华22.895.376.65权健风波18.643.482.69非洲猪瘟疫49.5220.246.79五星酒店“毛巾门”8.153.452.13“鸿茅”跨省抓人6.842.142.28
以长春长生“问题疫苗”事件、“万州公交坠江”事件为例,可以调取其事件变化数据(如表2、表3所示),可以发现该数据在数列间显示弱单调性、增长区间的增长速率未达到指数级,符合振荡序列、非指数增长序列的基本特点,EGM模型具有良好的适用性。
表22018年10月17日长春长生“问题疫苗”事件原始数据
预测指标09时10时11时12时13时14时15时负面煽动言论转发数15.218.122.725.326.227.327.5负面煽动言论评论数44.347.349.452.656.957.459.8负面煽动言论点赞数8.810.212.615.417.618.818.9
表32018年11月2日万州公交“坠江”事件原始数据
预测指标09时10时11时12时13时14时15时负面煽动言论转发数11.112.315.518.219.320.220.3负面煽动言论评论数33.937.139.643.745.145.347.1负面煽动言论点赞数6.46.87.49.410.211.111.3
依据原始数列表3与表4中的第一栏数据,运用一次累加数列求得矩阵B以及列矩阵Y,通过最小二乘法对待定系数求解得a1=-0.059980,b1=19.329926,a2=-0.084860,b2=12.592655得到模型响应时间序列分别为:
将原始数据代入程序计算出结果,见表4与表5:
表4EGM预测数据模拟
指标(k)1234567x0(k)15.218.122.725.326.227.327.5x1(k)15.236.158.281.7106.7133.2161.4模拟值15.220.922.123.525.026.528.2
表5EGM预测数据模拟
指标(k)1234567x0(k)11.112.315.518.219.320.220.3x1(k)11.125.240.657.375.695.4117.0模拟值11.114.115.416.718.319.821.6
根据x0(k)与x1(k)的值做光滑度、级比指数检验,计算出结果,见表6与表7:
表6光滑度、级比指数检验
指标(k)2345678ρk()=x0(k)x1(k-1)1.1910.6290.4350.3210.2560.2060.179σ1k()=x1(k)x1(k-1)2.3751.6121.4041.3061.2481.2121.185
表7光滑度、级比指数检验
指标(k)234567ρk()=x0(k)x1(k-1)1.1080.6150.4480.3370.2670.212σ1k()=x1(k)x1(k-1)2.2701.6111.4111.3191.2621.226
由表6与表7结果可以发现,当k>3时,满足ρ(k)∈[0,0.5],σ1(k)∈[1,1.5]的条件,同时将建模后得到的C、p值与国际通用的精度检验等级参照表进行比对,得到S1=4.576,S2=1.370,S3=12.34,S4=1.193根据公式得到此时方差比C1≈0.299、C2≈0.097,根据误差率公式得到:p=1,根据C≤0.35或p≥0.95,可以得到模型的检验精度较好能够用来预测。当C≤0.35或p≥0.95时,说明模型检验精度很高,预测结果精确。
对于预测结果的评级,根据上述公式此处我们求得基准值为将上述运算过程对各事件评级,例如:将长春长生“问题疫苗”事件发展阶段10月17日13时的网友带有负面煽动的评论数、煽动评论的转发数、煽动评论的点赞数与万州公交“坠江”事件发展阶段11月2日13时的网友带有负面煽动的评论数、煽动评论的转发数、煽动评论的点赞数作为待评价的原始数据。由表3中的原始数据可得长春长生“问题疫苗”事件发展阶段10月17日13时的实际数据值集H1(56.9,26.2,17.6)与预测数值集H1'(55.0,25.0,15.9),然后查阅相关资料万州公交“坠江”事件发展阶段11月2日10时的实际数据值集H2(45.1,19.3,10.2)与预测数据值集H2'(43.8,18.2,8.5)。根据实际数据值集H1、H2与预测数据值集H1'、H2'分析判断,两个事件的实际数据值集与预测数据值集均符合红色或橙色评级条件。再进一步细分化这两个事件的等级,此处根据熵权法计算得出∂1、∂2、∂3所代表负面评论数量、负面评论转发数量、负面评论点赞数量这三个要素权重为∂1=0.32、∂2=0.33、∂3=0.35。并根据公式:其中可以分别计算出长春长生“问题疫苗”事件实际数据值集H1与预测数据值集H1'的标准差为σ1=28.171、σ1'=27.223;同时计算出万州公交“坠江”事件实际数据值集H2与预测数据值集H2'的标准差为σ2=22.471、σ2'=21.658;最后计算出基准值集的标准差为此时,可以发现实际值集的评级结果与预测值集的评级结果一致,同时也证明了该模型的准确性。所以,我们将长春长生“问题疫苗”事件的评级结果定为“红色”,万州公交“坠江”事件的评级结果定为“橙色”,并通过评级管理对应决策建议中的决策建议:a.针对长春长生“问题疫苗”事件,政府部门面对该行为态势,要针对不同的行为主体采取不同的措施,要继续对意见领袖主体实施高压惩戒措施,必要时要采取强制性的法律手段,同时也要建立激励机制以鼓励官方媒体采取积极引导决策,以期通过官方媒体的积极引导来增加意见领袖负面引导的成本。其次,面对网民群体要通过增加网民恶意参与的成本,例如实名制发表言论、个人信息核对制度等,这也会使得意见领袖在选择负面引导时无人响应,以期达到网络集群迅速消亡的目的。b.针对万州公交“坠江”事件,政府部门在此时应当启动应急预案,迅速控制住带有煽动性质的网络舆论的传播以防止网络集群行为出现大面积扩散,抑制煽动性质的网络舆论,及时利用官方媒体培植舆论导向元素牢牢把控住话语权,进而引导网络集群行为朝着良好态势发展,缓解舆情压力。
5结 论
本研究针对以往舆情预警研究中理论模型多,实践应用推广困难的问题,以OCS-EGM模型为主体,提出了一种覆盖网络集群行为各个阶段的识别、监控、预测、评级的体系,最终实现对舆情更好治理的设想,并使用Python结合2018年9个公共危机事件的网络集群行为的历史数据进行了模拟仿真。在仿真过程中可以发现该监测预警体系中的模型选择具有显著的四个优势:a.不仅具有覆盖网络集群行为发展的预测能力,还有对网络集群行为形成阶段异常数据的捕获能力。b.预测的主干模型与真实数据特点具有良好的适用性。c.模块之间高内聚,低耦合,具有可扩展性,评级、参数、模型方法库等都可以根据需求进行相对的调整。d.形成了网络舆情管控的全阶段、体系化的决策支持,具有很高的实践应用前景。例如,在网络集群行为分别为“红色”和“橙色”预警等级时,基于上述针对不同等级所提出的网络集群行为治理建议,严厉惩罚网络舆论煽动、意见领袖恶意引导的行为,强制增加网民参与成本,把控网络煽动舆论传播、利用官方媒体培植舆论导向因子的手段来引导网络集群行为来达到控制网络集群行为的目的。然而,本研究还具有一定局限性,该体系在文中仅有模拟原型,且数值仿真部分使用的也为部分历史数据,并非最新的实时数据,这是未来改进的方向。
参考文献
[1] 安 璐, 杜廷尧, 李 纲, 等. 突发公共卫生事件利益相关者在社交媒体中的关注点及演化模式[J]. 情报学报, 2018, 37(4):58-69.
[2] 邓聚龙. 灰理论基础[M]. 武汉:华中科技大学出版社, 2002.
[3] 杜智涛,谢新洲. 利用灰色预测与模式识别方法构建网络舆情预测与预警模型[J]. 图书情报工作,2013,57(15):27-33.
[4] 王 宁,赵胜洋,单晓红. 基于灰色系统理论的网络舆情预测与分级方法研究[J/OL].[2019-02-24].http://kns.cnki.net/kcms/detail/11.1762.G3.20180905.1716.006.html.
[5] Perdisci R,Guofei Gu,Wenke Lee. Using an Ensemble of One-Class SVM Classifiers to Harden Payload-based Anomaly Detection Systems[A]. Data Mining, 2006. ICDM '06. Sixth International Conference on[C] ,2006.
[6] Tax D M J.One-Class Classification, Concept Learning in the Absence of Counter Examples [D].Delft University of Technology, Delft, Netherland,2001.
[7] Edda Leopold, Jorg Kindermann. Text Categorization with Support Vector Machines. How to Represent Texts in Input Space? [J].Machine Learning,2002,46(1/2/3):423-444.
[8] Scholkopf B, Platt J C, Shawe-Taylor J. Estimating the support of high-dimensional distribution [J]. Neural Computation,2001,13(7):1443-1471.
[9] Manevitz L M, Yousef M.One--Class SVMs for document classification[J]. Journal of Machine Learning Research, 2002,2(1):139-154.
[10] Jin B, Chen Y, Li D, et al. A One-class support vector machine calibration method for time series change point detection[EB/OL]. [2019-05-14].https://arxiv.org/abs/1902.06361.html.
[11] 刘思峰,杨英杰.灰色系统研究进展(2004-2014)[J].南京航空航天大学学报,2015,47(1):1-18.
[12] 谢乃明,刘思峰.离散GM(1,1)模型与灰色预测模型建模机理[J].系统工程理论与实践, 2005 (1):93-99.
[13] Wu L, Liu S, Yao L, et al. Grey system modelwith the fractional order accumulation[J]. Communications in Nonlinear Science and Numerical Simulation, 2013, 18(7):1775-1785.
[14] Yaoguo D , Sifeng L , Kejia C . The GM models that x(n) be taken as initial value[J]. Kybernetes, 2004, 33(2):247-254.
[15] Carmona Benítez, Rafael Bernardo, Carmona Paredes R B , Lodewijks G , et al. Damp trend grey model forecasting method for airline industry[J]. Expert Systems with Applications, 2013, 40(12):4915-4921.
[16] 刘思峰,曾 波,刘解放,等.GM(1,1)模型的几种基本形式及其适用范围研究[J].系统工程与电子技术,2014,36(3):501-508.
[17] Smelser N J. Theory of collective behavior[M]. New York: Free Press of Glencoe,1962.
[18] 邓希泉.网络集群行为的主要特征及其发生机制研究[J].社会科学研究,2010(1):103-107.
[19] Naaman M,Boase J,Lai C H.Is it really about me?:Message content in social awareness streams[C] //Proceedings of the 2010 ACM conference on Computer Supported Cooperative Work,Savannah,Geogia,USA,2010.
[20] Sunstein C R. Going to extremes : how like minds unite and divide[M]. New York: Oxford University Press, 2009.
[21] 乐国安,薛 婷,陈 浩.网络集群行为的定义和分类框架初探[J].中国人民公安大学学报(社会科学版),2010,26(6):99-104.
[22] 乐国安, 薛 婷. 网络集群行为的理论解释模型探索[J]. 南开学报(哲学社会科学版), 2011(5):116-123.
[23] 董贝蓓. 心理不安全感、群体认同对网络集群行为意向的影响[D].北京:中国地质大学,2016.
[24] 汤志伟,杜 斐.网络集群行为的演变规律研究[J].情报杂志,2014,33(10):7-13.
[25] 王 林,时 勘,赵 杨,等.基于突发事件的微博集群行为舆情感知实验[J].情报杂志,2013,32(5):32-37,48.
[26] 杨庆国,陈敬良,甘 露.社会危机事件网络微博集群行为意向研究[J].公共管理学报,2016,13(1):65-80,155-156.
[27] 吴 鹏,王夏婷,金贝贝.基于BDI-Agent模型的网民集群行为建模研究[J/OL].[2019-02-27].http://kns.cnki.net/kcms/detail/11.1762.G3.20181115.1127.006.html.
[28] TAX D. One-class classification-concept-learning in the absence of counter-examples[D]. Netherlands: Universiteit Delft,2001.
[29] ChandolA V, Banerjee A, Kumar V. Anomaly detection: a survey[J]. ACM computing surveys,2009,41(3):1-58.
[30] 曹树金,郑 凌,陈忆金.网络舆情突发异常识别及关键算法研究[J].图书情报知识,2012(1):43-51.
[31] 夏一雪,袁 野,张文才,等.面向大数据的网络舆情异常数据监测与应用研究[J].现代情报,2018,38(6):80-85.
[32] Kown H, Nasrabadi N M. Kernel RX-algorithm: A nonlinear anomaly detector for hyper-spectral imagery[J]. IEEE Transactions on Geoscience & Remote Sensing,2005,43(2):388-397.
[33] Chen Y, Nasrabadi N M,Tran T D. Hyperspectral image classification via kernel sparse representation[J].IEEE Transactions on Geoscience & Remote Sensing,2013,51(1):217-231.
[34] 李耘涛,刘 妍,刘 毅.网络舆情灰色预警评价研究[J].情
报杂志,2011,30(4):24-27,23.
[35] 陈福集,史 蕊.基于残差修正的多因素灰色模型的网络舆情预测研究[J].情报科学,2017,35(9):131-135.
[36] 史 蕊,陈福集,张金华.基于组合灰色模型的网络舆情预测研究[J].情报杂志,2018,37(7):101-106.
[37] 曾振东.基于灰色支持向量机的网络舆情预测模型[J].计算机应用与软件,2014,31(2):300-302,311.
[38] David M.J. Tax, Robert P.W. Duin. Support vector domain description[J]. Pattern Recognition Letters,1999,(20):1191-1199.
[39] 邓聚龙.灰色控制系统[J].华中工学院学报,1982(3):9-18.
[40] 刘思峰,杨英杰,吴利丰.灰色系统理论及其应用[M].7版.北京:科学出版社,2014.
ResearchonNetworkClusterBehaviorMonitoringandPublicOpinionAlertSystemBasedonOCS-EGMModel
Qi Kai Peng Cheng
(School of Management, Harbin Normal University, Harbin 150025)
Abstract:[Purpose/Significance]It is difficult to control the behavior of network clusters after the outbreak of public crisis, which is easy to lead to a bad environment on the Internet. However, the traditional forecasting method is mainly based on theoretical model research and lacks the ability of application.[Method/Process]Based on the OCS-EGM model, this paper proposes a system of episode system that integrates identification, monitoring, prediction, rating, and governance, covering the formation, development, and extinction of network cluster behavior. The simulation was adopted by Python in the case study.[Result/Conclusion]The results show that the system has certain advantages in applicability, scalability, systemization, etc. It has a high application prospect.
Keywords:network cluster;public opinion warning;OCS-EGM;grey prediction
收稿日期:2019-04-03
修回日期:2019-05-21
基金项目:黑龙江省哲学社会科学研究规划项目“大数据环境下突发公共危机事件风险识别及网络社会治理研究”(编号:17GLB025);哈尔滨师范大学青年科研培育项目“大数据环境下网络集群行为动态演化机制研究”(编号:370611704)。
作者简介:祁 凯(ORCID:0000-0002-6726-9093),女,1981年生,博士,副教授,硕士生导师,研究方向:网络舆论及非营利组织经营管理研究;彭 程(ORCID:0000-0003-1675-6454),男,1995年生,硕士研究生,研究方向:网络集群研究。
通信作者:彭 程
中图分类号:G203
文献标识码:A
文章编号:1002-1965(2019)09-0134-08
引用格式:祁 凯,彭 程.基于OCS-EGM模型的网络集群行为监测及预警体系研究[J].情报杂志,2019,38(9):134-141,149.
DOI:10.3969/j.issn.1002-1965.2019.09.021
(责编/校对:刘影梅)
标签:集群论文; 网络论文; 舆情论文; 模型论文; 数据论文; 社会科学总论论文; 社会学论文; 社会生活与社会问题论文; 《情报杂志》2019年第9期论文; 黑龙江省哲学社会科学研究规划项目" 大数据环境下突发公共危机事件风险识别及网络社会治理研究" (17GLB025)哈尔滨师范大学青年科研培育项目" 大数据环境下网络集群行为动态演化机制研究" (370611704)论文; 哈尔滨师范大学管理学院论文;