摘 要:[目的/意义]作为突发事件舆情演变的重要途径,微博的集群性、突发性、爆炸式传播特性给舆情管控造成了巨大的压力,在舆情发生时及时预测和把握每个用户情感倾向,有助于进行针对性的舆情引导。[方法/过程]提出一种基于微博情感分析和用户画像的突发事件情感预测模型。运用爬虫技术建立用户画像,通过贝叶斯分类器对评论文本进行情感分析,并对情感倾向的影响因素作相关性分析,最后在采用word2vec和one-hot编码处理特征的基础上,采用梯度提升树算法,以粉丝数、关注数、评论时间、性别、年龄、地址、学历等用户画像特征作为自变量,预测公众情感倾向度。最后以天津“8·12”事故为例,建立模型进行分析验证。[结果/结论]结果表明,模型预测结果基本符合实际情况。模型可以为精准到个人的分类舆情引导策略提供辅助,为舆情危机应对决策提供理论支撑。
关键词:微博;舆情;用户画像;情感分析;情感预测
0背 景
随着网络迅速发展,以微博为主的社交传媒平台逐渐成为突发事件舆情发展、演变、传播的主要空间。据统计,2018上半年中国微博用户规模为3.37亿人,与2017年末相比增长2 140万人,在整体网民数量中微博用户比例达到42.1%。微博用户的情感表达能够迅速感染其他用户的情绪,导致舆论的爆发。在杭州保姆纵火案、上海靖安区火灾、天津港“8·12”爆炸事故的舆情演化中,微博都扮演了重要角色。然而突发事件产生后,由于信息传播的不平衡,虚假信息和谣言涌现,出现意见领袖主导民意、不实信息大量传播的现象。官方媒体和政务微博回应滞后,在微博舆情应对中失去优先话语权。在微博中,具有负面和极端情绪的评论容易引发其他用户共情,因此更容易得到广泛传播,在应对措施不及时的情况下,负面情绪集中爆发,产生网络谣言和舆情危机[1]。
如能在突发事件中,提前对微博用户情感倾向进行及时准确地预测,就能把舆情管控的关口前置,起到防范舆情风险的作用,对不同用户制定针对性的舆情引导策略,防范舆情危机的出现[2]。
本文基于情感分析和提升树算法,用贝叶斯分类器进行情感分析得到用户情感倾向度,与网络爬虫获取的用户信息共同构成用户画像,通过相关分析方法分析用户个人信息对其情感倾向度的影响大小,最后采用GBRT梯度提升树对用户情感倾向进行建模训练,最终达到预测用户情感倾向的目的。
1国内外研究
目前,针对舆情情感预测的文献多是群体情感趋势的预测,通过时间序列和灰色预测方法,预测未来公众情感倾向短期变化趋势。如杜智涛等通过建立灰色预测模型进行网络舆情预测[3];钱爱玲等采用多时间序列关联规则分析论坛趋势[4];王努努采用ARIMA模型和BP神经网络结合进行情感倾向预测[5];张和平等建立了一种改进灰色Verhulst的马尔可夫模型预测舆情发展[6];黄亚驹等人通过遗传算法和粒子群算法优化的BP神经网络对“萨德”事件舆情时序数据进行预测[7]。
当前舆情预测的研究,多采用时间序列方法,预测对象是百度指数或是公众平均情感倾向。时间序列使用简单,体系成熟,在舆情走势变化平稳时,能很好地预测公众平均情感短期趋势。然而,舆情复杂多变,群体差异大,时间序列难以进行长时期预测;同时预测的目标是公众平均情感,不能反映群体情感中的情感倾向分布情况,无法预测群体成员每个人的情感,因此不能有针对性的对每个用户的情感倾向分阶段进行针对性的预测引导。此外,用户自身属性,如学历、年龄、性别、粉丝数目、关注人数等身份特征和微博活跃情况等属性,对于用户情感倾向往往有很大的影响,而在时间序列预测中无法体现。
用户画像是现实生活中真实用户的虚拟代表,是一个从海量数据中获取的、由用户信息构成的形象集合,目前对于用户画像的研究广泛应用于广告精准营销投放[8-10]。用户画像分为静态和动态两类,其中静态画像是用户的基本信息,短期内不会变动,建立后无法修改。动态画像需要动态采集用户信息,利用贝叶斯函数、神经网络等技术,建立用户偏好的动态模型[11]。通过用户画像可以建立用户个性特征信息库,有针对性的进行广告投放、商品推荐。目前将用户画像的数据用于精准舆情引导的研究十分稀缺。在突发事件相关的微博评论信息中,可以看出用户情感倾向存在一定的规律性和集群性,即性别、年龄、学历等特性相似的用户对突发事件情感倾向接近。
对不同性别绘制琴形图,如图9所示,其中f表示女性,m表示男性。男性和女性评论情感倾向密度均出现三个峰,即极端负面情绪(接近于0)、极端正向情绪(接近于1)和中性情绪(接近0.5)。女性的平均情感倾向(0.58)要较男性(0.51)略高,且女性中性情绪和积极情绪比例略高。但从总体来看,突发事件舆情分析中,性别不是显著的特征指标。
2基于用户画像的突发事件微博舆情情感预测模型构建
2.1研究方法鉴于情感预测研究目前尚存在不足,为了更准确地预测舆情空间中每个用户的情感,进行针对性舆情引导,本文建立了基于用户画像的突发事件微博舆情情感预测模型。模型中涉及的研究方法如下。
a.网络爬虫。爬虫是一种从网页数据进行数据批量化搜索和下载的计算机脚本[12-13]。微博数据爬取过程需要涉及到微博的模拟登陆、模拟翻页等操作,因此需要专门编写针对微博的爬虫进行舆情微博评论信息和用户信息的数据爬取。
那个瘦男人听说了事情原委后马上就应下了,他一来是看上了女人的美貌和气质,作为一个私家侦探能为年轻美丽的女人效力是福份和自豪呀。二来他觉得这事很刺激,又敏感,若是搞成了会使他成名,包括他名不见经传的这家侦探事务所,说不定都会在一夜之间在小城里声名雀起。
c.机器学习方法。朴素贝叶斯和GBRT是机器学习的重要算法。采用朴素贝叶斯分类器,依据贝叶斯公式可以对舆情评论文本进行情感分析,得到的情感倾向数值可以作为用户画像数据,用于训练GBRT预测模型[16]。梯度提升树(GBRT)算法,通过迭代多棵回归树来共同决策,将弱学习器提升为强学习器,具有良好的泛化特性[17]。
高峰期(7月-9月):中央空调会开6~7台风冷热泵机组,配合一次泵开启4台,二次泵开启8台,空调箱9台全部投入运转。站内维保人员依靠经验值来保证候车区温度控制在25℃~30℃范围内。为达到候车区温度要求,维保人员工作量很大,每过段时间就要测各区域环境温度,再对设备做适当调整。
d.相关分析。相关分析可以对事物之间的关系进行分析。相关分析往往采用相关系数分析变量之间相互关联性。简单相关系数定义为:
(1)
其中,n为样本量;xi和yi分别为两分析变量的变量数值。
a.爬取数据。GBRT机器学习通过训练用户画像数据得到预测模型。需要获取两类数据,一是微博评论文本数据,二是评论者个人画像数据,包括性别、年龄、粉丝数、地域、教育水平等。
(2)
可以计算简单相关系数、t检验统计量的观测值和对应的概率值。
受水区现状开采井总数为190.53万眼,现状年地下水开采量为271.90亿m3,其中,浅层地下水开采量为225.42亿m3,深层承压水开采量为46.48亿m3。按用水行业统计,城镇生活用水 18.23亿 m3,占 6.7%;农村生活用水 23.85亿 m3,占 8.8%;工业用水 44.14亿 m3,占 16.2%;农业用水185.68 亿 m3,占 68.3%。
2.2模型流程图为了直观显示情感预测模型的构建流程,做模型流程图。如图1所示,流程包括了用户画像数据获取、预处理数据、评论文本情感倾向分析、相关分析、GBRT算法训练、情感预测与舆情引导6个阶段。
图1中,用ai1表示径向基网络层输出a1的第i个元素,iIW1,1表示径向基网络层的权值矩阵IW1,1的第i行元素。R是指网络输入的维数,P代表输入向量,Q是每层网络中的神经元个数,它等于训练样本的个数。b1为隐含层的阀值。
鱼类对饲料中蛋白质、糖类和脂类物质消化能力的高低可通过各种消化酶活性的比值进行比较。一般认为杂食性鱼类和草食性鱼类的蛋白酶活力与淀粉酶活力比值低于肉食性鱼类[25]。大刺鳅各消化器官中蛋白酶活力均远大于淀粉酶活力,表现出肉食性的特点;另外肠道淀粉酶含量提升幅度高于肝脏淀粉酶含量,这与吴婷婷等[26]报道相似,说明肠道为淀粉主要的吸收场所,而肝脏分泌的主要是消化酶原,这些消化酶原的活性很低。因此,适当提高大刺鳅幼鱼饲料中蛋白质比例,有助于促进消化吸收,加快生长,提高养殖效益。
检验统计量采用t统计量,定义为:
取5份100 g的藕片,放入300 g水中,加入硬化剂的浓度为1.1%,分别在20,30,40,50,60 ℃的条件下硬化2 h,根据感官评价选择合适的硬化温度。
b.定性分析。首先对数据进行画像属性可视化。可视化图表可以得出天津8·12事故中评论者的画像属性分布特点。评论用户中女性比例(66.22%)较男性比例(33.78%)明显要高,表明女性对突发事件关注度更高;年龄分布中,17~28岁年龄群体比例(72.58%)和29~37年龄群体比例(18.24%)最多,是舆情来源主体,即舆情年龄分布呈现90后和80后集中趋势。对省份的分布作图,如图6所示,地域分布中,京津一带及江浙沪一带、四川、广东中关注群体最多,原因是地区经济发达,微博使用频率高。一些区域经历过类似的大型突发事件(如四川2008年地震,广东危化品爆炸事故多发),人们更关注突发灾害事故。
c.情感分析。采用python自然语言处理类库可以进行中文文本数据处理。首先将评论文本分词处理,依据停用词表去除停用词,避免无关词汇干扰。抽取部分数据进行人工情感倾向标注,之后将这些样本作为训练集,编写朴素贝叶斯分类器进行训练,依据贝叶斯公式得出所有评论文本的情感倾向度,情感倾向度越高,则越接近于正向情感,否则越接近于负向情感。
图1模型流程图
d.相关分析。为直观显示用户画像变量对情感倾向影响程度大小,进行相关分析。首先预处理数据。对定类型数据如性别,可以采用one-hot方法转化为词向量。对文本数据,如个人信息数据,用python的gensim包,利用内置的word2vec模型转化为词向量。最后用pearson相关系数判定各因素对情感倾向影响。
e.GBRT模型训练。经过数据预处理和词向量化处理,将用户画像变量(包括性别、年龄、所在地、学校/公司、粉丝数、点赞数、关注数、用户前一阶段情感状态、群体平均舆情情感倾向、昵称)等信息作为输入数据,将朴素贝叶斯分类器得到的情感倾向度作为输出,输入到GBRT模型中,训练梯度提升树模型。
f.舆情预测与引导。将部分样本数据,输入到模型中进行情感倾向预测,对步骤(5)得到的模型进行验证。对预测得出的不同情感倾向的用户进行针对性的舆情引导。
3天津“8·12”事故情感态势演化分析
分析天津“8·12”危化品事故,检验和验证模型。
绘制男性和女性评论词云,如图8所示。两者关注内容存在不同,男性更关注突发事件事实,在评论词云中,除了英雄、消防员、牺牲等词云,还有爆炸、天津、核生化、应急等事故信息内容;女性更倾向于表达情感,包括祈福、加油、逝者安息、帮忙等关键词。
在公众情感倾向出现变动之前,若能利用用户画像数据,对用户提前进行情感倾向预测,就能提早对具有不同用户画像特点的用户进行针对性引导,让负面情绪的用户正确认识舆情,有助于政务微博媒体提前掌控情况,把握主动权,避免舆情失控。
b.自然语言处理。自然语言处理是通过计算机和数学对自然语言进行分析的一门学科,包括分词、关键词识别、情感分析、向量化表示等。现有的分词算法可分为三大类:基于词典的方法、基于统计的方法和基于规则的方法[14]。结巴分词是目前操作简单、分词效果较好的中文自然语言处理模块,本文采用结巴分词进行评论文本分词。本文采用的文本编码模型Word2vec是一种把文本向量化表示的模型,通过word2vec计算得出的词向量可以有效反映词语上下文含义,被自然语言处理领域广泛使用[15]。
3.1数据爬取和预处理 首先在微博搜索中,爬取热度最高的10条微博评论数据,包含了人民日报官方微博、中国消防官方微博等多家政务微博评论和部分大V的微博发帖信息。在爬取评论信息的同时,进入评论者的微博主页,对其个人画像属性进行二次爬取。删除缺失、重复、无关数据。例如某明星发布的微博中,有许多粉丝崇拜等无关内容,予以删除。处理后的数据剩余15 164条。数据包含了性别、年龄、所在地、学校/公司构成的画像静态属性和粉丝数、点赞数、关注数等构成的用户画像动态属性。
3.2情感分析为了训练梯度提升树,首先需要获得用户的情感标注数据。依据已有文献,可以通过朴素贝叶斯分类器对微博评论的情感正负进行分类。依据情感热度可以将舆情发展阶段分为4个阶段,如图2所示,1~2天作为高热期,舆情发生第3~85天为持续期,86~661天为舆情反复出现期,661天至今为舆情消退期,前一阶段的情感倾向会影响到用户下一阶段情绪[20]。
图2情感热度随时间变化面积图
以评论“祈福天津,我们坚定支持你们”为例,将正向情感记为S,负向记为N,计算:
P(S|"祈福","天津","坚定","支持")∝
(3)
P(N|"祈福","天津","坚定","支持")∝
计算厕纸进入下水道产生氨氮总量,根据表1数据:取平均氨氮含量为7.8 mg/L;若一户家庭将厕纸使用后丢弃在马桶中会产生氨氮:7 667.16×7.8=5.98×10-5 t,全国城镇家庭户21 470×5.98×10-5 t=12 839.89 t,根据2015年环境统计年报废水排放情况得到城镇生活源氨氮排放134.10万吨[11],计算厕纸进入下水道产生的氨氮占总城镇生活污染源百分比(%):
(4)
假设词语之间独立,得到:
P("祈福","天津","坚定","支持"|S)∝P("祈福"|S)*P("天津"|S)*P("坚定"|S)*P("支持"|S)
(5)
将式(3)与式(4)的比值作为情感倾向度,部分结果如图3所示
图3朴素贝叶斯预测模型结果
由图3所示,偏激评论的情感倾向值较小,接近于0,而评论信息如“祈福”,“英雄”等情感倾向度则更接近于1。可以认为,在可接受的误差范围内,情感倾向计算符合认知。
3.3建立用户画像通过贝叶斯分类器得到全部评论信息的情感倾向数值,建立滑动窗口计算群体平均情感倾向数值,滑动窗口宽度定为6天,即每隔6天计算得到该段时期内网民平均情感倾向。由于用户情感变化具有连续性,因此预测用户情感需要考虑用户在舆情发展前一阶段的情感倾向。将用户在预测时间点前一阶段的情感倾向数值取平均值,作为其中一个用户画像属性,若缺失,则采用整个阶段群体情感平均数值代替,建立完整的用户画像,包含性别、年龄、所在地、学校/公司构成画像的静态属性和粉丝数、点赞数、关注数、群体平均情感倾向和用户前阶段情感倾向数等构成的用户动态属性,静态属性和动态属性共同构成用户画像内容,如图4-a和图4-b所示。
图4-a用户画像静态属性
图4-b用户画像动态属性
以某昵称为“Mr_石头”的用户为例,该用户先后在8.14~8.16期间针对天津“8·12”事故评论4次,对其8.15当天的情感倾向进行预测。则可以构建用户画像如图5所示。
图5用户画像举例
3.4情感倾向度相关分析建模
a.数据编码预处理。将用户画像中的性别变量进行one-hot编码。将百度百科、搜狐新闻和小说数据输入word2vec的训练模型,将用户个人信息、学习/工作所在地、昵称、发布来源用训练好的word2vec模型转化为64维的词向量,用于后续的分析处理。
b.预处理数据。爬虫爬取的数据存在缺失、重复,部分数据无效。因此,需进行数据预处理。删除缺失数据、无关数据和异常数据,对重复数据进行去重处理。为了方便日期数据的处理,新设属性变量“ID”,代表评论日期距突发事件发生的天数。清洗后的数据用csv格式存储。
图6分省评论数目
影响情感倾向的因素包括了舆情发展阶段、用户所在地、用户性别、年龄等,甚至用户昵称取名也反映了用户性格爱好信息。对部分影响因素采用统计学方法做定性分析。
为研究用户前期情感对后期情感的影响,对每日公众平均情感倾向作图分析,如图7所示。平均情感倾向度数值大于0.5时判定为正向情绪,小于0.5判定为负向情绪。由图7可以看出,负面情绪出现具有时间聚集性,集中在图中阶段Ⅰ、阶段Ⅱ阶段Ⅲ的时间段,可见用户前期情感会对其后期情感产生影响。
图7平均情感倾向随时间变化曲线
2015年8月12日,天津市滨海新区发生危化品爆炸事故,在微博上产生巨大影响,连续数天登顶微博热搜榜。相关舆情信息真假不一,网民情绪复杂多变,负面网文四起,引发了严重的舆情危机。由于回应不及时、官方信息发布不当引发次生危机,网络谣言大批涌现,对政府公信力造成一定冲击[18-19]。
3.一切改革的目的,都是为了创造更好的价值。电力工程系统的创新与改革,也不例外。电力自动化技术在电力工程中的应用,实现了电力工程各个系统的稳定运行。在提高了工作的效率的同时也保障了经济效益的最大化。自动化的电力系统能够对设备运行过程中的各种数据进行全面系统的采集与分析,使工作人员之间的协作更加协调,对设备的控制也更加完整。在排除系统故障方面,电力自
因此,本文试图通过爬虫获取静态用户画像,利用朴素贝叶斯方法计算得出情感倾向度作为动态画像属性,构建用户画像库。通过GBRT梯度提升树,利用画像属性,预测用户每个阶段的情感倾向。
图8男性用户和女性用户词云
图9用户情感分布琴形图
对不同情绪的用户粉丝数进行统计分析。如表1所示,不同情绪的用户,粉丝数中位数相近,但均值差别大。主要差别在于微博大V的参与,部分微博大V的情感倾向呈现积极情绪,拉高了积极情绪用户的粉丝数平均值。即粉丝数目一定程度上反映情感倾向。
畜牧兽医行业的发展离不开工作人员的发展,很多人都觉得这份工作很安逸,或者认为自己的工作不是很光鲜,就失去了自己的责任感、使命感,其实这种认识是错误的。尤其是在近些年,国家的食品安全问题引起了老百姓的强烈不满和恐慌,这就更需要从业人员提高自身素养,及时获取相关的专业知识,在执行工作的时候一定要严格按照相关的规章制度,确保在自己的环节不出问题。提高工作人员的责任感,就是提高整个行业的责任感,才能让畜牧兽医行业更加健康的发展。
表1不同情绪的用户粉丝数分布
消极情绪中性情绪积极情绪平均值1 1983 9015 047中位数149179185方差17 25576 12385 817
c.相关系数分析。采用相关系数分析,表2是通过显著性检验的变量,为直观显示相关性大小,如图10所示。
表2 不同特征变量与情感倾向度之间的相关系数
FromToCorrelationriemotion0.306emotion_averageemotion0.275yearemotion0.267emotion_recentemotion0.256gender@femotion0.245Information_34emotion0.136Information_27emotion-0.129fensiemotion0.076source_24emotion-0.056source_53emotion0.014nicheng_62emotion0.012
图10各个画像属性变量同情感倾向相关性
具有明显相关关系的是用户前一阶段情感倾向emtion_before、评论时距离事件发生的天数ri、当前群体平均情感倾向emotion_average等变量,存在较强的正相关,除此之外,用户关注的人数、性别、个人信息也存在弱相关。此结果表明,情感倾向会在事件发生之后,随时间有正向变化的趋势。即在灾难性事故发生前期负面情绪较多,之后,随时间变化,情绪逐渐趋于中性。因此情感受时间影响最大。此外,由于存在网络共情、从众心理,公众平均情感倾向度也对个人情感倾向有正向影响。
3.4.1 模型训练 将情感倾向度作为预测目标,利用GBRT进行回归分析建模,每次利用损失函数负梯度代替残差拟合下一棵决策树,在多棵回归树决策集成基础上,得到舆情情感倾向度预测模型。学习率定为0.1,决策树数目定为100棵,采样的子集占总体比例0.8,进行训练。
3.4.2 模型效果评价 衡量回归模型误差可采用MSE和MAE表征。MSE是均方误差,计算表达式为:
(6)
MAE是指平均绝对误差,即绝对误差的平均值,计算公式为:
(7)
最终得到MAE数值为0.2672,MSE为0.1006,在误差允许范围内,认为模型结果可靠。
模型仍然有较大的提升空间。可以在后续的工作中收集更多的用户画像属性,以提升预测准确度。在此基础上,在重大灾难发生前后,利用GBRT模型针对全网微博用户做出情感倾向度预测,可以向不同人群类型发布针对性引导信息,引导舆情正确演变。
大事如张无忌成为明教教主后,要求教众以大局为重,不要与六大派互相报复为难,并且约束行为,不再滥杀无辜,教众们无不应允,不单单是慑于张无忌的威信,更是因为他们权衡利弊,真心赞同。
3.5模型结果分析对用户画像信息进行预处理和编码之后,用GBRT模型对舆情发展中每个用户的情感倾向进行预测。本文抽取数据库其中7人的画像属性进行情感倾向预测。为了避免泄漏用户信息,此处对用户昵称信息予以处理,抽样对象的个人信息如图11所示。
图11抽样用户信息表
如图11所示,qinggan属性为用户在事故发生后在各阶段采用贝叶斯分类器得到的真实情感倾向,predict属性变量是在用户评论信息未知的基础上,采用用户画像属性,运用GBRT模型预测得到的结果。将预测结果与实际结果作散点图进行对比,如图12所示。
县乡河道广义包括流经广大农村地区,直接为农村生产生活服务的河流、湖泊和沟塘等。按水利部《河道等级划分办法》划分,县乡一般为4级、5级以下河道;按行政管理权限区分,一般为县级以下河道。根据《全国中小河流治理重点县综合整治试点规划工作大纲》要求,治理对象为县级及以下行政管理的县乡河道水系,原则上集水面积为50~200km2。每个项目区涉及的河道较长,建筑物数量较多,但河道堤防及建筑物等级较低,均为5级。
图12实际情感数值和预测数值散点图
总体上看,7个预测值与实际评论的情感倾向计算值虽有偏离,但在可接受范围内。因此可以在舆情发生初期,针对这几个用户进行针对性的舆情精准引导。
在舆情发生的第1阶段,对编号10 185的用户4个阶段的情感进行预测。通过爬虫获取用户画像属性信息,包括(发布来源,粉丝数,性别,昵称,年龄,所在地,所在学校),其画像数据如图13所示。计算该时段全部用户平均情感倾向为0.45,中性情绪。10185用户只在舆情第二阶段和第四阶段进行了评论,对前一阶段(即第一阶段)未进行评论,因此取前一阶段平均值作为该用户平均情感倾向度。将这些属性输入GBRT模型中进行预测,得到该用户在各个阶段的平均情感倾向,如图15所示。对用户第四阶段的情感预测数值为0.51,接近真实情感数值0.44,第二阶段预测数值为0.20,与实际情感数值0.19相接近。从图14可以看出,预测曲线与实际曲线变化趋势基本接近,模型可以有效预测用户情感变化。
图13编号10185用户画像
在舆情发生初期,可以采用模型,利用用户画像属性进行情感倾向预测,从而可以预测各个用户在舆情各阶段的情感走向,进行精准到人的分类舆情引导。如对该编号10185的用户,在舆情发展初期,预测到用户在图14舆情发展第二阶段情绪可能出现大幅度下滑,产生负面情绪,对事故处理产生质疑。同时从第二阶段网络关键词云进行分析,该阶段词云除了“英雄”“牺牲”等词外,还出现了较多真相、领导、负责等词汇,表明了人们对于事故追责的关注[20]。因此要及时对该用户进行舆情引导,向其推送国家事故处理政策和事故处理最新进展的新闻,引导用户规避网络不实负面评论的影响。同时该用户画像中,身份属性是大学生,如果网络中大量学生类型的用户出现负面情绪,还应该加强高校新闻舆情引导力度,从线下入手,通过线上群体识别,线下群体舆情引导,规避网络舆情风险。该用户粉丝数达到7874人,粉丝数较多,因此及时进行用户情绪引导,可以防止舆情情绪通过其粉丝群体进一步在网络中传播扩大。最后,可以通过向该用户关注的微博用户推送引导信息,进一步引导舆情正向发展。
图14模型预测情感倾向与实际数值对比
3.6对策建议根据舆情分析结果,发现用户情感倾向同舆情发展演变时间以及用户画像信息有关,用户画像的各项指标一定程度上反映出用户的个性特点和知识层次,因此用户对待某一事件的态度会有不同反应。采用本文提出的情感倾向预测模型,可以提前预知用户对突发事件的情感倾向性,有针对性地对用户进行舆情引导。
a.预先舆情情感预警。例如3.5节所示,对编号10185的用户进行建模预测,可以在舆情发展第一阶段预测该用户在后期情绪变化。通过用户画像建立的情感倾向预测模型能在舆情情绪初期,预测下一阶段舆情空间中每个用户的情感倾向,掌控整个网络中每个用户的情感走向,建立舆情情感预警机制,结合热词词云,在舆情危机出现之前,官方媒体可以提早针对性的应对舆情风险。
b.分类舆情引导。由3.4节相关分析得到的结论可以看出,个人情感与公众平均情感相关性很高,即网络中他人情绪会影响到某一用户的情感。通过前文3.2节所示的贝叶斯分类器进行文本情感预测,针对评论文本积极情感的用户,将其微博放置于其粉丝的关注微博置顶之中,利用社交的网络化传播特性,通过其粉丝扩大正向情感阵地。对消极情感的用户,则需更多推送相关法律法规和专家解读、媒体看法,引导其正确进行舆情评价,同时对于大量负面情绪的用户予以限制和封号。中性情感用户是舆情中的主体,容易情绪波动,这部分人群要及时向其推送好友中的正向情感微博,政务媒体微博应加强引导。
c.关注舆情空间年龄结构。从图6-b可以看出,天津“8·12”事故中舆情空间中18~37岁的用户占绝大比例,可见80后、90后是该事件网络舆情主体,因此建立用户画像,识别年龄特征之后,舆论宣传应针对群体特点,采取合适手段引导。如采取更适合年轻人的抖音、微视频、快手等平台、运用灵活多样化的方式,如90后喜闻乐见的漫画、动画展开宣传。
3.控制变量。影响企业价值的因素主要包括企业规模、治理结构、业务结构、资产质量等,研究中主要选取以下5个因素作为控制变量。
d.关注身份信息和大V角色。图4-a构建的用户画像中包含年龄、性别,学历和粉丝数、关注数等信息。关注数和粉丝数能有效反映一个人在微博中活跃程度。其中粉丝数目能有效识别出粉丝数大于某个阈值的用户为大V,该类用户的情绪往往通过庞大的粉丝数目传播,对网络空间舆情产生显著影响。因此识别大V,并有针对性对其进行不同阶段情感进行分析和针对性的引导,有助于规范网络空间。另外身份信息中包含的学校信息、工作地点信息也确定了用户主体的身份,可以据此针对性地向学生和求职者推送与其身份密切相关的信息。针对具体的单位和学校信息,还可采取线上识别群体聚集趋势,线下实地引导宣传方式。
e.关注地域集中特性和性别趋势。从图6-a和图9可以看出男性和女性关注程度、关注焦点存在差异。女性关注焦点更多集中在情感表达,需要采用更多情绪化的推送引导。男性更关注事实,需要摆事实、讲道理。在北上广等微博普及率高的地区和曾发生类似突发灾难事故的地区,人们更关注该类事故。可以通过类比之前灾难事故处置案例,详细说明国家政策和法律法规,澄清网络谣言,保持舆情空间稳定。
4讨论与结论
4.1讨论由于微博舆情复杂多变,影响因素众多,在研究中不可能面面俱到,有必要对现实情况做一定的假设抽象,才能建立理想化的模型。因此本文所做的工作基于一定的假设,在以下假设基础上,本文结论成立:
a.分析时段内微博删帖不多,未明显影响到本文的主体分析工作;
b.微博用户的个人信息均真实有效;
K Day和A Tripathi证明了当n≥2,n-k≥2时,排列图是哈密顿连通图[3],即排列图是1*-连通图.而且他们也证明了当n≥3,n-k≥1时,排列图是哈密顿图[4],即排列图是2*-连通图.
c.抽取的评论样本可以充分反映微博全部评论信息的特点。
4.2结论综上,通过爬虫获取突发事件微博评论数据,在对数据清洗和预处理之后,经过编码和中文分词,通过贝叶斯分类器进行情感倾向判定,利用统计分析和相关性分析发掘舆情规律。在此基础上,将得到的情感倾向度作为预测目标,以用户画像数据和舆情进展时间作为变量,训练梯度提升树进行用户情感预测。最后采用天津“8·12”爆炸事故为例进行分析,对相关事件中的用户进行情感预测以检验模型。经验证,模型可以有效地针对微博用户进行情感预测,为突发事件中针对不同情感倾向的用户进行分类舆情引导提供有力支撑。
参考文献
[1] 张 鹏,李昊青,兰月新,等.基于BP神经网络的突发事件网络谣言危机预警[J].电子政务,2016(11):40-47.
[2] 兰月新,刘冰月,张 鹏,等.面向大数据的网络舆情热度动态预测模型研究[J].情报杂志,2017,36(6):105-110,147.
[3] 杜智涛,谢新洲.利用灰色预测与模式识别方法构建网络舆情预测与预警模型[J].图书情报工作,2013,57(15):27-33.
[4] 钱爱玲,瞿彬彬,卢炎生,等.多时间序列关联规则分析的论坛舆情趋势预测[J].南京航空航天大学学报,2012,44(6):904-910.
[5] 王努努,张伟佳,钮 亮.基于ARIMA和BP神经网络模型的舆情情感预测[J].电子科技,2016,29(5):83-87.
[6] 张和平,陈齐海.基于灰色马尔可夫模型的网络舆情预测研究[J].情报科学,2018,36(1):75-79.
[7] 黄亚驹,陈福集,游丹丹.基于混合算法和BP神经网络的网络舆情预测研究[J].情报科学,2018,36(2):24-29.
[8] 刘海鸥,孙晶晶,苏妍嫄,等.国内外用户画像研究综述[J].情报理论与实践,2018,41(11):155-160.
[9] Amato G,Straccia U.User profile modeling and applications to digital Libraries[C]// European Conference on Research and Advanced Technology for Digital Libraries.Springer-Verlag,1999:184-197.
[10] Quintana R M,Haley S R,Levick A,et al.The persona party: Using personas to design for learning at scale[C]// CHI Conference Extended.2017:933-941.
[11] 周朴雄,张兵荣,赵龙文.基于BP神经网络的情境化信息推荐服务研究[J].情报科学,2016(3):71-75.
[12] Brian Pinkerton,Edward Lazowska,John Zahorjan.Webcrawler: Finding what people want[J].2000.
[13] Ahmadi-Abkenari F.An architecture for a focused trend parallel web crawler with the application of clickstream analysis[J].Information Sciences,2012,184(1):266-281.
[14] Sproat R,Emerson T.The first international Chinese word segmentation bakeoff[C]// Sighan Workshop on Chinese Language Processing.Association for Computational Linguistics,2003:133-143.
[15] 周 练.Word2vec的工作原理及应用探究[J].图书情报导刊,2015(2):145-148.
[16] 李静梅,孙丽华,张巧荣,等.一种文本处理中的朴素贝叶斯分类器[J].哈尔滨工程大学学报,2003,24(1):71-74.
[17] 李 航.统计学习方法[M].北京:清华大学出版社,2012.
[18] 刘怡君,陈思佳,黄 远,等.重大生产安全事故的网络舆情传播分析及其政策建议——以“8·12天津港爆炸事故”为例[J].管理评论,2016,28(3):221-229.
[19] 肖 峰,郭傲寒.政府舆情危机应对的短板及解决路径——以天津港爆炸事故后政府新闻发布会为例[J].武陵学刊,2015(6):119-123.
[20] 任中杰,张 鹏,李思成,等.基于微博数据挖掘的突发事件情感态势演化分析——以天津“8·12”事故为例[J].情报杂志,2019,38(2):140-148.
EmotionalTendencyPredictionofEmergenciesBasedonthePortraitsofWeiboUsers——Taking "8·12" Accident in Tianjin as an Example
Ren Zhongjie Zhang Peng Lan Yuexin Zhang Qi Xia Yixue Cui Yanchen
(China People's Police University,Langfang 065000)
Abstract:[Purpose/Significance]As an important approach to the evolution of public opinions in emergencies,weibo,by which people can gather together quickly on the internet,can propagate information quickly. These features of weibo add to the difficulties of the decision-making progress in the government guidance of the public opinions. Thus it is helpful to timely predict each user's emotional tendency as emergencies occur.[Method/Process]In this paper,an emotion prediction model based on weibo emotion analysis and user portrait is proposed. Gathering user data through crawler technology from weibo,then using simple Bayesian classifier to obtain emotional tendency,we carried out correlation analysis on the factors influencing the emotional trend of public opinions. Finally,after the preprocessing of the data with the model of word2vec and one-hot,using GBRT model,we carried our model. In the model,we used several variables,including the number of a person's followers and people he is following,date of the discussion,gender,age,address and other personal information as independent variables,to predict the public emotional tendency. At the end of the paper,taking 8·12 accident in Tianjin as an example,we carried out model validation.[Results/Conclusion]The results show that the prediction are consistent with the actual situation. The model can assist us to make strategy on how to guide each one's internet behaviors and perception when emergencies happen.
Keywords:weibo;public opinion;user portraits;emotional analysis;affective forecasting
收稿日期:2019-04-11
修回日期:2019-06-23
基金项目:教育部人文社会科学基金“面向突发事件的网络流言风险预警及对策研究”(编号:17YJC630214);全国统计科学研究重点项目“舆情大数据环境下突发事件民意监测与评估研究”(编号:2017LZ37);河北省重点研发计划项目“基于舆情大数据的网民情感态势感知与预测技术研究”(编号:18215601);河北省科技计划项目“重大自然灾害网络舆情发展态势与对策研究”(编号:17456214);河北省统计科研计划项目“基于大数据的网民情感建模与决策支持研究”(编号:2018HY04) 。
作者简介:任中杰(ORCID: 0000-0001-8326-6426),男,1995年生,硕士研究生,研究方向:网络舆情研究;张 鹏(ORCID:0000-0002-8664-5058),男,1981 年生,博士,副教授,研究方向: 网络舆情;兰月新(ORCID: 0000-0002-4791-5094) ,男, 1981年生,副教授,硕士生导师,研究方向: 网络舆情;张 琦(ORCID: 0000-0002-0661-3727),女,1982年生,硕士,副教授,研究方向: 网络舆情;夏一雪(ORCID:0000-0002-8044-0553),女,1983年生,博士,副教授,研究方向: 网络舆情;崔彦琛(ORCID: 0000-0001-9541-8255),男,1994年生,硕士研究生,研究方向:消防救援与风险管理研究。
通信作者:张 鹏
中图分类号:TP391.1
文献标识码:A
文章编号:1002-1965(2019)11-0126-08
引用格式:任中杰,张 鹏,兰月新,等.面向突发事件的网络用户画像情感分析[J].情报杂志,2019,38(11):126-133.
DOI:10.3969/j.issn.1002-1965.2019.11.019
(责编:贺小利;校对:刘武英)
标签:舆情论文; 情感论文; 用户论文; 倾向论文; 画像论文; 社会科学总论论文; 社会学论文; 社会结构和社会关系论文; 《情报杂志》2019年第11期论文; 教育部人文社会科学基金“面向突发事件的网络流言风险预警及对策研究”(编号:17YJC630214) 全国统计科学研究重点项目“舆情大数据环境下突发事件民意监测与评估研究”(编号:2017LZ37) 河北省重点研发计划项目“基于舆情大数据的网民情感态势感知与预测技术研究”(编号:18215601) 河北省科技计划项目“重大自然灾害网络舆情发展态势与对策研究”(编号:17456214)河北省统计科研计划项目“基于大数据的网民情感建模与决策支持研究”(编号:2018HY04)论文; 中国人民警察大学论文;