李泉:基于文本聚类与情感分析的群租房微博舆情量化研究论文

李泉:基于文本聚类与情感分析的群租房微博舆情量化研究论文

摘 要 [目的/意义] 作为城市化进程中的“顽疾”,群租房屡禁不止,群租房引发的社会问题层出不穷。这一系列问题引发了微博热议,群租房微博舆情文本分析有助于获悉群租房存在的问题,从受众角度探讨政府群租房治理成效。[方法/过程] 利用网络大数据爬取与分析技术,以群租房为研究对象,通过文本聚类分析与情感分析,进行热点评估,补充现有文献中忽视的群租房治理舆论研究。[结果/结论] 研究发现,微博网民对群租房话题的关注明显呈波动趋势,讨论话题主要包括群租房产生的社会问题、政府对群租房的整治行动评价以及透过群租房现象折射出的中低收入群体的焦虑感。大多数微博网民在舆论场中的情感趋势为负面,认为有必要对群租房展开治理。本文的创新之处在于分析政府治理群租房所面对的舆论环境,并将其可视化呈现,为政府深入了解民情,制定适应民意的政策作铺垫。

关键词群租房 社会舆情 文本聚类 情感分析

1 引言

微博作为Web2.0时代的产物,为人们发布信息、发表观点提供了较为自由的社交场景。舆情(Public Opinion)即公众舆论,是指公众对于各种社会现象、问题从信念、态度、意见和情绪等角度所作出的表达[1]。微博作为重要的舆论场,诸多社会问题均在微博中得以反应。我国城市化的快速发展促使大批非城市户籍人口涌入城市。大城市因其丰富的就业机会和资源吸引大量外来务工人员,然而,一线城市高昂的生活成本成为困扰他们的难题之一。为降低居住成本,他们纷纷选择群租方式,群租房亦日渐成为大都市生活形态中一个挥之不去的组成部分,“蜗居”、“鸽子笼”、“房中房”成为大城市居住空间中的一种新形态。不容忽视的是,在享受群租房低廉租金的同时,外来人员还必须面对群租所带来的一系列安全风险。而每一起突发事件都会成为舆情爆点,引发人们的热烈探讨。

群租房作为社区管理的重大隐患之一,迫切需要政府采取有效措施加以规范与管理。不过从实践效果来看,群租房治理却陷入困境。北京、上海、广州等国内一线城市纷纷出台出租房屋条例和规定,限制乃至取缔群租。政府各部门也先后多次开展集中整治群租房行动。各地政府的每一次整治行为便会引发社会媒体的广泛关注。然而,面对众多的自媒体讨论,要全面了解民众对群租房的看法与态度存在诸多挑战。围绕群租房整治行动,一部分群体抨击政府整治行动的强硬、粗暴,忽视弱势群体利益,而另一部分群体又强烈支持政府各项整治行动以消除群租房带来的社会风险。目前围绕群租房整体舆论趋势的研究鲜有学者涉及。因此,本文期望利用大数据爬取技术,对社交领域使用用户最多的新浪微博中关于群租房的讨论进行爬取,并借助文本聚类分析和情感分析整体分析网络舆情,探寻治理群租房所面临的宏观舆论环境。

合并前,两馆都使用《中国图书馆分类法》,但在各自的分编工作中,两馆的分类规则有差别,导致索书号不同,南馆图书使用的索书号是用著者号排序,北馆则使用种次号排序。这两种不同的排序法会造成读者从北馆借阅的书还到南馆后上不了架。由于索书号的取号法、馆藏标记符号等方面存在差异,如何将读者所借的北馆上万册图书归入南馆分类排架系统中,是合并后图书馆所面临的一个迫切任务。

2 群租房问题与微博舆情文献综述

截至目前,学者已经对群租房相关问题进行大量研究,主要研究群租房概念、群租房产生的问题以及群租房治理对策等。目前比较一致的观点认为群租是一种租赁关系[2]。群租虽然为大城市低收入阶层提供了居住场所,但无序的群租行为也带来大量的治理问题。学者对于群租房引发的问题探讨主要集中在群租房引起的社会安全[3]、消防安全[4-8]、邻里矛盾[9]、物业管理困难[10-11]等方面。面对群租带来的一系列治理问题,实务界和学界对群租房的治理路径也进行了探析。从政府实际行为看,运动式治理是政府治理群租房的主要手段[6,12]。但运动式治理面临着治理成本高、效率低,难以达到根治效果[15]。从学者们的建议看,多中心治理[13]、协同治理[14]是治理群租房较有效的方式。虽然学者已经意识到群租房存在的社会问题,并探讨了群租房治理方式,但是,目前还没有学者对群租房舆情进行过研究。黑格尔曾言“无论哪个时代,公共舆论总是一支巨大的力量”,微博舆情可以较大程度的反映民众心声,是政府治理不可忽视的重要部分。民众对群租房治理问题持怎样的态度、观点,直接影响着群租房治理成效。

目前,学者对微博舆情的研究多集中在新闻传播、管理学和计算机科学等领域。计算机科学领域对微博舆情文本分析的研究多是以算法为支撑为微博舆情信息获取[15]、关键词提取[16]、文本聚类[17]、情感分析[18]、舆情可视化[19-20]等提供方法论基础,本文是建立在这些方法基础之上的。对群租房问题引发的舆情的研究鲜有学者涉及,微博舆情文本分析及其可视化方法已日渐成熟。基于既定热点“群租房”进行的微博舆情文本分析也是一种新的研究视角和研究问题。将文本聚类、微博舆情分析方法运用到对群租房微博舆情的分析中既是将微博舆情文本分析方法用于公共治理研究的有益实践,也拓展了研究途径,丰富了群租房治理问题的研究方法。

3 数据基础与研究方法

3.1 数据获取

本文利用网络数据爬取技术提取微博舆情数据,挖掘社会民众对群租房治理的态度,尝试分析群租房治理过程中展现出来的社会舆论特点,建构治理的舆论大背景。微博舆情数据具体搜集情况如下:

其中χ表示簇中散点的位置,ωk表示第k个簇,u(ωk)表示第k个簇的中心点,RSSk是第k个簇的损失函数,RSS表示整体的损失函数。优化目标就是选择恰当的记录归属方案,使得整体的损失函数最小。k的选值可以引入结构风险对模型的复杂度进行惩罚,或者按递增的方式选择k,求出相应的误差值,通过寻求拐点来确定最优k值。由于文本聚类时采用的是文件、词频构成的TF-IDF权值矩阵,一般不采用欧式距离,通常采用余弦距离对相似度进行度量以求取聚类中心。

盐湖股份牵头搭建的新型电商平台,如果说是中国钾碱行业发展的“骨骼”,那么高效便捷的操作和充足的资金流则是行业发展的“血脉”。平台上公开透明的价格信息、高效便捷的操作流程、安全快速的融资渠道、全程监测的物流网络,客户通过平台,短短5分钟就能实现订单融资,解决客户订货难、发货慢、难追踪、资金不足等问题。供应链金融板块中,一旦平台完成审核后,银行马上就能做出回应迅速拨款,充分体现了“互联网+物联网+供应链金融”模式创新的制胜可取之处。采访中,罗永成欣慰地说到,“平台与众不同之处就是强强联合,平台上股东能发挥各自资源、渠道优势和市场优势,确保了平台健康运行。”

在爬取过程中遇到了三个问题:(1)微博需要登录后才能浏览相应的搜索结果;(2)微博设置了搜索结果显示的上限,限定为1000条,而与群租房有关的微博数量超过十万条;(3)微博的Web端采用了动态获取的方式加载信息,加大了信息获取难度。

为解决这三大问题,我们采取了以下应对措施。

通过测算贸易竞争力指数来进一步分析中国和欧盟可再生能源贸易竞争力,结果如图4所示,太阳能方面,中国太阳能产业贸易竞争力指数在各年份都大于0,但小于0.5,欧盟太阳能产业贸易竞争力指数在各年份都小于0,波动较大。可见,中国在太阳能产业方面具有一定贸易竞争优势,而欧盟太阳能产业没有竞争优势,中国和欧盟在太阳能产业方面优势互补,具有广阔的发展潜力。风能方面,欧盟风能产业贸易竞争力指数大于0,较为稳定,在0.3到0.6波动,而中国在2006年以后贸易竞争力指数也由负转为正,并呈逐渐上升趋势,2015年已达到0.63。可见,中国和欧盟在风能产业方面都具有竞争优势,中国在近年来竞争优势更为明显。

针对登录问题,我们采用模拟登录的方式解决。一般而言,模拟登录有两种方式:一是在程序中向网站发出登录请求,也就是提交包含登录信息的表单(用户名、密码等),然后从响应中得到Cookie,以后在访问其他页面时也带上这个Cookie,这种方式可以打开只有登录后才能看到的页面。但是该也会遇到诸如反爬加密、验证码等一系列复杂而且麻烦的问题。第二种方式是使用无头浏览器访问,在Python中可以使用Selenium库来调用浏览器,从而达到模拟人为登录的操作,登录之后获取到Cookie就能进行爬取工作。考虑到第一种方式的弊端,本文采取了第二种方式进行模拟登录。

虽然各年度微博讨论整体内容趋于一致,但是高频词汇词频的增减与排序变化可以从另一个侧面反映出微博舆情中探讨群租房问题发生的变化。例如,“火灾”等词的排序变化可从侧面反映出某一年份火灾在微博中被探讨的热度情况,2017年的火灾频次创新高,反映出2017年的火灾引发人们广泛关注,引发网民热议。政府治理行动的相关词汇,如治理、整治、检查等出现频次也反映出了政府治理力度的强弱变化。同时,在对微博舆情热点问题进行汇总时,我们也发现,虽然群租房存在的社会问题在其他城市也有体现,但是政府治理引起人们探讨最多的是北京市。因此,我们着重对北京市群租房的整治行动所引起的社会舆情进行分析。图3中2011年-2012年高频词中并未出现明显带有政府整治群租房措施的词汇。虽然北京市从2009年便开始了群租房的整治行动,但还停留在初步探索阶段。到2013年-2014年,出现取缔(2013年348次)、治理(2013年376次、2014年544次)、整治(2014年654次)等词汇且频次较高,这与北京市在这两年出台大量群租房政策并且实施大量群租房整治行动紧密相关。2015-2017年,政府对群租房的整治工作亦没有松懈,从词频中也有反映,都维持在300次左右。2015年-2016年主要采取实行逐处挂账督办、规范租房市场、促进民众监督对群租房进行治理,整治类词频次数并未发生较大变化。到2017年,群租房消防问题大爆发(大兴区群租房起火死亡人数19人)促使北京市再次开展“安全隐患大排查大清理大整治”专项行动,政府对群租房的整治力度进一步加强。从词频中的表现则是“整治”这一词汇2017年出现673次,2018年1月的数据中整治出现88次。

3.2 研究方法

3.2.1 文本聚类分析 聚类分析是指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,目标是在相似的基础上收集数据来分类。聚类的各指标之间具有一定的相关关系,常见的聚类有层次聚类与非层次聚类。本文的聚类主要是利用R语言结合K-means算法对中文分词之后的词语进行主题词聚类,挖掘分词之间的共现关系。中文分词主要利用R语言编程软件,主要利用开源包jiebaR中的segment函数对文本进行分词,并利用tibble包的as_data_frame函数将分词了的文本转化为标准化格式,以备后期文本聚类分析使用。

本文主要采用R语言分析工具进行微博舆情分析。随着R版本的逐渐成熟和稳定,R在行业里的应用得到了飞速发展。R语言可在Windows、Mac OS、Linux等多种操作系统使用,拥有强大的数据分析功能和丰富的数据可视化效果。实验中运用R主要进行中文文本分析,包括聚类分析与情感分析[21]。

为明确群租需求与群租社会问题的主要内容,我们尝试利用计量工具R的词频统计和聚类功能对微博舆情中具体内容进行分析。

图1 K-means聚类流程

K-means聚类的优化目标是使优化目标函数(损失函数)的平方误差最小,其计算式如下:

法院介入到民事纠纷中,以第三方机构的身份来进行审判的前提是当事人寻求了公力救济,既然诉讼的最终目的是解决纠纷,那么法院下达的判决书中就应该要给出公平公正、令人信服的答案。如果法院在判决书中的说理部分能对被告医院应告知而未告知的内容是什么,未进行签字手续的是什么文件,剥夺了原告的选择权指的是原告选择什么的权利等内容进行更为详细的阐述,将会使这一部分更加清晰,更令人信服。仅仅用法律术语进行总结式表达,对于判决书下达的对象或者其他阅读判决书的人来说,从这样的判决书中得到的仅仅是答案,而这个答案缺乏事实与推理的辅助解释,就不能很好地体现“判之有理”的一面。

虽然新浪微博提供了开放的API,但是其提供的API当中的话题搜索高级API,能够搜索到的微博信息只有503条,并不满足研究的需求。故我们采用自行爬取的方法对微博平台进行关键字的爬取。本文通过使用Python开源框架Scrapy,以“群租房”为关键词,采用深度优先的策略对网页数据进行爬取,以下是爬取关键字的伪代码:

3.2.2 情感分析 情感分析又称情感分类(Sentiment Classification)、评论挖掘(Review Mining)或意见挖掘(Opinion Mining),通过自动分析商品、服务、人物等研究对象的相关评论文本内容,发现评论者对该研究对象的褒贬态度和意见[22]。而网络用户情感分析则主要针对社会化媒体产生的评论信息进行自动情感分析。我们利用挖掘的微博用户评论的文本文件,借助R语言分析工具,根据清华大学李军等人的中文褒贬义词典,将微博评论按照正面、负面词性进行分类,以此了解网络用户对“群租房”的态度和情感倾向。在数据分析实验中,微博舆情情感分析的主要流程包括:舆情数据中文分词→特征提取→特征选择→分类。通过结合情感词库,该过程可以获得较好的情感词统计结果。

4 群租房舆情分析

4.2.1 群租房微博舆情文本词频分析 将群租房微博舆情数据进行清洗和格式转换后,利用统计工具R对微博舆情内容进行词频统计,得出如图4所示的2011-2018年群租房高频词统计结果。

4.1 群租房微博数据处理和分布趋势

利用网络爬虫技术对群租房信息进行扒取,共获得16294条数据。对爬取到的数据为空白的无效数据进行删除,对获取数据的时间、ID、内容等进行筛选后的重复数据进行删除,共获得14053条数据。为了了解群租房舆情热点分布情况,对群租房微博数量按照月份进行统计,如图2所示:

图2 群租房微博舆情月度讨论数量走势

由图2可知,人们对群租房的讨论峰值集中在2013年7月、2013年12月、2014年5月、2016年12月、2017年8月、2017年11-12月,结合附表1可发现舆情爆发的时间节点与关于群租房的重大社会事件是紧密相关的。进一步对归类的微博舆情热点问题进行汇总,可以得到群租房微博热点问题占比图如图3所示。从中可以看出,群租房所造成的诸如公共安全与消防安全问题是人们讨论最多的话题(超过半数),且群租房导致的社会问题中消防安全问题是人们最关注的问题。微博舆情中对城市租房需求、租房市场混乱和政府治理措施的讨论占比均接近15%,说明这三类问题也是民众普遍关注的问题。

图3 群租房微博热点问题占比图

4.2 群租房微博舆情内容文本分析

利用K-means算法进行文本聚类分析的主要流程如图1所示:

自媒体时代,微博为公众赋予了充分的话语权,微博也因其独有的便携性、匿名性和共享自由成为网络舆情的重要发源地[23]。对微博舆情的分析主要从三个方面进行:(1)群租房微博数据处理和讨论概况;(2)群租房微博文本内容分析;(3)群租房微博情感分析。

图4 2011年-2018年微博舆情文本词频统计(前15)

从图4可以看出,在群租房微博舆情文本中:租房、北京、群租、消防、整治、租客、房屋、隔断、安全隐患、中介、违法、治理、房东、消防安全、拆除、整改、排查、记者、居民、上海、调查、地下室、死亡等词汇出现的频次较高。从这些高频词可以看出,群租房舆情探讨主要集中在:涉及的行为主体、群租现象的高发地、群租房带来的主要问题以及政府针对群租房的作为。

针对微博搜索上限限定的问题,实际处理中采用高级搜索功能,按照时间跨度进行搜索。将时间跨度调整到适当的大小,使得每次搜索显示的条数在1000条以内,通过对不同时间跨度的搜索,得到所有的微博信息。针对微博动态加载问题,通过采取爬取微博Wap端,而不是Web端来解决。微博的Wap端没有采用动态加载的方式,可以直接获取所有的微博信息。通过以上解决方案,我们能够利用Python对新浪微博进行关键词爬取。但自2018年开始,微博的反爬机制会自动识别爬虫程序,对爬取所用的账号甚至是IP限制访问,因此每次爬取速度不宜过快。再加上在爬取的过程中,也有一定概率被识别成爬虫,需要重新定向到登录页面。这都导致对微博爬取的过程耗时长,成功率较低。鉴于以上情况,我们爬取了2011至2018年所有时间段的部分数据,重点针对北京群租房大火事件等一些特殊时间节点进行了多次爬取。最终成功获取了2011年至2018年1月以“群租房”为关键字的16294条微博信息,作为后续研究的舆情数据。

公司产品主要涉及PVC、PE管材和管件,广泛应用于城乡自来水工程、市政工程、建筑给排水、农田灌溉、喷灌工程、城市排污、室内供暖、海水养殖、电力通信等多个领域。公司具有独立的出口权,产品远销美国、英国、以色列、澳大利亚、日本、俄罗斯等30多个国家和我国台湾地区。

4.2.2 群租房微博舆情聚类分析 通过微博文本内容的词频统计分析,可以发现群租房产生的社会问题与政府整治群租房行动是网民热议的重点话题。为探索“问题—行动”之间是否存在相关关系,我们对分词文本进行聚类分析。选取词频次数大于15、词汇相关系数大于0.8的词汇进行共现聚类探索,聚类分析的结果如图5所示。图5中的点表示聚类词汇,连线的粗细表示词与词之间的关系,连线越粗表明这些词共现的频次越高联系也越紧密。由图5可知,微博舆情内容出现5个明显聚点。其中,最中心的聚点聚集的贡献词汇最多,包括整治行动主体——公安部门、派出所、消防大队、城管等词,整治措施——宣传、排查、拆除、整改、检查、执法、清理等词,整治区域——街道、社区,以及整治原因——隐患、期货、火灾等词,相关系数达到0.9以上,这些贡献词与北京市展开的群租房专项行动具有强烈的一致性,可见网民对政府整治群租房行动高度关注。此外,分散于中心集簇的四个小聚点主要呈现群租房存在的问题,共同出现的高频词包括:电气、电水壶、充电器、线路、插座等词,这些词反映出群租房内存在的乱拉电线等现象,大量的易燃物品如烟头、充电器、老式电水壶等物品,这些都是引发火灾的潜在隐患。此外,针孔摄像头、偷拍、偷窥等词共现率也较高,反映出群租房潜在的公共安全问题。

某原煤储存仓项目原煤仓由3座内径为25米的圆形煤仓组成,仓壁厚度为350mm,仓壁采用无粘结预应力施工工艺,预应力筋采用1860级Φs15.2无粘结预应力钢绞线。构筑物总高度54m,仓体高度为44m。基础为钢筋混凝土梁筏板基础,厚度为1.3米,基础底板底标高为-13.5米(场平后自然地坪约为-12米~-11米),基础环梁尺寸为:1200*2500,主梁尺寸为 1400*2500。仓体顶标高位36.300米,仓上框架最高处建筑标高46.300米(2#仓),计划从基础梁顶(标高-11.00米)到仓顶大环梁(标高31.300米)采取滑模工艺。为方便在滑模期间施工人员上下原煤仓,制定上人梯专项方案。

图5 2011-2018年微博舆情总体聚类图

以上文本词频和聚类分析展现了网民对群租房话题的关注度,在微博讨论中,重点内容涵盖群租房产生的社会问题、政府对群租房整治举措、以及外来人口住房需求等。另外,群租房是否应该存在也一直为社会舆论激烈讨论。群众既有从弱势群体的关怀角度支持群租房的存在,也有从社会治安稳定角度对其表示担忧,为探究微博舆情反映出来的对群租房的情感态度,需要进一步通过情感分析进行探索。

4.3 微博文本情感分析

本文将2011-2018年的微博文本按月份进行拆分,通过计算每个月的微博文本中正向情感词与负向情感词,对整月的文本情感贡献的差值绘图,得到2011-2018年微博文本的整体情感倾向,具体如图6所示,其中横轴代表时间,从2011年1月至2018年1月共81个月,排列顺序从1至81;纵轴表示情感倾向,数值等于积极情感词数减去消极情感词数。从中可以看出,近八年来,公众的情感差值基本维持在较负面消极的水平。导致这种现象的原因主要有三个,一是大部分群租房都存在违法行为,政府取缔群租房引发群租房群体的住房焦虑;二是群租房事故频发,给群租租房者、房东抑或是邻里带来很大困扰;三是长期以来有关群租房的负面新闻不断,这使得公众对群租房的整体印象较差。虽说公众情感整体呈现较为负面的水平,但仍有部分月份呈现出积极的情感倾向,这多与政府的治理举措有关。政府在治理群租房的过程中并非仅仅是运动式搜索、取缔,也会进行诸如群租房整改、打击黑中介、群租房安全知识宣传与消防安全检查等行为,这些行为本质上对租客与业主双向利好,因此会引发群众积极的评论。除此之外,政府在整治群租房过程中并非只堵不疏,如2017年7月住建部等九部委下发了《关于在人口净流入的大中城市加快发展住房租赁市场的通知》,积极推行租购同权、试点商改租、大力治理群租房。这些举措得到群众较大支持,在图中呈现出正面的情感倾向。加快大中城市住房租赁市场发展让更多底层人民租得起正常的住房更是解决群租房问题最根本的措施,获得较多积极评价。政府对群租房的治理虽具有一定成效,但目前房租如房价一般居高不下,高额房租使他们不得不选择群租房,群租房整体状况仍旧堪忧,舆情整体呈现出较为负面的倾向。

移动学习平台数据库设计分为本地、数据库两部分。本地数据库主要用于存储学生错题集、收藏夹和答题记录信息。使用Litepal工具创建本地数据库。云端数据库主要用于存储学习资源和学生做题情况的相关内容,包括用户表、课程信息表、课程模块表、知识点表、班级表、课程资源表、题目表、试卷表、提问信息表等。通过BMob云服务平台提供的接口建立云端数据库。系统数据表如表1所示。

图6 2011-2018年微博文本情感趋势图

同时,我们也详细分析2011-2018年每个月的微博。通过计算每行微博文本中正向情感词与负向情感词,对整月的文本情感贡献的差值进行绘图,得到每月公众的情感倾向,如图7、图8所示。总体来看,从2011年至2014年公众的整体情感差值基本都是维持在极度负面的水平,说明该时段群租房问题引发问题比较显著,而政府治理的成效有限。从2014年起公众的整体情感倾向则逐渐往正向积极的情感态度转变,尽管仍然呈现出波动态势,但总体趋势中有积极情绪出现。

对微博舆情正向情绪出现较明显的月份进行解读发现,政府得到的举措会引发较多人的支持。如2015年10月,广州首次明确住房租赁标准,租房签约将有范本可依。2016年1月广州出租房有明确标准,出租人必须网上备案。这些对群租房的合法规制,获得较多积极评论。另外,政府对群租房的治理不断加强群租区域安全检查与宣传也引发了较多的积极评论。而对微博舆情负向情绪的峰度进行解读发现,群租房重大安全隐患事件会引发较高的舆论负向情绪。在对群租房的讨论中对舆情起引导作用的主要是新闻媒体,公众多是参与评论者。从图7、图8中可以明显看出群租房舆情中有三处明显的舆情低峰:2013年11至12月、2014年11至12月、2017年9月。对2013年11至12月舆情低峰的微博舆情单独查阅发现:主要有两个大事件导致了微博舆情较严重的负面情绪,分别是青岛某群租房于11月15日发生大火和北京市对群租房进行全面整治过程中爆出的群租房拥挤危险频发等新闻,如“北京一处‘群租房’被拆:地下室竟隔出307个房间”等。对2014年11至12月的群租房舆情进行内容解读,发现主要是“情侣出租屋内吵架点燃床单致合租2女生死亡”这一事件激发了较强的负面情绪。而2017年9月的负面情绪则是由“北京大兴火灾27死伤 3D还原着火公寓结构”这则新闻引发,之后政府采取的强制搬迁措施也引发群众较多不满与焦虑情绪。通过对上述微博舆情低峰时期进行分析,发现群租房热点事件与整体情感倾向存在明显的对应关系,这说明通过微博舆情的分析能够对热点事件进行预测,这对于政府监控热点事件防止群体性事件的发生大有裨益,而群租房微博舆情监控与预测的实现则有待进一步的研究与完善。

图7 2011-2014年微博文本每月情感趋势

图8 2015-2018年微博文本每月情感趋势图

5 结论

本文利用R语言分析工具,结合词频分析、聚类分析和情感分析等方法,对北京市群租房的微博舆情状况进行了研究,讨论了微博网民对群租房话题的关注度与情感倾向。通过研究发现2011-2018年网络对群租房的关注呈波动趋势且与群租房热点事件密切相关,而2013、2014、2017年相关话题的讨论最多,分析发现讨论的具体话题包括群租房产生的社会安全、消防治安问题,政府对群租房的整治行动与措施等,揭示出群租房背后反映的中低收入住房群体焦虑现状。通过情感分析发现网民虽然认为群租房存在有其必然性,但由于群租房容易导致诸多安全隐患,所以大众普遍认为对群租房的整治也必不可少,其中民众对政府的安全教育、消防检查、发展租赁市场保障租户权益等持支持态度。但整体而言,微博网民的情感趋势为负向,反映出在这一治理领域基本的社会情绪。

本文的创新之处在于通过大数据爬取和R语言分析手段在宏观层面分析政府治理群租房所面对的舆论环境,为政府开展治理行动奠定舆论基础,增加政府对群租房治理的行动信心,使政府行为真正成为民之所向。同时本文的分析方法也为群租房问题的研究提供了新的视角,有利于更全面地分析群租房问题。此外,本文仍存在一定的不足之处,文中对群租房微博舆情的分析仅对群租房折射出的社会问题、政府治理难题进行了一定程度的分析,并对民众对政府行为持积极态度的方面进行了分析,但对于如何因地制宜治理群租房还需要全面深入的研究与探索。

附件:

贵州省人民医院护士学校,在校院合作上一直具有得天独厚的优势。但随着办学规模的扩大,学校也面临着原有合作医院容纳能力不足,新的合作对象拓展不力,合作层次不深、领域不广,合作关系不稳定等一系列问题。如何突破传统校企合作模式的局限,实现职业教育教学“五个对接”,全面提升学校办学水平呢?对此我校拓宽校企合作思路,根据不同合作对象探索不同的合作方式,取得了比较明显的成效。

附件1 北京市群租房微博舆情重大事件统计

2013 7 80 25 210 2013 7 52 30 2013 7 1500 16 2013 7 14 2013 7 5 2013 7 7 50 17 2013 7 17 2013 7 92 2013 711 2013 814 2013 11 101 2014 1133 5000 2014 1 " "58 2014 2 132 2014 3 33 14 2015 5 1 72 2014 552 2014 5 16 2014 6 119 2014 10 3804 12 2014 10 1600 21 2016 11 [ ] 42 2017 3 500 15 2017 4 30 102 2017 7 22 121 2017 11 19 40 2017 11 58 2017 11 24时间 事件 舆情热点问题 微博讨论数一套 平方米两居室住 人 群租房公共安全问题女白领谈北京群组生活“白领平米房住了 人” 群租房公共安全问题北京群租房:住厨房改成单间每月仍需 元 民众住房需求北京群租房屡禁不止背后:需求才是根源 民众住房需求蚁族无奈面对群租整治:不群租,住哪里 民众住房需求职业二房东年盘下 多套房源一天躺着挣两千 租房市场混乱北京中介藐视群租房禁令 政府整治举措把群租者挤出群租房后怎么办 民众住房需求人民日报刊文谈整治群租房:民众住房需求城市之大容不下一张床吗在北京居住为何成为一种奢侈?北京 民众住房需求九成受访者认为不应取缔群租 民众住房需求房屋黑中介利用群租房敛财:租房市场混乱租房万元转租北京黑中介教父 租房市场混乱北京海淀一群租房起火两名年轻男女身亡 群租房消防安全问题静安一群租房住 人废气泄漏致多人就医 群租房公共安全问题两名“名 后”消防员在扑救一起由“群租”引发火灾英勇牺牲 群租房消防安全问题群租房火灾危险大 群租房消防安全问题你将何去何从 民众住房需求北京群租房将允许面积较大客厅或饭厅隔出单间 政府整治举措北京昌平 套群租房被拆除 政府整治举措北京天通苑将拆除 套群租房 政府整治举措女租客男租客称自己一时冲动怒 群租房公共安全问题北京西长安街 余间地下群租房彻底清零 政府整治举措一套房住 人插排满天飞(郑州) 群租房消防治安问题常熟起火民房已致 人遇难 群租房消防治安问题北京大兴群租房烧死了 个人 群租房消防治安问题安全隐患大排查大清理大整治 政府整治举措群租房”防火要知道哪些 群租房消防安全问题年月年月年月年月年月年月年月年月年月年月年月年月年月年月年月年月年月年月年月年月年月年月年月年月年月年月年月年月2017 12 137年月 这些地方火灾隐患大些三合一”场所和群租房是隐患治理重点 群租房消防安全问题

参考文献:

[1] 周金元,张莎莎.国内微博舆情研究的文献计量分析[J].图书情报研究,2014,7(2):45-49.

[2] 宋安成. 禁止“群租” 关键看执法[N]. 房地产时报,2007-01-29(A07).

[3] 张孟佳, 万发文. “群租房”刑法属性的实践分析[J]. 上海公安高等专科学校学报, 2013(2):82-85.

[4] 郭骏峰.“群租房”建筑消防安全存在的问题及处置对策[J].门窗,2016(09):238.

[5] 丁 伟. 浅谈群租房的消防安全问题及管理对策[J]. 湖北科技学院学报, 2016(7):143-144.

[6] 刘艳敏. 群租房整治的反向思考[J]. 新安全 东方消防,2008(9):72.

[7] 王婷涵. 浅谈某辖区群租房消防安全突出问题及整治对策[J]. 消防技术与产品信息, 2016(12):69-71.

[8] 林 震.对群租房相关消防安全问题的思考[J].消防技术与产品信息,2010(4):22-24.

[9] 张志成.浅谈群租房问题解决之道——以苏州市吴江经济技术开发区为研究样本[J].公安研究,2014(4):37-40.

[10] 郭 君. 多中心理论视阈下北京市群租房治理问题研究[D]. 北京:北京邮电大学,2016.

[11] 徐洪军, 薛东琦. 私法公法化视野下的公权干预私权——从上海市政府介入“群租房”现象考察[J]. 长春理工大学学报(社会科学版), 2008(2):69-72.

[12] 庄刘成. 运动式治理模式的困境与转型[D].苏州:苏州大学,2013.

[13] 蔡佳瑜. 中心城区“群租房”问题协同治理研究[D]. 上海:华东师范大学, 2015.

[14] 王淑荣. 社会管理创新视角下的群租房治理对策研究——以北京市为例[J]. 北京行政学院学报, 2013(5):68-71.

[15] 王彦慈.基于云计算的微博舆情流式快速自聚类方法研究[J].情报科学,2017,35(8):23-27.

[16] 李 岩,韩 斌,赵 剑.基于短文本及情感分析的微博舆情分析[J].计算机应用与软件,2013,30(12):240-243.

[17] 王恒静,曹存根,高 尚.基于词类和搭配的微博舆情文本聚类方法研究[J].南京师大学报(自然科学版),2015,38(1):57-65.

[18] 徐嘉成. 基于k-means聚类和TF-IDF的新浪微博舆情分析[D]. 鞍山:辽宁科技大学,2016.

[19] 曾星宇,李淑琴,陈 斌.基于微博文本的舆情分析和研究[J].信息技术与信息化,2014(1):86-89.

[20] 黄冠华. 微博舆情可视化系统的研究与实现[D].镇江:江苏大学,2016.

[21] Silge, Julia.Text Mining with R: A Tidy Approach[M].O'Reilly Media,2017.

[22] 赵妍妍,秦 兵,刘 挺.文本情感分析[J].软件学报,2010,21(8):1834-1848.

[23] 吉顺权,李卓卓.基于信息生命周期的微博舆情规律分析——以食品安全事件为例[J].电子政务,2015(5):58-65.

Public Opinions of Group Leasing in Chinese Social Media:A Research Based on Text Cluster and Sentiment Analysis

Li Quan1, Li Meng1, Cheng Hongquan2, Jiang Linxiu1, Xiao Shuting1, Wang Jike3
1. School of Political Science and Public Administration,Wuhan University, Wuhan 430072, China;2. School of Geodesy and Geomatics, Wuhan University, Wuhan 430072, China;3. School of Computer, Wuhan University, Wuhan 430072, China

Abstract [Purpose/significance] As the “chronic disease” in the process of urbanization,group leasing has been banned for many times. Because it leads to endless social problems, it has generated heated discussion in the social media. An analysis of the public opinion texts on micro blog will help us to learn about the problems caused by group leasing and study the effectiveness of government regulation of group leasing. [Method/process] In this paper, we use big data mining to study group leasing in Beijing. Specifically, using text cluster analysis and sentiment analysis,we analyzed public opinions on group leasing in China’s social media, micro blog. [Result/conclusion] We found that the on-line discussion of group leasing in the social media is very volatile and centers around three main topics: the social problems caused by group leasing, the government regulation and its pitfalls, and the anxiety over low-income groups. Most microblog users displayed a negative tone in their public conversation and expected better regulation of group leasing by the government. Our contribution is that we studied the public opinion environment in terms of public sentiment as a reaction to government regulation of group leasing at the macro level.

Key words group leasing; public opinion; text cluster; sentiment analysis

分类号C939

引用本文格式 李泉,李萌,成洪权,等. 基于文本聚类与情感分析的群租房微博舆情量化研究[J].图书情报研究,2019,12(1):82-89,105.

作者简介 李 泉,男,1974年生,汉族,博士,教授,研究方向为美国司法中的政治行为、国会行为与利益集团分布、总统内外决策体系、选举预测、极地治理,发表论文数篇;李 萌,女,1993年生,2016级公共政策专业硕士研究生;成洪权,男,1994年生,2016级地理信息系统硕士研究生;蒋林秀,女,1994年生,2016级公共政策专业硕士研究生;肖舒婷,女,1995年生,2016级公共政策专业硕士研究生;王極可,男,1994年生,2016级计算机科学专业硕士研究生。

(责任编校 田丽丽)

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

李泉:基于文本聚类与情感分析的群租房微博舆情量化研究论文
下载Doc文档

猜你喜欢