金幕:现代学生群体的压力与生活的共存性分析——一项基于微博语料的自然语言处理技术应用论文

金幕:现代学生群体的压力与生活的共存性分析——一项基于微博语料的自然语言处理技术应用论文

摘要:压力,是现实生活中由于外界环境的变化而导致的人类生理变化和情绪波动。学生的生活中是否存在压力,以及其影响程度,都是学生群体心理健康研究的重要课题。本文采用了计算语言学的方法,以心理学模型为基础,计算机科学中的自然语言处理技术为手段,借助爬虫软件提取了具有代表性的现代大学生群体微博内容,用以探究学生群体压力与生活的共存性关系。分析结果显示,在现代学生群体的生活中,压力是不可或缺的一部分,它主要来自于家庭、学校、人际交往。为此,合理对待生活中的压力、积极面对生活是现代学生群体解压的有效途径。

关键词:自然语言处理;压力探究;学生群体;微博语料

压力是个体对直觉到的对自身心理、生理、情绪及精神威胁时的体验所导致的一系列的生理性反应及适应。正性压力能够激发和鼓舞个体达到预期目标,实现最高绩效,但压力持续上升就会转化为负性压力,个体能力因难以承受而造成绩效下降,其慢性效应长期积累会导致情绪失落、心理疾病等后果[1]。学生群体作为社会阶层的一个重要组成部分,其年龄层较低,在面对压力时往往容易出现不同程度的心理问题。

本文基于Python平台,利用爬虫技术爬取了2018年6月1日-6月23日的语料数据,利用自然语言处理方法,如关键词TF-IDF算法、Word2Vec词向量训练模型等技术,对获取的微博语料进行可视化分析,探究当代学生群体的学业、就业、经济、情感、人际关系和自我认同的发展与生存状况,并通过对前人的经典心理学模型的研究,对压力之于生命的意义进行了更深入的阐释。

一、爬虫技术与微博语料的采集处理

(一)爬虫技术简介

爬虫技术,是一种按照一定的网页协议规则,自动地抓取互联网信息的一些代码脚本。通常认为,网络爬虫是一种程序,主要用于搜索引擎,它可以将一个网站的所有内容和链接进行读取,从第一个网站地址开始读取,获取目标内容,并建立相关的全文索引到数据库中,然后跳到下一个相关网站,如此下去,一直循环获取所有相关的内容和链接,直至读取完毕,并将所有读取的内容依次索引到数据库中,进行记录,从而快速、高效地获取所有的信息内容。由于爬虫的方式与蜘蛛运作方式相似,爬虫技术,又称为“网页蜘蛛”或“网页追逐者”。在大数据时代,互联网中富含丰富的数据信息,由于人工处理费时费力,浪费时间和资金,因此需要通过爬虫这种方式进行批量、自动化地抓取和处理数据。

本文所研究的微博语料就是基于若干用以反映学生群体身份的关键词,爬取微博获得的,这些关键词包括“高中”“高一”“高二”“高三”“大学”“大一 ”“大 二 ”“大三 ”“大四 ”“研究生 ”“研一”“研二”。利用爬虫软件提取博文内容,共提取23760条微博,合计750406字。

爬取的基本思想是通过构造微博的URL序列,爬取相关网页、解析网页、储存。整个爬取过程都是以Python作为操作平台。本文爬取所获的部分语料如图1所示。

式中:下标1和2分别表示整流侧和逆变侧换流站,在不影响损耗计算精度的条件下,考虑系统传输有功与整流侧吸收有功相等。

图1初步获取的粗语料

逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

分词就是将连续的字序列按照一定的规范重新组合成次序列的过程。中文分词是指将语段按照汉字序列分割成一个个单独的词。本文采用的分词工具是基于Python平台下的清华大学中文词法分析工具包THULAC。THULAC是由清华大学自然语言处理与社会人文计算实验室推出的一套中文词法分析工具包,该分词工具经过了大量的中文语料模型训练,具有消除歧义、更高精度分词的功能,有很高的准确性[2]。当然,没有任何分词工具可以做到100%准确率,但是经测试,THULAC工具包的准确召回率已经达到了95%。通过分词、去噪之后的语料如图2,此时的语料已经可以进行自然语言处理。

(2)TF-IDF算法训练结果

图2处理完毕的微博语料

(二)微博语料的可视化分析

1.关键词提取算法

(1)TF-IDF算法原理

TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。该算法在数据挖掘、文本处理和信息检索等领域得到了广泛的应用,如从一篇文章中找到它的关键词。

TF-IDF算法的主要思想是如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际上就是TF*IDF,其中TF(Term Frequency)表示词条在文章Document中出现的频率;IDF(Inverse Document Fre-quency)的主要思想就是:如果包含某个词条t的文档越少,则这个词的区分度n就越大,也就是IDF越大。

3.确定词向量的维数N,神经网络迭代训练一定次数,得到输入层到隐藏层的参数矩阵,矩阵中每一行的转置即是对应词的词向量。

TF-IDF的具体算法如下:

以可视化的图表进行绘制,得到图3:

以上式子中ni,j,是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之和。

非典型呼吸道感染患者临床无特异表现,患者容易被误诊、漏诊。因此,对非典型病原体的检查显得尤为重要。采用间接免疫荧光法检测血清IgM,针对呼吸道感染非典型病原体进行检测,研究表明,运用该检测方法,9种非典型性病原体的检测灵敏度为86.2%~100.0%,特异性92.8%~100.0%,该方法方便、快捷,可广泛采用[1]。

2.计算逆文档频率(IDF)

在获取了初步的微博语料以后,需要对获取的微博语料进行去噪、分词。微博语料的去噪包括初步去噪和后去噪。初步去噪指去除无关的标点符号、字母、数字;后去噪是指去除停用词(即一些没有实际意义的词诸如“的”“和”“啊”等无意义的词,即一些连词、感叹词、介词)。初步去噪在分词前处理,后去噪是在分词以后处理。

3.计算词频-逆文档频率(TF-IDF)

对2015年8至10月出生于巴西的35例小头畸形儿进行研究发现,他们的母亲妊娠期均有寨卡病毒疫区接触史,其中25例(71%)患儿有严重的小头畸形,17例(49%)患儿存在神经系统异常的表现。参加影像学检查的27例患儿均有异常的影像学表现。头颅CT及超声显示广泛的颅内钙化,主要分布在脑室周围、脑实质、丘脑及基底神经节。11例(31%)患儿存在多余的头皮,提示急性宫内脑损伤导致大脑发育障碍,但并不影响头皮的生长发育。其中4例(11%)患儿存在关节屈曲症状(先天性挛缩),提示中枢或周围神经系统受累。该35例患儿均排除了引起小头畸形的梅毒、弓形虫病、风疹、巨细胞病毒和单纯疱疹病毒感染的可能[10]。

词频-逆文档频率即为词频与逆文档频率相乘之积。

随着社会的不断发展,中国的老龄化趋势日益加剧,老龄化问题也成为了人群之中的热点,其中较为突出的问题就是老人的护理问题,作为一名护理本科生,我平时接触最多的就是医院中的病人,而在这其中老人则是一个特殊又普遍的群体,在平常的见习课程中我也会和老人们进行沟通并且对于一些我所观察到的现存护理问题进行思考,在经过了两年的见习课程后,我有了更多的收获。所以在这里,我想要把我自己护理见习的体会和建议记录下来,同时希望自己在将来养老问题的解决上做一点贡献。

以之前获取的微博语料作为训练样本,通过Python平台进行TF-IDF关键词算法计算,得到了语料中的20个核心关键词,去除5个无重点意义的实词,得到了语料中的15个核心关键词,如表1所示:

表1通过TF-IDF算法获得的微博主题关键词

1 2 3 4 5 6 7 8毕业高考自己实习专业同学老师压力0.054272192 0.037167271 0.036028358 0.026309281 0.024863895 0.023349514 0.021759513 0.021440657 9 10 11 12 13 14 15学校学生分数寝室女生今天成绩0.020693296 0.020496284 0.018740892 0.017344676 0.016293739 0.016096735 0.013694036

1.计算词频(TF)

目前,国内城市轨道交通列车多采用MVB(多功能车辆总线)作为列车线及车辆线的通信介质。MVB是IEC 61375标准中定义的一种总线形式,主要用于列车内各子系统设备的互联。由于国内城市轨道交通列车多采用固定编组方式,基本不存在重联运营的工况,因此MVB总线既用作列车总线,也用作车辆总线。

图3微博语料关键词权重情况

通过上表可以看出,“压力”是在15个微博关键词中唯一的情绪名词,这说明学生群体的现实生活中确实存在着一定的心理压力。而关键词中,涉及到“高考”“实习”“专业”,这反映了不同年龄段的学生群体不同的压力源。对于本科生、研究生而言,当前带来压力首当其冲的还是毕业问题及去向,这关系到他们将来的发展和前途;其次,无论是高中生还是本科生、研究生,考试成绩、和同学老师的人际关系都是相当重要的。在人际关系方面,寝室关系、同学关系、师生关系是学生群体里最关键的关系。寝室和学校成为了学生群体有一定压力的场所。在专业学习和就业实习方面,也会给学生群体带来一定的压力。

二、词向量模型分析

(一)词向量的原理

词向量是将词映射到一个语义空间,得到的向量。而word2vec是借用神经网络的方式实现的,考虑文本的上下文关系,词向量有两种模型,分别是CBOW模型和Skip-gram模型,这两种模型在训练的过程中类似。Skip-gram模型是用一个词语作为输入,来预测它周围的上下文,CBOW模型是拿一个词语的上下文作为输入,来预测这个词语本身。

以长途贸易为载体的区域经济合作最早至少可以追溯到人类文明的起始阶段,但直到19世纪初,斯密与李嘉图才从分工、专门化和比较优势构建起自由贸易的理论雏形。在整个20世纪中,区域经济一体化和经济全球化成为经济学十分活跃的研究领域,其基本理论共识是:通过贸易协定所建立的自由贸易规则,可以纠正各国独立设置关税引发的贸易条件变化与要素流动壁垒,以及由此产生的非效率现象。以此为据,全球经贸合作催生形成了各种形态的自由贸易区(Free Trade Area)与自由贸易园区(Free Trade Zone)。

茶是我国重要的叶用经济作物,茶叶是人们日常生活中的重要饮品[9]。茶中类胡萝卜素同其它高等植物一样具有多种生理功能,在茶正常生命活动中扮演着极其重要的角色[10, 11]。其次,类胡萝卜素还是构成茶叶外形色泽及叶底色泽的重要成分[12],同时也是茶叶重要致香物质的前体物,其降解产物的种类、含量与茶叶香气品质显著有关,其种类、含量对茶叶品质起着至关重要的作用[13]。因此本文综述了茶中类胡萝卜素研究的新进展,包括类胡萝卜素的种类、代谢途径以及对制茶品质的影响等方面的研究结果,同时对茶中类胡萝卜素研究进行了展望,以期为今后类胡萝卜素在茶中的深入研究提供参考和方向。

词向量训练的预处理步骤如下:

2.将输入文本的每个词都生成一个one-hot向量,此处注意保留每个词的原始位置,因为是上下文相关的。

1.对输入的文本生成一个词汇表,每个词统计词频,按照词频从高到低排序,取频率最高的V个词,构成一个词汇表。每个词存在一个one-hot向量,向量的维度是V,如果该词在词汇表中出现过,则向量中词汇表中对应的位置为1,其他位置全为0。如果词汇表中不出现,则向量为全0。

选取某渡槽采用槽身粘贴碳纤维加固提高槽身结构承受能力方案。该工期(1期)实施四跨渡槽补强加固,工程(2期)实施四跨渡槽补强加固,施工包括粘贴碳纤维材料补强加固、裂缝渗漏修补等内容。工程(1期)于2016年7月开始施工至2016年8月完工,施工工期65d。工程(2期)于2017年7月开始施工至2017年9月完成,施工工期70d。工期投资(1、2期)274万元。工程处理前后渡槽槽身细裂缝情况如表2。

因此,对于如何获取一篇文章的关键词,我们可以计算这篇文章出现的所有名词的TF-IDF,TFIDF越大说明这个名词对这篇文章的区分度就越高,取TF-IDF值较大的几个词,就可以当做这篇文章的关键词。

(二)微博语料的词向量训练

通过Python平台,在gensim下加载word2vec实现词向量的训练。训练结果以余弦距离表示:两个词之间的余弦距离越小,二者越相近,反映出微博语料中两个词的密切关系。通常认为,两个词的余弦距离越接近1,两个词就越接近同关联性。

此次词向量训练中,设置参数如下:训练算法设置为默认,即对应CBOW模型,特征向量的维度设为200,设置前次与预测次在一个句子中的最大距离为6。

词向量的训练结果如表2和表3所示。

表2通过CBOW模型计算获得的余弦相似度

词1压力词2生活余弦相似度0.999809529

表3通过CBOW模型计算获得关键词“压力”最接近的25词的余弦相似度

1 2 3 4 5 6 7 8 9 1 0家 生活学习分手希望时间国家爱做努力11 12 13比赛今天时间0.999817729 0.999809504 0.999794424 0.999775648 0.999773085 0.999767959 0.999754071 0.999752283 0.999750793 0.999737382 0.999734163 0.99973309 0.999710798 14 15 16 17 18 19 20 21 22 23 24 25高考毕业世界杯成绩阶段同学超越孩子分数吃岁月教授0.999710619 0.999708056 0.999706388 0.999693751 0.999691963 0.999687433 0.999683917 0.999678552 0.999673843 0.999652386 0.999645829 0.999643028

(三)结果分析

将表3以可视化的形式表现,得到图4。

从训练结果中,可以看到和“压力”一词余弦距离最近的实意词为“家”“生活”“学习”“分手”。一定程度上反映了现代学生群体的生活现状。从词向量模型中,可以推测,学生群体中,压力既有正压力源(爱、希望、超越、国家),也有负性压力源(生活、学习、时间)。一方面,即将成人,或刚刚成人,仍旧和家有着十分密切的关系;另一方面,压力已经开始压向了这个群体,学习、恋爱是他们生活的主旋律。虽然在生活中,现代学生群体有着一定的压力,但是“希望”“努力”等正性压力词仍然反映出他们对美好未来的憧憬和期待。

通过“生活”和“压力”的余弦距离计算,可以看出二者关联度极其之高,接近于1,这说明在微博语料中,生活已经给学生群体带来了无形的压力。

近年来,伴随着加氢裂化装置大型化和原料劣质化的趋势,装置的投资成本不断增大,装置操作的苛刻性增强,装置事故的人身危害性和财产损失度也不断增大,因此装置安全联锁保护的内容不断完善,联锁保护措施也不断增强。相对上述安全联锁逻辑关系的保护内容在一些建成和在建的加氢裂化装置中也增加和完善了以下内容的联锁保护:

图4可视化后的与“压力”最相关的25词余弦距离展示

三、研究小结

通过微博语料的信息挖掘,我们可以发现学生群体的压力在现实生活中存在感很明显,无论是学业压力、人际关系压力,都已经成为学生群体不可避免的压力源。压力若没有通过合适的途径平复,那么在一定程度上,压力会转变成负性压力,而负性压力在没有合理调节下,会产生巨大的心理阻力,干扰着人类正常的精神生活。

从本质上看,现实生活中的压力根源在于存在性焦虑(existential anxiety)。人类不仅具有生物性、社会性、心理性,还具有精神性。海德格尔在《存在与时间》中认为,某种意义而言,活着的人存在着“被投掷性”。一方面,人类没有任何意志与自由便来到了人世间,这不是人类个体所能决定的。来到尘世后,人类便具有了精神性,精神性通过生命意义使得人类超越各种物理、生理、心理上的障碍。负面压力通过负面情绪给人带来各种不健康的心理体验,使得人类的精神性趋于萎靡。学生群体由于年龄层较低,人生阅历和生活经验相对不够丰富,很容易被负面压力所击垮。存在主义心理学强调,人要学会与孤独、痛苦、无意义甚至死亡等人生逆境和谐相处[3];自我决定理论(Self-determination Theory)则认为无论在何种压力下,人的自我决定都是一种基于个人需要和环境信息的基础上,基于过去经验的一种选择。每一个人都具有自由选择生活状态的权利和能力[4];而积极心理学认为积极的经历和情绪体验才是有意义生活的核心,在一定程度上,负性压力可以通过积极的思维、情感体验转换为正性的压力,从而更好地促进人的精神成长。Park整合了积极心理学、文化心理学、健康心理学和临床心理学等各个领域的研究成果,提出了一个生命意义构建的整合模型,用以解释个体在对生活中的压力事件或逆境的应对过程[5]。他认为个体通过意义建构降低一般性意义与情境性意义之间的差异(即负面情绪体验与正常情绪的差异),从而重新获得对世界的认知是非常有意义的[6]。如果一个人意义建构过程能够成功,那么个体就适应了压力情境或者事件。

在学生群体中,压力的形成必然涉及多种影响因素,包括环境因素和个体因素。学生群体一定要重视负性压力情境下的意义构建。负性压力情境并非就是绝对无意义的,相反,一定程度下,负性情境下的意义构建有助于拓展生活,唯有体验到巨大的负性压力,体验到不确定感、不安全感,人类才会进一步探索个体生命意义,个体在面临所有信念和努力均无效的压力时,也会更进一步地感悟和体验人生,从外在归因转移到内在的自我探索[6]。

本期股市动态30指数收于846点,较上期下跌0.21%,同期上证指数下跌0.89%,创业板指数下跌1.56%。成分股中,华侨城A、三全食品和大秦铁路等个股涨幅靠前。中国石化、宁德时代和欧菲科技涨幅靠后。

本文通过研究微博语料的方式证明了生活与压力的共存性,因此学生群体在面对生活的压力时,应正确面对压力,用合理、健康、积极的心态去直面生活中的难题。唯有敬畏生命,在压力和负面情绪中不断地认知与清醒,才能唤醒生命中最原始的人类精神,才能追寻到生命的意义[7]。

参考文献:

[1]樊富珉,李伟.大学生心理压力及应对方式:在清华大学的调查[J].青年研究,2000(6):40-45.

[2]孙茂松,陈新雄,张开旭,等.THULAC:一个高效的中文词法分析工具包[EB/OL].[2018-11-18].http://thulac.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5.

[3]CRAIG M,COOPER M,CORREIA E.Existential psychotherapies[M].Washington:American Psychological Association,2016:283-317.

[4]DECI E L,RYAN R M.Self-determination Theory:A Macrotheory of Human Motivation.development,and health[J].Canadian Psychology,2008(49):182-185.

[5]PARK C L.Making sense of the meaning literature:An integrative review of meaning making and its effects on adjustment to stressful life events[J].Psychological Bulletin,2010(2):257-301.

[6]陈福侠,樊富珉.大学新生学校适应、心里弹性与心理健康的关系[J].中国健康心理学杂志,2014(12):1894-1896.

[7]王中江.生命的创造和灵性化:梁漱溟的伦理生命主义图像[J].深圳大学学报(人文社会科学版),2018(2):134-143.

An Analysis of the Coexistence of pressure and life in modern student groups——A Natural language processing technology application based on Microblog Corpus

JIN Mu
(Zhejiang University,Hangzhou310058,China)

Abstract:Stress is a physiological change and emotional fluctuation caused by the changes of the external environment in real life.In the student group,whether there is pressure in life and how much pressure influence it are important chapters to study students’mental health.This paper adopts computational linguistics method,based on natural language processing technology in computer science and psychological model as theory,crawls representative group micro-blogs of modern college students by crawling technology,and explores the coexistence relationship between group pressure and life.The conclusion is that modern student groups are living.Stress is an indispensable part of life,mainly from family,school,interpersonal communication,and through psychological models to emphasize that students should be active in life,reasonable treatment of life stress.

Key words:Natural language processing,pressure exploration,student groups,Microblog corpus

中图分类号:H087

文献标识码:A

文章编号:1671-3699(2019)01-0079-06

DOI:10.3969/j.issn.1671-3699.2019.01.018

收稿日期:2018-08-11

作者简介:金 幕(1993-),男,河南濮阳人,浙江大学外语学院在读硕士研究生,研究方向为计算语言学。

责任编辑:卢斐斐

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

金幕:现代学生群体的压力与生活的共存性分析——一项基于微博语料的自然语言处理技术应用论文
下载Doc文档

猜你喜欢