摘 要:在研究心理学中的“大五人格”模型的基础上,针对社交网络,提出了一种基于用户行为信息预测性格的方法。采用“大五人格量表”测试模型对用户性格进行不同维度的分析;选用微博用户的行为信息构建用户性格模型;通过对用户信息与用户性格之间的关系进行分析,从中提取5个相关度最强的特征维度,并基于线性回归的方法构建了用户性格预测模型。实验结果表明,构建的性格预测模型正确率达到了78.5%。
关 键 词:性格预测;线性回归;用户行为信息;大五人格
0 引言
微博社交网络中具有丰富的用户信息,不仅包含基础的用户个人信息,还包括大量的用户行为信息。例如用户发表的微博、参与讨论的话题、用户发表的评论等。这些用户信息不仅能够刻画出微博用户的重要行为特征,还可以反映出用户当时的心理活动和性格特征。M. Back等[1]利用Facebook社交网络数据预测用户的性格,发现利用用户的行为信息能够预测出用户的性格特征,这一研究为基于微博用户行为信息的性格预测提供了较好的理论基础和重要帮助。
在社交网络用户性格倾向性预测方面,国外相关研究者主要基于Facebook或Twitter上的用户数据进行研究,通过用户在社交网络中产生的行为数据进行提取,采用机器学习算法对用户的性格进行挖掘[2]。Globeck等[3]为准确衡量用户的性格特征,通过采集Facebook上用户公开的个人信息进行分析和建模,采用机器学习方法预测用户的性格;Quercia等[4]利用Twitter用户的粉丝数、关注数、状态数3个特征进行分析,发现受欢迎的用户和有影响力的用户都是外向的,具有情绪稳定的性格特征。然而,目前国内的研究较少。Bai Shuotian等[5]通过对微博用户的行为信息进行分析,提出了一种基于网络行为的多任务回归和增量回归算法,可以很好地预测性格特征,但该方法考虑到的特征较少,不能更为全面地解释人物的性格特征。
幼儿园应该充分满足幼儿在活动中所需的各种设备器材,这对激发幼儿活动参与积极性以及提高幼儿活动思维能力有着很好的辅助效果。幼儿园阶段的孩子较为活泼好动,教师应该在开展区域活动的过程中让幼儿充分体会到区域活动的乐趣。这就需要幼儿园重视区域活动的场地建设和器材配备,不断完善加强活动所需的硬件设施,以此来保证幼儿在活动中有充足的器材,进而提升区域活动开展有效性。
当前对社交媒体中用户性格倾向的研究还处于初级阶段,相关研究并没有对用户行为信息与用户性格之间的关系进行多维度探索,不能权威地揭示出用户行为信息与用户性格之间的密切程度。此外,目前的研究大多局限于少量特征信息基础上的研究,未能从多角度、多特征进行挖掘分析,数据类型单一,不能很好刻画出用户的性格倾向。基于中文社交网络的用户性格倾向预测还处于起步阶段,预测模型的构建方法也需要更深入的研究[6]。
1 微博用户性格预测模型的构建
1.1 大五性格分析模型
本文采用标准的大五人格量表(NEO-PI-R简版),作为评估目标用户性格倾向的标准[7]。NEO-PI-R简版大五人格量表包含了60道单项选择题,每个性格维度对应12道单选题目。测试者从非常不符合到非常符合共5种符合程度中进行选择,填写每个单选中的符合程度。每个题目是对一种行为的描述,测试者需要根据自己的实际情况与题目描述的契合程度,选择对应选项。大五模型中5个性格特征如表1所示。
表1 大五人格表
性格倾向正向表现负向表现特点开放型(Openness)有想象力的、审美敏感的、感受丰富的、敢于尝试的、有求知欲的、价值观开放的务实的、遵守惯例的、顺从的反映了个体对知识的好奇心、创造力和对新奇事物的偏好外倾型(Extraversion)热情的、乐群的、有活力的、有支配性的、喜爱寻求刺激的、容易感受积极情绪的不好交际的、严肃的、含蓄的反映了个体自信、善于交际、爱说话并且主动寻求积极情绪的特性神经型(Neuroticism)焦虑的、容易愤怒的、容易抑郁的、自我意识过强的、易冲动的、易脆弱有安全感的、自我满意的、平静的反映了个体对体验不愉快情绪的倾向性,对冲动的控制力较差谨慎型或尽责型(Conscientiousness)对自己能力自信的、有条理性的、有责任感的、追求成就的、善于自律的、审慎的无序的、粗心大意的、意志薄弱的反映了个体对有条理有组的倾向性,表现了个体的自律性,做事情喜欢细心规划而不是自发行动友善型或宜人型(Agreeableness)信任他人的、坦诚的、愿意帮助别人的、顺从的、谦逊的、富有同情心的无情的、怀疑他人的、不愿合作的反映了个体对同情和合作的倾向性,而不是怀疑和敌对的对待他人
1.2 用户交互行为信息模型
统计分析发现,每位用户在微博中的交互行为与性格存在一定的联系。性格开放的人更加积极主动与他人进行交流互动;性格外倾的人善于主动发表原创的微博;性格神经质的人发表的内容较为悲观;性格谨慎的人发表的原创微博较少,更多的关注其他人发表的内容。因此,用户的交互行为信息与用户的性格倾向有着很大关联。
水利水电工程项目要根据项目建设和管理工作目标,针对施工技术管理工作的现实需求,建立完善的施工技术管理制度,通过制度完善保证施工技术的落实,把控和协调施工技术难点,规避施工技术应用中存在的影响因素,以施工技术管理制度的实施和落实为基础,促进项目管理工作目标的实现。
微博用户交互行为信息主要包括:用户的原创微博数、转发微博数、话题数、关注数、粉丝数、@数、参与讨论话题数等。本文通过对用户基本资料、行为习惯、交互频度进行相关分析,主要选用微博原创比率、微博活跃度、用户交互主动性、表情使用频数、用户赞同程度这5个特征,构建微博用户交互行为模型[8]。
1)微博原创比率(OR&FW perce)。是指微博用户所有微博中原创微博与非原创微博的比率,如式(1)所示。
3)习题模块:实现效果如图5所示。点击答题选项后,如果答题错误,则将错误答案标识成橙色、正确答案标识成绿色且将解析显示;如果答案正确,则直接加载下一题。点击右上角,可以选择题目和查看此试卷中自己的答题情况。
(1)
式中:N(u)为用户u发布的所有微博数;C(u)为用户u的原创微博数。当微博用户的所有微博均为原创微博,此时该用户的微博原创比率为1,说明该用户性格为外倾型。
2)微博活跃度(activity degree)。在一段时间内,微博用户通过发布或者转发微博,进行信息分享的频率,频率越高表示用户使用微博越活跃。该特征由微博用户发布的微博总数与用户的平均转发量2个因素来确定。
微博用户发表的微博总数和用户的平均转发量对微博活跃度的影响程度不同,所以本文通过赋予不同权重来调节2个因素对活跃度的贡献程度。其中,用户发布微博总数对用户活跃度的贡献程度为
(2)
式中:R(u)为用户u的转发数;A(u)为用户u的关注数;R(u)/A(u)表示用户u的平均转发量。用户平均转发量对用户活跃度的贡献程度为
这种叙事风格,使伍子胥所经历的场面得到完美呈现,而且通过不断转换场景,增强叙事,更有利于人物形象的丰满和揭示人物内心情感变化,让听众或读者感受到人物、情节的真实。《伍子胥变文》综合运用多种叙事艺术,使此变文经典化,在文学艺术性上超出了同类变文,影响了后来的小说、戏剧艺术。
(3)
微博用户活跃度为
1.2 方法 本研究使用siRNA抑制lncRNA ASB16-AS1的表达量。对LN382和U87MG细胞系分别进行如下分组:NC组(转染negative siRNA)、silence组(转染lncRNA ASB16-AS1 siRNA)。用RTCA增殖实验、Transwell侵袭迁移实验、划痕试验检测细胞在沉默lncRNA ASB16-AS1后增殖、侵袭、迁移功能变化。具体实验方法如下。
(4)
式中:常数T为时间粒度量;d(u)为用户u在T时间内的活跃度。
3)用户交互主动性(communicate initiative)。由@符号使用量、评论数和关注与被关注数3部分构成[9]。
检验统计量为
(5)
式中:B(u)为用户u的@符号使用数量;L(u)为用户u的评论数;F(u)为用户u的关注数;S(u)为用户u的粉丝数。
评论数对用户交互主动性的贡献程度为
(6)
对于检验水平α,按自由度为(n1=1,n2=n-2)查找其拒绝域Fa(1,n-2)。
(7)
被关注数对用户交互主动性的贡献程度为
(8)
用户交互主动性为
(1)借款人与原始权益人(即各地市公积金中心)签订具有一定差异的借款合同,一般而言,双方约定的相关资产流动性较低。在综合分析自身需求及预判未来形势之后,原始权益人会挑选出符合自身需求的项目,联合各方进行评估、作价,形成资产池,这样做的目的在于通过证券化解决基础资产无法流动的难题。在其研究、筛选过程中,为最大程度消除信息不对称因素影响,增强风险防控能力,权益所有人往往还需与信用评级机构、会计师事务所及律师事务所等相关机构合作,深入研讨基础资产涉及的各类交易事项[2]。
J(u)=
I(u)S(u)
(9)
式中J(u)为用户u的交互主动性,交互主动性J(u)经过线性归一化得到。
4)表情使用度(expressional usage)。是指用户发表评论和参与话题讨论中使用表情符号的程度,计算公式为
(10)
式中:M(u)i为用户u发表评论和参与话题讨论中第i条内容中的表情数量;D(u)为用户u的话题讨论数量;N(u)=M(u)+D(u)。
5)用户赞同程度(endorse degree)。在一段时间内,微博用户点赞数、评论数、转发数等交互行为对总体赞同程度的影响[10]。
微博用户的点赞数、评论数、转发数、话题参与数对于用户赞同度的重要程度不同,本文采用对不同影响因子赋予不同的权重来表示对用户赞同度的贡献大小。@符号使用量对用户赞同度的贡献程度为
(11)
式中:Zt(u)为用户u在t时刻的点赞次数;Lt(u)为用户u在t时刻的评论数;Rt(u)为用户u在t时刻的转发微博数;Qt(u)为用户u在t时刻的话题参与数。评论数对用户赞同度的贡献程度为
(12)
关注数对用户赞同度的贡献程度为
摘 要:根据我校目前微机原理及接口技术的平台课教学模式与实验教学现状,分别从延伸实验教学、改革实验教学设计、加强实验教学资源建设等方面进行了实验教学的改革研究与探索,从而达到强化学生实践能力培养、提高学生学习兴趣的目的。
(13)
性格预测模型主要解决了通过用户产生信息抽取特征并且预测用户性格倾向的问题。综合在社交网络上的网页应用实现过程,微博上用户信息抽取、倾向挖掘、预测应用的整体流程如图2所示。
(14)
用户赞同程度为
基于以上构建的5个用户行为特征,本文采用多元线性回归算法对用户行为特征信息的有效性和特征参数的显著性进行验证,以实现根据用户行为信息对微博用户的性格预测。
W(u)Rt(u)+λ(u)Qt(u)]
盐胁迫下,植物体内离子失衡,盐离子在细胞内的大量积累会对生物膜造成损害,进一步影响细胞的正常代谢,进而严重影响植物的生长发育。Na+是盐胁迫的主要毒害离子,高盐浓度下,Na+与K+竞争从而引起植物体内K+的亏缺[16]。因此,提高植物体内的K+/Na+比,对提高植物耐盐性至关重要。植物主要通过钾离子运输系统和离子区隔化来调节K+/Na+比。
病害发生与品种抗病性关系密切。中国梨最感病,日本梨次之,西洋梨最抗病。在中国梨中又以白梨系统的品种最感病,其次为秋子梨系统,而沙梨、褐梨和夏梨系统则较抗病。在常见主栽品种中最易感病的是鸭梨,其次为砀山酥梨。抗病品种有雪花梨、西洋梨和早酥梨。
(15)
通过式(15)对各个特征进行线性归一化得到微博用户赞同度e(u)。
2 微博用户性格预测模型的实现
e(u)=
2.1 多元线性回归模型及原理
本文利用线性回归算法[11]对用户的行为数据进行训练与预测模型构建。用户的性格倾向性y和微博用户性格倾向性的i个主要特征(x1,x2,x3……xi)存在线性关系,其空间模型为
y(x)=β0+β1×x1+β2×x2+β3×x3+βi×xi
(16)
式中βi为权重,由训练集数据训练确定。为了评价训练后的结果与数据的拟合情况,引入了代价函数的概念,针对本应用场景,代价函数定义为
C(β0、β1、β2、β3、β4、βi)=
(17)
参数β0、β1、β2、β3、β4、β5的确定过程釆用梯度下降法,利用负梯度方向来决定每次迭代的新的搜索方向,使得每次迭代能使待优化的目标函数逐步减小,梯度是方向导数下降最快的方向。以权重β0为例,设定一个更新步长,每次更新的大小为
(18)
首先给β0、β1、β2、β3、β4、βi设定一个随机值为初始值,然后按照式(18)迭代更新β0、β1、β2、β3、β4、βi,根据新的权重β0、β1、β2、β3、β4、βi计算代价函数的大小及变化,当代价函数在两次迭代间下降的大小小于某个给定值时,停止迭代。关于更新步长的设定,需要经过多次的试探来确定一个合适的大小。更新步长太大,容易形成在最低点附近的来回震荡,无法收敛;更新步长如果太小,则收敛速度就会很慢,计算时间长。梯度下降法的另一个缺点是,无法避免选择局部最优,这种情况,可以通过多次的计算来解决,在计算的多次结果中,选择代价函数最小的那一组权值。
2.2 求解多元线性回归方程
上一小节介绍了本文中运用的算法原理,本小节将介绍线性回归方程的求解方法进一步验证1.2节中选取特征的有效性。运用1.2节中得到的特征值和结果的统计数据求其线性方程,使用最小二乘法作为求线性回归参数的方法。
根据统计理论,假设关联规则中的前提和结果符合一元线性的正态误差模型,前提为x,结果为y,则有
旅游演艺产品按照不同的分类方式,划分为不同的类型。本文采用《中国旅游报》的6类型划分法,即以张家界《天门狐仙》为代表的山水实景类、以《土风苗韵》为代表的景区综艺类、以迪士尼公园巡游为代表的巡游类、以《张家界·魅力湘西》为代表的剧院类、各地巡演类、以九寨沟“藏王宴舞”为代表的宴舞类。张家界的旅游演艺主要是山水实景演艺、剧院类演艺以及景区综艺类演艺。
yi=β0+β1x1+β2x2+β3x3+β4x4+β5x5
(19)
将估计的回归参数记为β0=b0,β1=b2,β3=b3,β4=b4,β5=b5。则多元线性回归模型为
Y=b0+b1X1+b2X2+b3X3+b4X4+b5X5
(N(u)≠C(u))
(20)
式中:Xi为前提,且相互不相关;Y为结果;bi为回归参数。
根据最小二乘法的规则使残差平方和为零。则有
(21)
为了得到最小值,分别对回归参数求偏导数为零,则有
(22)
根据上文确定的特征构建原始数据集,代入式(22)得到多元线性回归模型的回归参数b0、b1、b2、b3、b4、b5(上文中5个特征的权重值)。
2.3 用户行为特征有效性验证
本节是对上节得到的多元线性回归方程进行验证,验证其是否满足多元线性回归方程的取值特点。想要验证方程是否满足取值特点,就要验证方程对前提和结果的表述是否正确,这需要对线性回归方程的拟合效果进行分析。根据统计学原理,常用测定系数来表示所求方程与实际方程的符合程度。测定系数是指可解释的变异占总变异的百分比,即
(23)
其中,
(24)
式(24)为计算原始数据yi的总变异平方和的方法。
(25)
式(25)为用拟合直线来计算可解释的变异平方和的方法。
(26)
式(26)为计算残差异平方和的方法。
由测定的系数运算过程可知0≤R2≤1,当R2=1时,有SSR=SST,该情况表示原始数据的总体变异与拟合值的变异完全吻合,可以完全由拟合值变异解释,并且残差值为0,也就是SSE=0,也就是说原始数据与拟合点完全吻合。当R2=0时,回归方程与原始数据的总变异完全无关,完全不能对其进行解释,y的变异与x毫无关系,其产生的变异是由与x无关的因素引起,也就是SSE=SST。由此可见,当R2越趋向于1,回归方程拟合的越良好,原始数据中的变量y与拟合变量y的相关程度越大。所以我们只需用来表示y与x之间的相关度,表示y与自变量x的相关系数,其正、负符号与回归系数b1、b2、b3、b4、b5一致,由此求出的R2就能代表y与自变量x的相关程度。通过1.2节选取的特征进行数据提取,以外倾性为例,计算得到一组回归拟合曲线,如图1所示。
图1 多元线性回归拟合曲线
图1中每一个散点代表一个用户,通过拟合函数进行特征有效性验证,得到拟合曲线。图1中显示出本文选取的特征与用户性格值符合线性回归方程取值特点,并满足线性关系,所得R2的值也满足拟合特点,最终证明本文中选取的5个特征对用户性格有良好的代表性,由此可以证明,本文构建的5个特征与用户性格有良好的相关性。
2.4 特征参数的显著性检验
本小节将对回归参数的显著性进行检验,采用回归分析中的F检验对2.2中求取的线性关系方程进行检验,以确定回归模型的准确性。这里检验的是β1、β2、β3、β4、β5是否显著不为0,以β1为例。
假设H0:β1=0,H1:β1≠0。
@符号使用量、评论数、关注与被关注数对用户交互主动性的重要程度不同,本文采用对不同影响因子赋予不同的权重来表示对用户交互主动性的贡献大小。用户的@符号使用量对用户交互主动性的贡献程度为
(27)
其中,
MSR=SSR/dfR=SSR/1
MSE=SSE/dfE=SSE/(n-2)
关注数对用户交互主动性的贡献程度为
若F*≤Fa(1,n-2),则接受H0假设,认为β1显著为0,x与y不存在线性关系,x的线性关系无法解释y;若F*>Fa(1,n-2),则接受H1假设,认为β1显著不为0,x与y存在线性关系,x的线性关系可以解释y。
本文采用的检验方法,以假设其他条件都是符合要求为前提,检验只针对线性回归模型本身,验证上一小节所得的回归参数是否显著,进一步确定用户行为特征与用户性格之间的相关程度。
经检验β1、β2、β3、β4、β5全部显著不为0,由此验证了上一小节得到的回归参数满足线性回归的显著性。由此可以看出,本文中选取的用户特征与用户性格有着良好的相关性,所采用的线性回归算法也具有可靠性与显著性,进而确保了用户性格预测的准确性。
2.5 微博用户性格预测模型的实现
被关注数对用户赞同度的贡献程度为
图2 性格预测流程
数据采集部分,首先通过新浪微博API提供的数据访问接口,针对目标用户通过其ID爬取该目标用户行为信息;同时通过心理学大五人格模型对目标用户进行性格倾向分值计算;结合以上两部分数据对目标用户进行标注构成训练语料。
为了得到性格预测模型需要的特征,对信息进行预处理。例如,用户基本信息中用户微博注册时间;文本信息中表情符号、点赞、评论等信息的统计;再根据1.2节中构建的5个特征指标,抽取当前用户的性格特征指标并计算出相应的特征值,最终采用线性回归算法实现性格预测模型的构建。
3 实验结果分析
3.1 实验语料
新浪微博提供了API数据访问接口,本文利用目标用户的ID从数据访问接口获取对应的用户信息。从2017年12月到2019年1月,共计收到893位用户的性格评测问卷,通过对评测问卷质量的挑选,得到432份真实有效的测评问卷。本文对问卷挑选的标准主要有以下几个方面:
1)用户的作答质量是否符合标准,作答时间不得小于2 min;
山东省墙夼水库由东西两库组成,中间借天然山凹开挖连通沟相连,共用东库溢洪闸调洪。连通沟的流量及流向受到两个水库水位影响,当西库水位高于东库水位时,西库洪水通过连通沟进入东库;当东库水位高于西库时,东库洪水通过连通沟进入西库,当两库水位低于连通沟底高程时,两库各自独立。针对墙夼水库既独立又相互连通的双库特点,就如何正确推求两库入库洪水,准确计算两库水位,合理调算两库水量,从分析调洪演算理论方法入手,给出水面线数学模型和算法,建立双库调洪演算的计算模型,分析确定两库不同频率设计洪水的最高水位,使水库的设计洪水复核成果更合理,进而更好地发挥水库的防洪、灌溉功能,实现水库的社会效益。
刘光斌 男,1982年出生,四川射洪人,火箭军工程大学教授,博导,主要研究方向为GNSS导航、复杂系统控制和多智能体系统.
2)用户微博的使用活跃度是否满足要求,用户微博活跃度应大于0.01;
有时再谈得远一点,就是表姊表妹之类订了婆家,或是什么亲戚的女儿出嫁了。或是什么耳闻的,听说的,新娘子和新姑爷闹别扭之类。
3)用户微博账号是否基本信息完善。
通过对有效问卷的结果进行统计分析,从大五性格维度进行评分,评分后的结果进行归一化处理,最后得到0~100分性格值。经统计分析,其432份有效数据中用户性格类别分布人数如图3所示。
图3 用户性格类别人数分布
3.2 实验结果及分析
通过对测试数据集上用户信息的预处理,分别统计用户各个性格特征属性值,对统计后的结果进行归一化处理,避免各个指标的波动性较大,其部分结果如表2所示。其中,微博原创比率、微博活跃度、交互主动性、赞同度、表情使用率分别根据式(1)、(4)、(9)、(10)、(15)所得,指标的范围在[0-1]之间。
表2 部分用户性格特征属性值
用户ID微博原创比率微博活跃度交互主动性表情使用度赞同度0041129740.332 850.032 520.046 840.094 420.045 370083295850.039 990.019 280.709 490.071 420.099 400088231110.002 140.021 530.540 290.600 000.014 360358809510.093 420.307 570.882 580.675 840.014 590369825050.070 570.015 830.993 050.321 860.077 960684244170.012 850.031 870.832 480.777 770.028 030741724600.026 570.102 380.992 840.978 490.002 250427599820.046 420.067 760.739 810.071 070.935 38
从表2可以看出,用户原创比率高低,反映着用户对于转发微博与原创微博的倾向性;微博活跃度的高低,表示了用户近期发布或转发微博等行为频率的大小,并且将微博活跃度特征值小于0.01的用户进行过滤,去除了冗余数据,这就避免了由于数据稀疏而引起的结果不准确的问题;而交互主动性、赞同度、表情使用数也有着明显的区别,分别代表着不同用户的性格倾向性;因此,用户的这五维特征符合预测模型的要求,并且符合不同用户的不同性格倾向性。
本文采用十折交叉验证(10-fold cross-validation)的方式对模型精度进行计算,得到实验结果如图4所示。
图4 实验预测结果
为了更加准确地体现出用户的性格倾向性,并且能够更加直观地定义性格维度的相关性,我们引入了特征倾向表现强度。通过对有效样本的5个维度值的统计,对用户性格倾向的分值进行计算,得到每个维度的分值取值[0,100],值越大表示用户的真实性格与该性格维度越相关;若得到了近似于0的分值则表示用户的真实性格在该性格维度上没有明显的倾向。我们将每个性格维度的分值区间分为表现中性和表现显著2种强度,区间分别为[0-50]、(50-100]以此描述某个样本在维度上的特征倾向强度。对于有效样本的5个维度值分别统计,结果如图5所示。
图5 性格表现强度比例图
对图5中给出的不同性格倾向的实验结果分析可以看出,5个性格维度中表现中性的相对占比较高,而各个性格维度中表现显著的比例较小,说明预测样本群体(主要是理工科学生群体)大多性格趋于“温和”或是稍有偏向。严谨性维度中正向明显的比例相对最高,而外倾型和开放型较少且表现相对中性,符合理工科学生的主流性格倾向。
4 结束语
本文利用社交网络信息对用户进行性格预测。基于心理学“大五人格”模型提出了一种基于用户行为信息的性格预测方法,采用“大五人格量表”测试模型对用户进行性格维度分析,分析目标用户的个人信息和行为信息,构建了用户性格模型。通过对用户产生的行为信息和性格之间的关联进行分析,提取了微博原创比率、微博活跃度、用户交互主动性、赞同度、表情使用频数5个特征构建预测模型。最终采用线性回归算法进行实验,验证了本文构建的性格预测模型的准确性。
在接下来的研究工作中,将探索其他因素对微博用户性格倾向性的影响。例如,对微博话题的关注数、关注微博话题的种类、微博用户情感的时间连续性等,进而对特征进一步综合分析。
参考文献:
[1] Back M,Stopfer J,Vazire S,et al.Facebook profiles reflect actual personality,not self-idealization[J].Psychological Science,2010,21(3):372-374.
[2] 孙启翔.基于移动互联网社交行为的用户性格分析和预测[D].北京:北京理工大学,2016.
[3] Golbeck J,Robles C,Edmondson M,et al.Predicting personality from Twitter[C].2011 IEEE Third International Conference on Privacy,Security,Risk and Trust and 2011 IEEE Third International Conference on Sicial Computing,2011:149-156.
[4] Quercia D,Kosinski M,Stillwell D,et al.Our Twitter profiles,our selves:Predicting personality with Twitter[C].2011 IEEE Third International Conference on Privacy,Security,Risk and Trust and 2011 IEEE Third International Conference on Sicial Computing,2011:180-185.
[5] Bai Shuotian,Hao Bibo,Li Ang,et al.Predicting big five personality traits of Microblog users[C].2013 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI)and Intelligent Agent Technologies (IAT),Atlanta,Georgia,USA,2013:501-508.
[6] 刘玮,贺敏,王丽宏,等.基于用户行为特征的微博转发预测研究[J].计算机学报,2016(10):1992-2006.
[7] 娜迪热,胡俊.基于用户社交网络数据的人格倾向性分析及预测模型的建立[J].电脑知识与技术,2018,14(7):6-11.
[8] 毛佳昕,刘奕群,张敏,等.基于用户行为的微博用户社会影响力分析[J].计算机学报,2014(4):791-800.
[9] 饶元,吴连伟,王一鸣,等.基于语义分析的情感计算技术研究进展[J].软件学报,2018(8):2397-2426.
[10] 齐超,陈鸿昶,于洪涛.基于用户行为综合分析的微博用户影响力评价方法[J].计算机应用研究,2014(7):2004-2007.
[11] 张福旺,苑会娟.基于多元线性回归的空腹血糖影响因素分析方法[J].计算机科学,2018(S2):545-547.
PersonalitypredictionofMicrobloguserbasedonbehaviorinformation
LIU Ping1,CUI Zongyi2,ZHOU Weixiang3,ZHANG Yangsen3
(1.National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing 100029, China; 2.The Second Academy of China Aerospace Science & Industry Corp,Beijing 100039,China;3.Institute of Intelligent Information Processing,Beijing Information Science &Technology University,Beijing 100101,China)
Abstract:After studying the “Big Five Personality Traits Model” in psychology, this paper proposes a method to predict users’ personality based on their behavior information of social networks. The “Big-Five Personality Scale” test model is used to analyze Microblog user’s personality from different dimensions and construct the user personality model. By analyzing the relationship between user information and user personality, five most relevant feature dimensions are extracted, and the user personality prediction model is constructed based on linear regression method. The experimental results show that the accuracy of the model reaches 78.5%.
Keywords:personality prediction;liner regression;user behavior information;Big-Five personality trait
中图分类号: TP 391.1
文献标志码:A
文章编号:1674-6864(2019)03-0032-07
DOI:10.16508/j.cnki.11-5866/n.2019.03.007
收稿日期:2019-03-26
基金项目:国家自然科学基金资助项目(61772081)
第一作者简介:刘 平,男,助理工程师;
通讯作者:张仰森,男,博士,教授。
标签:用户论文; 性格论文; 线性论文; 模型论文; 特征论文; 哲学论文; 宗教论文; 心理学论文; 个性心理学(人格心理学)论文; 《北京信息科技大学学报(自然科学版)》2019年第3期论文; 国家自然科学基金资助项目(61772081)论文; 国家计算机网络应急技术处理协调中心论文; 中国航天科工集团第二研究院论文; 北京信息科技大学智能信息处理研究所论文;