全文摘要
本发明公开了一种带背景描述的企业情感分析方法,属于大数据技术领域,包括对新闻信息进行预处理,使用CBOW结构的word2vec模型对摘要和公司名相关的文本信息进行预训练得到相应的词向量,将带背景描述的文本表示使用多个不同卷积核提取特征,池化后将不同特征进行拼接,将拼接后的特征通过情感分析分类器计算各情感分类的概率,得到带背景描述的情感分析结果,解决了通过对指定公司名上下文相关信息的自注意力编码得到相关背景描述信息,并通过叠加背景描述信息,使对企业的情感分析结果更加正确的技术问题,本发明不用对整个文本进行情感分析,细致的分析出了文本中的每一个部分的感情,分析准确度高。
主设计要求
1.一种带背景描述的企业情感分析方法,其特征在于:包括如下步骤:步骤1:建立服务器集群,服务器集群从互联网中获取公开的新闻数据;在服务器集群中建立数据预处理模块、word2vec模型模块和情感分类器模块;步骤2:服务器集群从公开的新闻数据中获取新闻的文本信息;步骤3:数据预处理模块对文本信息进行预处理,去除无关情感的符号,提取文本信息中的公司名、摘要和相关文本;相关文本为与提取出的公司名相关的部分文本;设定情感标签,利用情感标签对文本信息进行标注,去除无关情感的符号;步骤4:word2vec模型模块使用CBOW结构的word2vec模型对摘要和相关文本进行预训练,将摘要和相关文本向量化,使用位置嵌入的方法计算词的位置向量,得到相应的词向量,将每个位置编号,然后每个编号对应一个向量,通过结合位置向量和词向量,给每个词都引入一定的位置信息,使用以下两个公式计算位置向量:其中,将id为p的位置映射为一个dpos维的位置向量,这个向量的第i个元素的数值就是位置向量PEi(p);步骤5:使用位置嵌入方法,对摘要的文本中的所有词进行位置编号,每个编号对应一个词向量,为每一个词向量引入位置信息,得到对摘要的表示;步骤6:将向量化后的相关文本输入基于自注意力机制的编码器中,通过学习语句自身内部所有字词间的关系,计算源语句内的每个字词与目标语句中所有字词之间的自注意力相关系数,经过线性变化学习句法级别的文本表示方法,得到对相关文本的表示;将对摘要的表示和对相关文本的表示结合,得到带有公司名的背景描述信息;步骤7:将带有公司名的背景描述信息送入到卷积核大小为别为3、4、5的卷积神经网络,利用多个不同的卷积核来提取句子中的关键信息,再通过softmax归一化计算数据所属各情感类别的概率,获取概率最大的情感标签作为情感分析的分析结果。
设计方案
1.一种带背景描述的企业情感分析方法,其特征在于:包括如下步骤:
步骤1:建立服务器集群,服务器集群从互联网中获取公开的新闻数据;
在服务器集群中建立数据预处理模块、word2vec模型模块和情感分类器模块;
步骤2:服务器集群从公开的新闻数据中获取新闻的文本信息;
步骤3:数据预处理模块对文本信息进行预处理,去除无关情感的符号,提取文本信息中的公司名、摘要和相关文本;相关文本为与提取出的公司名相关的部分文本;
设定情感标签,利用情感标签对文本信息进行标注,去除无关情感的符号;
步骤4:word2vec模型模块使用CBOW结构的word2vec模型对摘要和相关文本进行预训练,将摘要和相关文本向量化,使用位置嵌入的方法计算词的位置向量,得到相应的词向量,将每个位置编号,然后每个编号对应一个向量,通过结合位置向量和词向量,给每个词都引入一定的位置信息,使用以下两个公式计算位置向量:
设计说明书
技术领域
本发明属于大数据技术领域,尤其涉及一种带背景描述的企业情感分析方法。
背景技术
情感分析是人们的观点,情绪,评估对诸如产品,服务,组织等实体的态度。该领域的发展和快速起步得益于网络上的社交媒体,例如产品评论,论坛讨论,微博,微信的快速发展。自2000年初以来,情绪分析已经成长为自然语言处理(NLP)中最活跃的研究领域之一。对于企业来说,通过情感分析,可以挖掘企业产品在各个维度的优劣,从而明确如何改进产品。现在主要的情感分析的方法包括以下两种:
基于情感词典的传统方法,基于情感词典的方法,先对文本进行分词和停用词处理等预处理,再利用先构建好的情感词典,对文本进行字符串匹配,从而挖掘正面和负面信息。该方法有如下几个缺点:
1.精度不高,语言是一个高度复杂的东西,采用简单的线性叠加显然会造成很大的精度损失。词语权重同样不是一成不变的,而且也难以做到准确;
2.新词发现,对于新的情感词,词典不一定能够覆盖;
3.词典构建难,基于词典的情感分类,核心在于情感词典,而情感词典的构建需要有较强的背景知识,需要对语言有较深刻的理解,在分析外语方面会有很大限制。
基于评分的机器学习算法,使用贝叶斯,支持向量机以及神经网络对文本进行分类,最终使用评分系统输出情感标签,需要事先设定一个阈值范围,若经过评分系统输出的结果大于该范围,则评判为正向情感,若小于该范围,则判为负向情感,若在该阈值范围内,则判定为中立情感,这种做法最大的缺点是不灵活,算法存在一定的缺陷,同一类的情感数据的特征可能相差很大,把不同程度上的特征转化为指定的阈值范围,会出现一定程度上的偏差,导致最终情感分析的结果不准确。
发明内容
本发明的目的是提供一种带背景描述的企业情感分析方法,解决了通过对指定公司名上下文相关信息的自注意力编码得到相关背景描述信息,并通过叠加背景描述信息,使对企业的情感分析结果更加正确的技术问题。
为实现上述目的,本发明采用如下技术方案:
一种带背景描述的企业情感分析方法,包括如下步骤:
步骤1:建立服务器集群,服务器集群从互联网中获取公开的新闻数据;
在服务器集群中建立数据预处理模块、word2vec模型模块和情感分类器模块;
步骤2:服务器集群从公开的新闻数据中获取新闻的文本信息;
步骤3:数据预处理模块对文本信息进行预处理,去除无关情感的符号,提取文本信息中的公司名、摘要和相关文本;相关文本为与提取出的公司名相关的部分文本;
设定情感标签,利用情感标签对文本信息进行标注,去除无关情感的符号;
步骤4:word2vec模型模块使用CBOW结构的word2vec模型对摘要和相关文本进行预训练,将摘要和相关文本向量化,使用位置嵌入的方法计算词的位置向量,得到相应的词向量,将每个位置编号,然后每个编号对应一个向量,通过结合位置向量和词向量,给每个词都引入一定的位置信息,使用以下两个公式计算位置向量:
其中,将id为p的位置映射为一个dpos<\/sub>维的位置向量,这个向量的第i个元素的数值就是位置向量PEi(p)<\/sub>;
步骤5:使用位置嵌入方法,对摘要的文本中的所有词进行位置编号,每个编号对应一个词向量,为每一个词向量引入位置信息,得到对摘要的表示;
步骤6:将向量化后的相关文本输入基于自注意力机制的编码器中,通过学习语句自身内部所有字词间的关系,计算源语句内的每个字词与目标语句中所有字词之间的自注意力相关系数,经过线性变化学习句法级别的文本表示方法,得到对相关文本的表示;
将对摘要的表示和对相关文本的表示结合,得到带有公司名的背景描述信息;
步骤7:将带有公司名的背景描述信息送入到卷积核大小为别为3、4、5的卷积神经网络,利用多个不同的卷积核来提取句子中的关键信息,再通过softmax归一化计算数据所属各情感类别的概率,获取概率最大的情感标签作为情感分析的分析结果。
优选的,在执行步骤4时,对公司名相关的文本信息使用自注意力机制,通过计算自注意力系数学习得到句法层面的文本表示;将对摘要的表示和句法层面的文本表示进行叠加,得到带背景描述的文本表示。
优选的,在执行步骤3时,情感标签包括正向情感Pos、负向情感Neg和中立情感Neu。
优选的,在执行步骤5时,对摘要的词向量使用Position embedding方法叠加位置信息。
本发明所述的一种带背景描述的企业情感分析方法,解决了通过对指定公司名上下文相关信息的自注意力编码得到相关背景描述信息,并通过叠加背景描述信息,使对企业的情感分析结果更加正确的技术问题,本发明不用对整个文本进行情感分析,细致的分析出了文本中的每一个部分的感情,分析准确度高。
附图说明
图1是本发明的总流程图;
图2是本发明的步骤2到步骤6的流程图;
图3是本发明整体模型结构图。
具体实施方式
如图1-图3所示的一种带背景描述的企业情感分析方法,包括如下步骤:
步骤1:建立服务器集群,服务器集群从互联网中获取公开的新闻数据;
在服务器集群中建立数据预处理模块、word2vec模型模块和情感分类器模块;
步骤2:服务器集群从公开的新闻数据中获取新闻的文本信息;
步骤3:数据预处理模块对文本信息进行预处理,去除无关情感的符号,提取文本信息中的公司名、摘要和相关文本;相关文本为与提取出的公司名相关的部分文本;
本实施例的具体实施方法为:建立一个文本窗口,设置窗口大小为100,相关正文就是在公司名出现位置的前100个和后100个词之前出现的文本,这一段文本代表了具有特定公司背景的描述,结合摘要,能使情感分析更加准确
设定情感标签,利用情感标签对文本信息进行标注,去除无关情感的符号;
步骤4:word2vec模型模块使用CBOW结构的word2vec模型对摘要和相关文本进行预训练,将摘要和相关文本向量化,使用位置嵌入的方法计算词的位置向量,得到相应的词向量,将每个位置编号,然后每个编号对应一个向量,通过结合位置向量和词向量,给每个词都引入一定的位置信息,使用以下两个公式计算位置向量:
其中,将id为p的位置映射为一个dpos<\/sub>维的位置向量,这个向量的第i个元素的数值就是位置向量PEi(p)<\/sub>;
使用以上公式是因为位置p+k的向量可以表示成位置p的向量的线性变换,如下为sin和cos公式的变换关系:
sin(α+β)=sinαcosβ+cosβsinβ;
cos(α+β)=cosαcosβ-sinβsinβ;
这提供了表达相对位置信息的可能性。
步骤5:使用位置嵌入方法,对摘要的文本中的所有词进行位置编号,每个编号对应一个词向量,为每一个词向量引入位置信息,得到对摘要的表示;
步骤6:将向量化后的相关文本输入基于自注意力机制的编码器中,通过学习语句自身内部所有字词间的关系,计算源语句内的每个字词与目标语句中所有字词之间的自注意力相关系数,经过线性变化学习句法级别的文本表示方法,得到对相关文本的表示;
步骤7:将带有公司名的背景描述信息送入到卷积核大小为别为3、4、5的卷积神经网络,利用多个不同的卷积核来提取句子中的关键信息,再通过softmax归一化计算数据所属各情感类别的概率,获取概率最大的情感标签作为情感分析的分析结果。
如图3所示,其中abstract为摘要,text为相关文本,word embedding为词向量,position embedding为位置向量,self attention为自注意力机制,convolution为卷积,max pooling为最大池。
本实施例使用自注意力编码器对向量化的相关文本进一步编码,学习语句内部字词之间的联系,同时计算自注意力系数,可以得到最终的文本特征向量。相关文本经过词嵌入后输入向量转换出矩阵X,X∈Rm×d,其中m表示相关文本中的词汇个数,d表示词向量的维度。自注意力机制的原理是通过计算目标词与文本序列之间的关系,得到每个词对应于文本序列中所有词的自注意力系数,可以把目标词表示为Q,将文本序列表示成Key-Value的形式,分别表示为K,V,其中K的作用是为了与Q计算自注意力系数,V为目标语句,三次线性变换的公式如下:
Q=WQ<\/sub>·X;
K=WK<\/sub>·X;
V=WV<\/sub>·X;
其中,WQ<\/sub>,WK<\/sub>,WV<\/sub>为待训练的参数。使用softmax计算自注意力系数,因为需要计算源语句中每个字词对应的目标语句中所有字词,为了保证自注意力系数的变化范围较为明显,需要对进行缩放,这里对其同时除以设计图
申请码:申请号:CN201910593643.4 申请日:2019-07-03 公开号:CN110287326A 公开日:2019-09-27 国家:CN 国家/省市:31(上海) 授权编号:授权时间:主分类号:G06F 16/35 专利分类号:G06F16/35;G06F16/36;G06F17/27;G06Q50/00 范畴分类:40B; 申请人:上海冰鉴信息科技有限公司 第一申请人:上海冰鉴信息科技有限公司 申请人地址:200120 上海市上海自由贸易试验区商城路618号四层B207室 发明人:顾凌云;严涵;王洪阳 第一发明人:顾凌云 当前权利人:上海冰鉴信息科技有限公司 代理人:滕诣迪 代理机构:32231 代理机构编号:常州佰业腾飞专利代理事务所(普通合伙) 优先权:关键词:当前状态:审核中 类型名称:外观设计 标签:机器学习论文; 文本分类论文; 服务器集群论文; 文本分析论文; 自然语言处理论文; 情感计算论文; 词向量论文; word2vec论文; 情感分析论文; 相关信息详情