全文摘要
本申请公开了一种基于语料领域的语料处理系统。该系统包括:第一训练模块,用于根据开放领域语料训练第一编码模型,根据目标领域参考语料训练第二编码模型;向量模块,用于将目标领域语料输入所述第一编码模型得到第一向量,将目标领域语料输入所述第二编码模型得到第二向量,将目标领域语料输入第三模型得到第三向量;第二训练模块,用于根据所述第一向量、所述第二向量以及所述第三向量训练语料处理模型。本申请的提供的技术方案,由于利用了开放领域的先验知识,减少了标签数据使用量,使得不仅效果得到显著提升,而且训练时间也大大缩短。
主设计要求
1.一种基于语料领域的语料处理系统,其特征在于,该系统包括:第一训练模块,用于根据开放领域语料训练第一编码模型,根据目标领域参考语料训练第二编码模型;向量模块,用于将目标领域语料输入所述第一编码模型得到第一向量,将目标领域语料输入所述第二编码模型得到第二向量,将目标领域语料输入第三模型得到第三向量;第二训练模块,用于根据所述第一向量、所述第二向量以及所述第三向量训练语料处理模型。
设计方案
1.一种基于语料领域的语料处理系统,其特征在于,该系统包括:
第一训练模块,用于根据开放领域语料训练第一编码模型,根据目标领域参考语料训练第二编码模型;
向量模块,用于将目标领域语料输入所述第一编码模型得到第一向量,将目标领域语料输入所述第二编码模型得到第二向量,将目标领域语料输入第三模型得到第三向量;
第二训练模块,用于根据所述第一向量、所述第二向量以及所述第三向量训练语料处理模型。
2.根据权利要求1所述的语料处理系统,其特征在于,所述第一编码模型为基于BiLSTM模型的自动编码器;和\/或所述第二编码模型为基于BiLSTM模型的自动编码器;和\/或第三模型为BiLSTM模型。
3.根据权利要求1所述的语料处理系统,其特征在于,所述开放领域语料不包括汽车领域语料,和\/或目标领域参考语料包括汽车领域新闻语料以及目标领域语料为汽车领域语料。
4.根据权利要求3所述的语料处理系统,其特征在于,所述开放领域语料为开放领域实体语料,所述目标领域语料为汽车领域实体语料;所述语料处理模型为评价对象抽取模型。
5.根据权利要求4所述的语料处理系统,其特征在于,所述评价对象抽取模型包括CRF模型。
6.根据权利要求3所述的语料处理系统,其特征在于,所述开放领域语料为开放领域情感分析语料,所述目标领域语料为汽车领域情感分析语料;所述语料处理模型为情感倾向分析模型。
7.根据权利要求6所述的语料处理系统,其特征在于,所述情感倾向分析模型包括SoftMax模型。
8.根据权利要求1所述的语料处理系统,其特征在于,所述开放领域语料为去除标签后的开放领域语料。
9.根据权利要求1所述的语料处理系统,其特征在于,所述第二训练模块,还用于在训练所述语料处理模型的过程中,冻结所述第一向量和所述第二向量,并优化所述第三向量。
10.根据权利要求1所述的语料处理系统,其特征在于,该系统还包括:
预处理模块,用于将待评论语句进行预处理;
划分模块,用于将长句划分为若干子句;
输入模块,用于将所述子句输入所述语料处理模型。
11.根据权利要求10所述的语料处理系统,其特征在于,所述划分模块,还用于根据依存句法分析将长句划分为若干子句。
设计说明书
技术领域
本申请涉及语料处理领域,尤其涉及一种基于语料领域的语料处理系统。
背景技术
用户生成内容是目前自然语言处理的重要对象之一,通过对大量用户生成内容进行数据挖掘,可以发现用户生成内容所反映出的信息,从而可以对用户生成内容进行分类。例如,现有技术中,针对汽车领域的情感分析主要是通过用户在发布用户生成内容的时候,强制其针对汽车的各个方面进行评价,从而达到分类的目的。根据用户的评价,可以通过机器学习的方式进一步分析用户具体评论的情感倾向,如是积极态度还是消极态度。
尽管现有技术中的技术方案在某些特定领域的应用能够起到不错的效果,并得到了广泛使用,但是仍然存在一些缺点。首先,强制用户针对汽车的各个方面进行评价,阻碍了一部分用户主动发布用户生成内容,因而损失了大量数据。其次,如果是用户自身分类错误,则得到的结果错误。而且,目前的方案分类粒度较大,不够细致。
此外,基于机器学习的方式实现起来比较耗时耗力,需要大量的标注数据和复杂特征提取过程,对于深度学习的方式,虽然不需要特征提取,但还是需要大量的标注数据训练模型,需要花费巨大的人力、财力和物力。
发明内容
有鉴于此,本申请提出了一种基于语料领域的语料处理系统,以减少标签的数量,提高用户生成内容处理的效率。
根据本申请的一个方面,提出了一种基于语料领域的语料处理系统,该系统包括:
第一训练模块,用于根据开放领域语料训练第一编码模型,根据目标领域参考语料训练第二编码模型;
向量模块,用于将目标领域语料输入所述第一编码模型得到第一向量,将目标领域语料输入所述第二编码模型得到第二向量,将目标领域语料输入第三模型得到第三向量;
第二训练模块,用于根据所述第一向量、所述第二向量以及所述第三向量训练语料处理模型。
优选地,所述第一编码模型为基于BiLSTM模型的自动编码器;和\/或所述第二编码模型为基于BiLSTM模型的自动编码器;和\/或第三模型为BiLSTM模型。
优选地,所述开放领域语料不包括汽车领域语料,和\/或目标领域参考语料包括汽车领域新闻语料以及目标领域语料为汽车领域语料。
优选地,所述开放领域语料为开放领域实体语料,所述目标领域语料为汽车领域实体语料;所述语料处理模型为评价对象抽取模型。
优选地,所述评价对象抽取模型包括CRF模型。
优选地,所述开放领域语料为开放领域情感分析语料,所述目标领域语料为汽车领域情感分析语料;所述语料处理模型为情感倾向分析模型。
优选地,所述情感倾向分析模型包括SoftMax模型。
优选地,所述开放领域语料为去除标签后的开放领域语料。
优选地,所述第二训练模块,还用于在训练所述语料处理模型的过程中,冻结所述第一向量和所述第二向量,并优化所述第三向量。
优选地,该系统还包括:
预处理模块,用于将待评论语句进行预处理;
划分模块,用于将长句划分为若干子句;
输入模块,用于将所述子句输入所述语料处理模型。
优选地,所述划分模块,还用于根据依存句法分析将长句划分为若干子句。
优选地,所述向量模块还用于根据预处理后的词语生成对应的第四向量。
本申请的提供的技术方案,由于利用了开放领域的先验知识,减少了标签数据使用量,使得不仅效果得到显著提升,而且训练时间也大大缩短。
本申请的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施方式及其说明用于解释本申请。在附图中:
图1为实施例提供的基于语料领域的语料处理系统示意图;
图2为本申请实施例提供的自动编码器模型网络结构示意图;
图3为本申请实施例提供的BiLSTM结构示意图;
图4为本申请实施例提供的基于语料领域的语料处理详细流程示意图;
图5为本申请实施例提供的待评价语句的处理流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施方式及各个实施方式中的特征可以相互组合。
下面将参考附图并结合实施方式来详细说明本申请。
如图1所示,本申请实施例提供了一种基于语料领域的语料处理系统,该系统包括:
第一训练模块,用于根据开放领域语料训练第一编码模型,根据目标领域参考语料训练第二编码模型;开放领域语料可以通过公开的途径获取,例如免费的开放语料库,或者购买市场上成熟的开放语料库;目标领域可以为汽车领域、旅游领域、家装领域等等,申请实施例以汽车领域进行说明;参考语料可以为新闻语料,汽车领域新闻语料用来引入汽车行业背景信息;
第二训练模块,用于将目标领域语料输入所述第一编码模型得到第一向量,将目标领域语料输入所述第二编码模型得到第二向量,将目标领域语料输入第三模型得到第三向量;优选地,第一编码模型和第二编码模型可以采用基于BiLSTM构建的自动编码器(AutoEncoder)。开放领域语料可以包括情感分析语料和实体语料,目标领域语料可以包括情感分析语料和实体语料;优选地,第三模型可以直接使用BiLSTM模型。
向量模块,用于根据所述第一向量、所述第二向量以及所述第三向量训练语料处理模型。本申请实施例中,可以根据所使用的模型训练具有不同作用的模型,例如评价对象抽取模型和情感倾向分析模型,评价对象抽取模型可以通过条件随机场算法(CRF)模型实现,情感倾向分析模型可以通过SoftMax模型实现。
需要说明的是,如果使用开放领域语料中的开放领域情感分析语料训练第一编码器,使用汽车领域语料中的汽车领域情感分析语料训练第二编码器,则对应的语料处理模型为SoftMax模型,用来对待评价语句的情感倾向进行分类;如果使用开放领域语料中的开放领域实体语料训练第一编码器,使用汽车领域语料中的汽车领域实体语料训练第二编码器,则对应的语料处理模型为CRF模型,用来识别待评价语句中的评价对象,例如实词。本申请实施例中,实体语料一般可以指名词,情感分析语料可以指形容词和副词。优选地,开放领域语料可以为去除标签后的语料。优选地,汽车领域语料可以为具有标签的语料,即标注语料。
优选地,该系统还包括预处理模块、划分模块以及输入模块;预处理模块,用于将待评论语句进行预处理;划分模块,用于将长句划分为若干子句;输入模块,用于将所述子句输入所述语料处理模型。
此外,对于语料处理而言,本领域人员知晓,在进行处理之前需要进行预处理,例如语料的清洗和分词。优选地,在进行模型训练时,向量模块还可以将预处理后的结果进行向量化,例如通过word2vec工具将分词的结果转换为第四向量。
图2示出了自动编码器模型的网络结构。其中,通过将X在BiLSTM中编码,在解码,最终希望得到的X’和X尽可能相同。
即:h(x)=BiLSTM(W,X);
X’=BiLSTM(W’,h(x));
X’≈X;
其中,X为输入句子对应的词向量序列,xi<\/sub>为X句子中每个词的词向量,xi<\/sub>’为经过解码后的编码向量,X’为经过解码后的句子向量。
将汽车领域实体标注语料S输入自动编码器LM1中的BiLSTM模型,取BiLSTM正向最后一个向量设计图
相关信息详情
申请码:申请号:CN201910009322.5
申请日:2019-01-04
公开号:CN109871533A
公开日:2019-06-11
国家:CN
国家/省市:11(北京)
授权编号:CN109871533B
授权时间:20191210
主分类号:G06F17/27
专利分类号:G06F17/27;G06K9/62;G06N3/04;G06N3/08
范畴分类:40B;
申请人:北京车慧科技有限公司
第一申请人:北京车慧科技有限公司
申请人地址:100044 北京市海淀区西直门外大街168号腾达大厦21层2101-2103、2105-2111
发明人:孔洋洋;陈飞宇;朱劲松
第一发明人:孔洋洋
当前权利人:北京车慧科技有限公司
代理人:李翔;杨安进
代理机构:11393
代理机构编号:北京市维诗律师事务所
优先权:关键词:当前状态:审核中
类型名称:外观设计