全文摘要
本发明实施例提出一种标题纠错方法和装置,方法包括:基于语料库获取待纠错标题中的每个词语片段的第一召回词;根据待纠错标题向标题检索库发送检索请求,从标题检索库中获取待纠错标题的相似标题,标题检索库在接收到检索请求时进行数据更新;根据相似标题获取每个词语片段的第二召回词;对每个词语片段的第一召回词和第二召回词进行特征计算;确定每个词语片段的候选召回词;基于每个词语片段的候选召回词对待纠错标题进行纠错。本发明实施例从预设标题检索库获取的相似标题获取第二召回词,可以有效弥补通过语料库获取的第一召回词可能存在的召回不足的问题。通过第一召回词和第二召回词可以实现从不同维度全面的对待纠错标题进行纠错。
主设计要求
1.一种标题纠错方法,其特征在于,包括:基于语料库,获取待纠错标题中的每个词语片段的第一召回词;根据所述待纠错标题,向标题检索库发送检索请求,所述标题检索库在接收到所述检索请求时进行数据更新;根据所述检索请求和所述待纠错标题的文本内容,从所述标题检索库中获取所述待纠错标题的相似标题;根据所述相似标题,获取所述每个词语片段的第二召回词;对所述每个词语片段的第一召回词和第二召回词分别进行特征计算;根据特征计算结果,确定所述每个词语片段的候选召回词;基于所述每个词语片段的候选召回词对所述待纠错标题进行纠错。
设计方案
1.一种标题纠错方法,其特征在于,包括:
基于语料库,获取待纠错标题中的每个词语片段的第一召回词;
根据所述待纠错标题,向标题检索库发送检索请求,所述标题检索库在接收到所述检索请求时进行数据更新;
根据所述检索请求和所述待纠错标题的文本内容,从所述标题检索库中获取所述待纠错标题的相似标题;
根据所述相似标题,获取所述每个词语片段的第二召回词;
对所述每个词语片段的第一召回词和第二召回词分别进行特征计算;
根据特征计算结果,确定所述每个词语片段的候选召回词;
基于所述每个词语片段的候选召回词对所述待纠错标题进行纠错。
2.根据权利要求1所述的方法,其特征在于,构建所述标题检索库包括:
基于倒排索引方式,根据已有文章资源,构建所述标题检索库,所述已有文章包括标题和文字内容;
获取所述标题检索库接收到所述检索请求时的已有文章资源;
根据所述标题检索库接收到所述检索请求时的已有文章资源,更新所述标题检索库。
3.根据权利要求1所述的方法,其特征在于,根据所述相似标题,获取每个词语片段的第二召回词,包括:
根据所述待纠错标题,获取对齐信息;
根据所述对齐信息,从所述相似标题中获取所述每个词语片段的第二召回词。
4.根据权利要求1所述的方法,其特征在于,对所述每个词语片段的第一召回词和第二召回词分别进行特征计算,包括:
对所述每个词语片段的第一召回词的行为特征、语义特征、语言模型特征、词向量特征以及属性特征进行特征计算;
对所述每个词语片段的第二召回词的行为特征、语义特征、语言模型特征、词向量特征以及属性特征进行特征计算。
5.根据权利要求4所述的方法,其特征在于,根据特征计算结果,确定所述每个词语片段的候选召回词,包括:
根据所述第一召回词和所述第二召回词的特征计算结果,利用树模型和标准排序GBRank算法对第一召回词和第二召回词进行打分排序;
根据打分排序结果,从所述第一召回词和第二召回词中选择出候选召回词。
6.根据权利要求5所述的方法,其特征在于,基于所述每个词语片段的候选召回词对所述待纠错标题进行纠错,包括:
在所述待纠错标题中的词语片段与其对应的所述候选召回词不一致的情况下,将所述词语片段替换为所述候选召回词。
7.一种标题纠错装置,其特征在于,包括:
第一获取模块,用于基于语料库,获取待纠错标题中的每个词语片段的第一召回词;
第二获取模块,用于根据所述待纠错标题,向标题检索库发送检索请求,以从所述标题检索库中获取所述待纠错标题的相似标题,所述标题检索库在接收到所述检索请求时进行数据更新;
第三获取模块,用于根据所述相似标题,获取每个词语片段的第二召回词;
计算模块,用于对所述每个词语片段的第一召回词和第二召回词分别进行特征计算;
确定模块,用于根据特征计算结果,确定所述每个词语片段的候选召回词;
纠错模块,用于基于所述每个词语片段的候选召回词对所述待纠错标题进行纠错;
其中,第二获取模块包括相似标题获取子模块,用于根据所述待纠错标题包括的文本内容,从所述标题检索库中获取与所述待纠错标题相近似的至少一个相似标题。
8.根据权利要求7所述的装置,其特征在于,还包括:
构建模块,用于基于倒排索引方式,根据已有文章资源,构建所述标题检索库,所述已有文章包括标题和文字内容;
第四获取模块,用于获取所述标题检索库接收到所述检索请求时的已有文章资源;
更新模块,用于根据所述标题检索库接收到所述检索请求时的已有文章资源,更新所述标题检索库。
9.根据权利要求7所述的装置,其特征在于,所述第三获取模块包括:
对齐信息获取子模块,用于根据所述待纠错标题,获取对齐信息;
第二召回词获取子模块,用于根据所述对齐信息,从所述相似标题中获取所述每个词语片段的第二召回词。
10.根据权利要求7所述的装置,其特征在于,所述计算模块包括:
第一计算子模块,用于对所述每个词语片段的第一召回词的行为特征、语义特征、语言模型特征、词向量特征以及属性特征进行特征计算;
第二计算子模块,用于对所述每个词语片段的第二召回词的行为特征、语义特征、语言模型特征、词向量特征以及属性特征进行特征计算。
11.根据权利要求10所述的装置,其特征在于,所述确定模块包括:
排序子模块,用于根据所述第一召回词和所述第二召回词的特征计算结果,利用树模型和标准排序GBRank算法对第一召回词和第二召回词进行打分排序;
选择子模块,用于根据打分排序结果,从所述第一召回词和第二召回词中选择出候选召回词。
12.根据权利要求11所述的装置,其特征在于,所述纠错模块包括:
纠错子模块,用于在所述待纠错标题中的词语片段与其对应的所述候选召回词不一致的情况下,将所述词语片段替换为所述候选召回词。
13.一种标题纠错终端,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现根据权利要求1至6中任一项所述方法。
14.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现根据权利要求1至6中任一项所述方法。
设计说明书
技术领域
本发明涉及文本识别技术领域,尤其涉及一种标题纠错方法和装置。
背景技术
目前的文本纠错解决方案能够很好的解决通用类型的错别字纠错,但对于包含知识类信息的文本纠错问题并没有得到很好的解决。例如,当文本内容包括明星姓名,且姓名中的某个字被写错时,如果基于通用类型的错别字纠错并不一定能够发现该明星姓名被写错。名字的错写并不一定属于错别字的范畴。从而导致该文本内容并没有被完全纠错成功。由此可知,现有纠错方案并不能够很好的解决上述问题。
发明内容
本发明实施例提供一种标题纠错方法和装置,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种标题纠错方法,包括:
基于语料库,获取待纠错标题中的每个词语片段的第一召回词;
根据所述待纠错标题,向标题检索库发送检索请求,以从所述标题检索库中获取所述待纠错标题的相似标题,所述标题检索库在接收到所述检索请求时进行数据更新;
根据所述相似标题,获取所述每个词语片段的第二召回词;
对所述每个词语片段的第一召回词和第二召回词分别进行特征计算;
根据特征计算结果,确定所述每个词语片段的候选召回词;
基于所述每个词语片段的候选召回词对所述待纠错标题进行纠错。
在一种实施方式中,构建所述标题检索库包括:
基于倒排索引方式,根据已有文章资源,构建所述标题检索库,所述已有文章包括标题和文字内容;
获取所述标题检索库接收到所述检索请求时的已有文章资源;
根据所述标题检索库接收到所述检索请求时的已有文章资源,更新所述标题检索库。
在一种实施方式中,从所述标题检索库中获取所述待纠错标题的相似标题,包括:
根据所述待纠错标题包括的文本内容,从所述标题检索库中获取与所述待纠错标题相近似的至少一个相似标题。
在一种实施方式中,根据所述相似标题,获取每个词语片段的第二召回词,包括:
根据所述待纠错标题,获取对齐信息;
根据所述对齐信息,从所述相似标题中获取所述每个词语片段的第二召回词。
在一种实施方式中,对所述每个词语片段的第一召回词和第二召回词分别进行特征计算,包括:
对所述每个词语片段的第一召回词的行为特征、语义特征、语言模型特征、词向量特征以及属性特征进行特征计算;
对所述每个词语片段的第二召回词的行为特征、语义特征、语言模型特征、词向量特征以及属性特征进行特征计算。
在一种实施方式中,根据特征计算结果,确定所述每个词语片段的候选召回词,包括:
根据所述第一召回词和所述第二召回词的特征计算结果,利用树模型和标准排序GBRank算法对第一召回词和第二召回词进行打分排序;
根据打分排序结果,从所述第一召回词和第二召回词中选择出候选召回词。
在一种实施方式中,基于所述每个词语片段的候选召回词对所述待纠错标题进行纠错,包括:
在所述待纠错标题中的词语片段与其对应的所述候选召回词不一致的情况下,将所述词语片段替换为所述候选召回词。
第二方面,本发明实施例提供了一种标题纠错装置,包括:
第一获取模块,用于基于语料库,获取待纠错标题中的每个词语片段的第一召回词;
第二获取模块,用于根据所述待纠错标题,向标题检索库发送检索请求,以从所述标题检索库中获取所述待纠错标题的相似标题,所述标题检索库在接收到所述检索请求时进行数据更新;
第三获取模块,用于根据所述相似标题,获取每个词语片段的第二召回词;
计算模块,用于对所述每个词语片段的第一召回词和第二召回词分别进行特征计算;
确定模块,用于根据特征计算结果,确定所述每个词语片段的候选召回词;
纠错模块,用于基于所述每个词语片段的候选召回词对所述待纠错标题进行纠错。
在一种实施方式中,还包括:
构建模块,用于基于倒排索引方式,根据已有文章资源,构建所述标题检索库,所述已有文章包括标题和文字内容;
第四获取模块,用于获取所述标题检索库接收到所述检索请求时的已有文章资源;
更新模块,用于根据所述标题检索库接收到所述检索请求时的已有文章资源,更新所述标题检索库。
在一种实施方式中,所述第二获取模块包括:
相似标题获取子模块,用于根据所述待纠错标题包括的文本内容,从所述标题检索库中获取与所述待纠错标题相近似的至少一个相似标题。
在一种实施方式中,所述第三获取模块包括:
对齐信息获取子模块,用于根据所述待纠错标题,获取对齐信息;
第二召回词获取子模块,用于根据所述对齐信息,从所述相似标题中获取所述每个词语片段的第二召回词。
在一种实施方式中,所述计算模块包括:
第一计算子模块,用于对所述每个词语片段的第一召回词的行为特征、语义特征、语言模型特征、词向量特征以及属性特征进行特征计算;
第二计算子模块,用于对所述每个词语片段的第二召回词的行为特征、语义特征、语言模型特征、词向量特征以及属性特征进行特征计算。
在一种实施方式中,所述确定模块包括:
排序子模块,用于根据所述第一召回词和所述第二召回词的特征计算结果,利用树模型和标准排序GBRank算法对第一召回词和第二召回词进行打分排序;
选择子模块,用于根据打分排序结果,从所述第一召回词和第二召回词中选择出候选召回词。
在一种实施方式中,所述纠错模块包括:
纠错子模块,用于在所述待纠错标题中的词语片段与其对应的所述候选召回词不一致的情况下,将所述词语片段替换为所述候选召回词。
第三方面,本发明实施例提供了一种标题纠错终端,所述标题纠错终端的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,所述标题纠错终端的结构中包括处理器和存储器,所述存储器用于存储支持所述标题纠错终端执行上述标题纠错方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述标题纠错终端还可以包括通信接口,用于与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储标题纠错终端所用的计算机软件指令,其包括用于执行上述标题纠错方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:本发明实施例从预设标题检索库获取的相似标题获取第二召回词,可以有效弥补通过语料库获取的第一召回词可能存在的召回不足的问题。通过第一召回词和第二召回词可以实现从不同维度全面的对待纠错标题进行纠错。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出根据本发明实施例的标题纠错方法的流程图。
图2示出根据本发明实施例的标题纠错方法的构建标题检索库的流程图。
图3示出根据本发明另一实施例的标题纠错方法的流程图。
图4示出根据本发明实施例的标题纠错方法的步骤S300的具体流程图。
图5示出根据本发明实施例的标题纠错方法的步骤S400的具体流程图。
图6示出根据本发明实施例的标题纠错方法的步骤S500的具体流程图。
图7示出根据本发明实施例的应用实例的流程图。
图8示出根据本发明实施例的标题纠错装置的结构框图。
图9示出根据本发明另一实施例的标题纠错装置的结构框图。
图10示出根据本发明实施例的标题纠错装置的第二获取模块的结构框图。
图11示出根据本发明实施例的标题纠错装置的第三获取模块的结构框图。
图12示出根据本发明实施例的标题纠错装置的计算模块的结构框图。
图13示出根据本发明实施例的标题纠错装置的确定模块的结构框图。
图14示出根据本发明实施例的标题纠错装置的纠错模块的结构框图。
图15示出根据本发明实施例的标题纠错终端的结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出根据本发明实施例的标题纠错方法的流程图。如图1所示,该标题纠错方法包括:
S100:基于语料库,获取待纠错标题中的每个词语片段的第一召回词。语料库可以采用已有文本纠错技术中应用的任意语料库。该步骤可以按照已有纠错流程实现待纠错标题的全局统计和整体纠错。基于语料库,获取到的每个词语片段的第一召回词可以为一个或多个。每个词语片段作为候选的第一召回词的数量不尽相同。例如,有的词语片段有多个第一召回词作为候选,而有的词语片段可能只包括一个第一召回词作为候选。需要说明的是,第一召回词中可以包括词语片段自身。
在一个示例中,可以根据待纠错标题中的各字词上下文逻辑关系,基于语料库获取每个词语片段的第一召回词。还可以根据待纠错标题中各词语片段是否为错别字的逻辑关系,基于语料库获取每个词语片段的第一召回词。
需要说明的是,本实施例中提及的语料库可以分成多种类型。例如:(1)异质的语料库:没有特定的语料收集原则,广泛收集并原样存储各种语料。(2)同质的语料库:只收集同一类内容的语料。(3)系统的语料库:根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实。(4)专用的语料库:只收集用于某一特定用途的语料。除此之外,按照语料的语种,语料库也可以分成单语的语料库、双语的语料库和多语的语料库。按照语料的采集单位,语料库又可以分为语篇的语料库、语句的语料库、短语的语料库。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库。
S200:根据待纠错标题,向标题检索库发送检索请求,以从标题检索库中获取待纠错标题的相似标题。标题检索库在接收到检索请求时进行数据更新。由于标题检索库在接收到待纠错标题的检索请求时,会进行数据更新,因此保证了标题检索库中的数据资源始终为最新数据资源,从而能够更加准确的从标题检索库中找到待纠错标题的相似标题。相似标题与待纠错标题可以在句式结构、文本内容以及语义等多个方面作为相似评价的标准。
在一个示例中,标题检索库中可以收集有当前已有的任何领域的标题。例如、新闻报道标题、文章标题、书籍标题等。与标题检索库中存储的标题相对应的文章内容可以一并存储在标题检索库中,也可以从云端进行获取。
在另一个示例中,判断待纠错标题与标题检索库中存储的标题是否相似,可以通过向量空间模型进行相似度计算。大致过程为:统计标题的基本语言单位(字,词组,短语等),并赋予一定的权重。每个标题形成一个向量来表示该标题,然后标题间的相似性通过向量的距离表示。
S300:根据相似标题,获取每个词语片段的第二召回词。获取的每个词语片段的第二召回词可以为一个或多个。每个词语片段对应的第二召回词的数量可以不同。例如,有的词语片段有多个第二召回词作为候选,而有的词语片段可能只包括一个第二召回词作为候选。第二召回词中可以包括词语片段自身,也可以包括该词语片段的第一召回词。由于第二召回词是基于相似标题获取的,与第一召回词的获取逻辑和维度有所不同,因此第二召回词可以用于丰富和补充第一召回词。从而能够挖掘出每个词语片段的更多平行语料。
S400:对每个词语片段的第一召回词和第二召回词分别进行特征计算。第一召回词和第二召回词中用于进行特征计算的具体特征可以根据需求进行选择。具体特征可以理解为与第一召回词和第二召回词相关联的特征。
在一个示例中,第一召回词和第二召回词进行特征计算时所利用的具体特征相同。
S500:根据特征计算结果,确定每个词语片段的候选召回词。候选召回词从第一召回词或第二召回词中进行确定。当词语片段只对应一个第一召回词和第二召回词时,则从两个召回词中选择一个作为候选召回词。当词语片段对应多个第一召回词和多个第二召回词时,则从各召回词中选择最优的一个作为候选召回词。
S600:基于每个词语片段的候选召回词对待纠错标题进行纠错。通过每个词语片段对应的候选召回词可以确定待纠错标题中的该词语片段是否需要进行替换,以及需要替换成的字词。例如,如果待纠错标题中词语片段和对应的候选召回词相同,则认为该词语片段正确。如果待纠错标题中的某个词语片段和对应的候选召回词不相同,则认为该词语片段错误,将对应的候选召回词替换到待纠错标题中,从而完成纠错。
在一种实施方式中,如图2所示,标题纠错方法还包括构建标题检索库的过程,包括:
S700:基于倒排索引方式,根据已有文章资源,构建标题检索库,已有文章包括标题和文字内容。已有文章可以包括新闻报道、期刊、论文、帖子等任何具有标题的文章。已有文章可以通过服务器、云端、数据库、大数据等多种方式进行获取和更新。
在一个示例中,已有文章包括标题和文字内容中的文字内容是该标题对应的完整文字内容,也可以是体现完整文字内容的文字内容索引信息。例如,标题检索库可以是仅根据文章的标题数据进行简单的统计和建立索引。而与标题对应的文章内容可以作为文字内容索引信息的方式通过建立关联而从云端进行快速获取,从而降低构建标题检索库的难度,以及降低标题检索库的维护成本。
在一个示例中,标题检索库可基于倒排索引以及全文检索技术,根据已有文章的标题和文章内容进行构建。虽然标题检索库中存储有文章内容数据,但是维护成本和检索工作量还是远低于已有的庞大知识库的。
倒排索引也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”。
在一个示例中,标题检索库可以根据构建检索库之前一定时间范围内获取到的文章资源进行构建。
S800:获取标题检索库接收到检索请求时的已有文章资源。由于接收检索请求的时间是滞后于构建检索库的时间的,因此可以将在构建检索库和接收检索请求之间的时间段内可能会产生的新的已有文章资源。并且,标题检索库再次接收到新的检索请求时,新的检索请求和上一检索请求之间也存在一定的时间差,因此该时间差内也可能会产生新的已有文章资源。而更新的已有文章资源有可能会存在与待纠错标题关联的相似标题。
S900:根据标题检索库接收到检索请求时的已有文章资源,更新标题检索库。通过更新标题检索库可以将距离上一次更新之后的时间段内产生的新的已有文章资源加入到标题检索库中。从而使得标题检索库中的资源始终能够保持最新。提高了标题检索库的时效性,并且能够根据检索请求更加准确的从标题检索库中获取到与待纠错标题关联的相似标题。
在一种实施方式中,如图3所示,根据待纠错标题,从标题检索库中获取待纠错标题的相似标题,包括:
S210:根据待纠错标题包括的文本内容,从标题检索库中获取与待纠错标题相近似的至少一个相似标题。由于标题检索库中存储有已有标题的文本内容,因此通过待纠错标题的文本内容即可快速的查找到对应的相似标题。而无需经过对句子组成成分、词法和词性等进行复杂分析比对,而获取相似标题。
在一个示例中,如果待纠错标题为新闻标题“邓论因档期问题退出XX节目”。从标题检索库中检索到的相似新闻标题可以包括“邓伦因档期问题提早退出XX节目”、“XX节目组的后期真是厉害,这次是把邓伦坑了”、“邓伦为什么退出XX节目”、“在XX节目第三期,邓伦带的谁”等。
在一种实施方式中,如图4所示,根据相似标题,获取每个词语片段的第二召回词,包括:
S310:根据待纠错标题,获取对齐信息。
S320:根据对齐信息,从相似标题中获取每个词语片段的第二召回词。
在一个示例中,对齐信息可以包括待纠错标题的文本内容中各词语片段的位置信息和语义信息。利用对齐信息可以从其他标题的文本内容中获取到近似的词语片段。例如,当待纠错标题为“邓论因档期问题退出XX节目”时,相似标题为“邓伦因档期问题提早退出XX节目”时,根据对齐信息,可以将相似标题中的“邓伦”与待纠错标题中的“邓论”形成词语替换对,从而使得相似标题中的“邓伦”成为第二召回词。由于待纠错标题中的“邓论”并非是错别字,因此第一召回词中并不一定会获取到“邓伦”,而通过获取第二召回词有效弥补和扩大了召回词的范围,挖掘出更多的召回词。
在一种实施方式中,如图5所示,对每个词语片段的第一召回词和第二召回词分别进行特征计算,包括:
S410:对每个词语片段的第一召回词的行为特征、语义特征、语言模型特征、词向量特征以及属性特征进行特征计算;
S420:对每个词语片段的第二召回词的行为特征、语义特征、语言模型特征、词向量特征以及属性特征进行特征计算。
在一个示例中,行为特征可以包括以往用户检索和点击每个词语片段和对应的第一召回词、第二召回词的频次。行为特征还可以包括以往用户将第一召回词和词语片段以及第二召回词和词语片段进行替换的概率。
在一个示例中,语义特征为字面本身相关的特征。语义特征可以包括词语片段与对应的第一召回词和第二召回词的拼音级别的编辑距离特征。语义特征可以包括词语片段与对应的第一召回词和第二召回词的长度差特征。语义特征还可以包括词语片段与对应的第一召回词和第二召回词的分词特征等。
在一个示例中,语言模型特征可以包括词语片段的语言模型特征和第一召回词语言模型特征之间的差,词语片段的语言模型特征和第二召回词语言模型特征之间的差。
例如,对第二召回词进行特征计算:根据与相似标题对应的文章内容,利用第二召回词语言模型获取每个词语片段的第二召回词的词频信息。词频信息可以包括该字词在文章中出现的次数。基于第二召回词的词频信息,对第二召回词进行特征计算。以及,对词语片段进行特征计算:根据词语片段对应的文章内容,利用词语片段词语言模型获取每个词语片段的词频信息。词频信息可以包括该字词在文章中出现的次数。基于词语片段的词频信息,对词语片段进行特征计算。由于引入了词频信息,因此使得计算出的第二召回词和词语片段的特征向量包含有更加丰富的信息。
在一个示例中,词向量特征可以包括词语片段和第一召回词,词语片段和第二召回词之间的相似特征。词向量特征可以包括词语片段与上下文的相似特征,第一召回词与上下文的相似特征,第二召回词与上下文的相似特征。
在一个示例中,属性特征可以包括词语片段、第一召回词、第二召回词的来源,例如是否来自百度词条。属性特征可以包括词语片段、第一召回词、第二召回词是否为专有名词。属性特征可以包括词语片段、第一召回词、第二召回词是否各自都是同义词等。
在一种实施方式中,如图6所示,根据特征计算结果,确定每个词语片段的候选召回词,包括:
S510:根据第一召回词和第二召回词的特征计算结果,利用树模型和标准排序GBRank(Great Britain Rank)算法对第一召回词和第二召回词进行打分排序。
S520:根据打分排序结果,从第一召回词和第二召回词中选择出候选召回词。
在一个实施方式中,利用树模型对第一召回词和第二召回词进行打分排序,包括:
筛选出分数高于预设阈值的第一召回词和第二召回词。
对分数高于预设阈值的第一召回词和第二召回词按分数高低进行排序。
在一个实施方式中,基于每个词语片段的候选召回词对待纠错标题进行纠错,包括:
在待纠错标题中的词语片段与其对应的候选召回词不一致的情况下,将词语片段替换为候选召回词。
在一种实施方式中,基于语料库,获取待纠错标题中的每个词语片段的第一召回词,包括:
对待纠错标题进行分词,获取待纠错标题的各词语片段。
基于语料库和待纠错标题的各词语片段,获取每个词语片段的多个第一召回词。
需要说明的是,对待纠错标题进行分词的方式可采用多种分词算法。例如,采用基于统计的机器学习算法。目前常用的算法是HMM(Hidden Markov Model,隐马尔可夫模型)、CRF(conditional random field algorithm,条件随机场算法)、SVM(Support VectorMachine,支持向量机)以及深度学习等算法。以CRF为例,基本思路是对汉字进行标注训练,不仅考虑了词语出现的频率,还考虑上下文,具备较好的学习能力。
获取第一召回词的方式可以通过短语替换表获取,也可以通过对拼音编辑距离来进行召回。其中,第一种是通过挖掘平行语料中的对齐片段,并根据挖掘出来的对齐片段来进行候选召回。第二种是对片段进行注音后来召回音近或者同音的候选,例如上面例子中“档期”的注音为“dangqi”,有可能召回“当期”、“荡起”等。
在一个示例中,如图7所示,当需要对新闻标题进行纠错时,具体纠错过程如下:
收集大量的新闻媒体标题(即图7中的“文本”),把该部分文本数据按照传统纠错流程中的方法进行全局统计和语言模型的计算(即图7中”文本”的右侧箭头),该部分特征为全局统计的特征,与原有的纠错流程保持一致。全局统计的特征包括第一召回词。
对收集到的新闻媒体标题建立检索库,用于支持检索。
对输入的待纠错标题在检索库中进行检索,获取与待纠错标题相近的大量相似新闻标题。通过对获取的相关局部知识进行计算(挖掘平行语料补充召回候选,统计局部词频和语言模型等特征),形成精准局部知识。精准局部知识包括第二召回词。
结合传统纠错流程的全局统计特征和基于检索生成的精准局部知识来对纠错候选进行纠错排序,从而生成最终的候选召回词。
本发明各实施例从预设标题检索库获取的相似标题获取第二召回词,可以有效弥补通过语料库获取的第一召回词可能存在的召回不足的问题。通过第一召回词和第二召回词可以实现从不同维度全面的对待纠错标题进行纠错。
基于检索和上下文记忆(context memory)的方式,可以通过检索来获取与待纠错标题相近的标题数据用于生成动态对齐语料,挖掘相对应的候选,解决可能存在的召回不足的问题。基于检索和上下文记忆的方式,只需要对文章的标题数据进行简单的统计和建立索引,不需要维护庞大的知识库,工作量下降。基于检索来获取待纠错标题的精准局部知识,不需要对待纠错标题进行复杂的操作(主成分分析和词法分析等),只需要对整个标题进行检索即可,效果明显提高。
图8示出根据本发明实施例的标题纠错装置的结构框图。如图7所示,该标题纠错装置包括:
第一获取模块10,用于基于语料库,获取待纠错标题中的每个词语片段的第一召回词。
第二获取模块20,用于根据待纠错标题,向标题检索库发送检索请求,以从标题检索库中获取待纠错标题的相似标题,标题检索库在接收到检索请求时进行数据更新。
第三获取模块30,用于根据相似标题,获取每个词语片段的第二召回词。
计算模块40,用于对每个词语片段的第一召回词和第二召回词分别进行特征计算。
确定模块50,用于根据特征计算结果,确定每个词语片段的候选召回词。
纠错模块60,用于基于每个词语片段的候选召回词对待纠错标题进行纠错。
在一种实施方式中,如图9所示,标题纠错装置还包括:
构建模块70,用于基于倒排索引方式,根据已有文章资源,构建标题检索库,已有文章包括标题和文字内容。
第四获取模块80,用于获取标题检索库接收到检索请求时的已有文章资源。
更新模块90,用于根据标题检索库接收到检索请求时的已有文章资源,更新标题检索库。
在一种实施方式中,如图10所示,第二获取模块20包括:
相似标题获取子模块21,用于根据待纠错标题包括的文本内容,从标题检索库中获取与待纠错标题相近似的至少一个相似标题。
在一种实施方式中,如图11所示,第三获取模块30包括:
对齐信息获取子模块31,用于根据待纠错标题,获取对齐信息。
第二召回词获取子模块32,用于根据对齐信息,从相似标题中获取每个词语片段的第二召回词。
在一种实施方式中,如图12所示,计算模块40包括:
第一计算子模块41,用于对每个词语片段的第一召回词的行为特征、语义特征、语言模型特征、词向量特征以及属性特征进行特征计算。
第二计算子模块42,用于对每个词语片段的第二召回词的行为特征、语义特征、语言模型特征、词向量特征以及属性特征进行特征计算。
在一种实施方式中,如图13所示,确定模块50包括:
排序子模块51,用于根据第一召回词和第二召回词的特征计算结果,利用树模型和标准排序GBRank算法对第一召回词和第二召回词进行打分排序。
选择子模块52,用于根据打分排序结果,从第一召回词和第二召回词中选择出候选召回词。
在一种实施方式中,如图14所示,纠错模块60包括:
纠错子模块61,用于在待纠错标题中的词语片段与其对应的候选召回词不一致的情况下,将词语片段替换为候选召回词。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图15示出根据本发明实施例的标题纠错终端的结构框图。如图15所示,该终端包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的标题纠错方法。所述存储器910和处理器920的数量可以为一个或多个。
该终端还包括:
通信接口930,用于与外界设备进行通信,进行数据标题纠错传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA,Extended IndustryStandard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图15中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和\/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
设计图
相关信息详情
申请码:申请号:CN201910617118.1
申请日:2019-07-10
公开号:CN110134970A
公开日:2019-08-16
国家:CN
国家/省市:11(北京)
授权编号:CN110134970B
授权时间:20191022
主分类号:G06F 17/27
专利分类号:G06F17/27;G06F16/31;G06F16/33
范畴分类:40B;
申请人:北京百度网讯科技有限公司
第一申请人:北京百度网讯科技有限公司
申请人地址:100085 北京市海淀区上地十街10号百度大厦2层
发明人:邓卓彬;罗希意;赖佳伟;付志宏;何径舟
第一发明人:邓卓彬
当前权利人:北京百度网讯科技有限公司
代理人:王一;武晨燕
代理机构:11313
代理机构编号:北京市铸成律师事务所
优先权:关键词:当前状态:审核中
类型名称:外观设计