全文摘要
本发明公开了一种表格处理方法及装置、存储介质、电子装置。其中,该方法包括:确定第一表格中的第一字段与目标表格中的目标字段之间的第一映射关系,以及第二表格中的第二字段与目标表格中的目标字段之间的第二映射关系,其中,第一字段、第二字段以及目标字段的属性相同;利用第一映射关系和第二映射关系确定第一字段与第二字段之间的优先级关系,并基于优先级关系确定出目标字段的属性信息;按照目标字段的属性信息、优先级关系将第一表格或第二表格融合至目标表格中。本发明解决了相关技术中存在的对表格进行融合的技术问题。
主设计要求
1.一种表格处理方法,其特征在于,包括:确定第一表格中的第一字段与目标表格中的目标字段之间的第一映射关系,以及第二表格中的第二字段与所述目标表格中的所述目标字段之间的第二映射关系,其中,所述第一字段、所述第二字段以及所述目标字段的属性相同;利用所述第一映射关系和所述第二映射关系确定所述第一字段与所述第二字段之间的优先级关系,并基于所述优先级关系确定出所述目标字段的属性信息;按照所述目标字段的属性信息、所述优先级关系将所述第一表格或所述第二表格融合至所述目标表格中。
设计方案
1.一种表格处理方法,其特征在于,包括:
确定第一表格中的第一字段与目标表格中的目标字段之间的第一映射关系,以及第二表格中的第二字段与所述目标表格中的所述目标字段之间的第二映射关系,其中,所述第一字段、所述第二字段以及所述目标字段的属性相同;
利用所述第一映射关系和所述第二映射关系确定所述第一字段与所述第二字段之间的优先级关系,并基于所述优先级关系确定出所述目标字段的属性信息;
按照所述目标字段的属性信息、所述优先级关系将所述第一表格或所述第二表格融合至所述目标表格中。
2.根据权利要求1所述的方法,其特征在于,利用所述第一映射关系和所述第二映射关系确定所述第一字段与所述第二字段之间的优先级关系,并基于所述优先级关系确定出所述目标字段的属性信息,包括以下至少之一:
在所述第一映射关系中的第一映射值大于所述第二映射关系中的第二映射值的情况下,确定所述第一字段的优先级高于所述第二字段的优先级,将所述第一字段的属性信息确定为所述目标字段的属性信息,其中,所述第一映射值用于标识所述第一字段,所述第二映射值用于标识所述第二字段;
在所述第一映射关系中的第一映射值小于所述第二映射关系中的第二映射值的情况下,确定所述第二字段的优先级高于所述第一字段的优先级,将所述第二字段的属性信息确定为所述目标字段的属性信息。
3.根据权利要求1所述的方法,其特征在于,按照所述目标字段的属性信息、所述优先级关系将所述第一表格或所述第二表格融合至所述目标表格中,包括:
在所述第一字段的优先级高于所述第二字段的优先级的情况下,将所述第一表格中与所述第一字段对应的内容融合至所述目标表格中与所述目标字段对应的内容中;
在所述第二字段的优先级高于所述第二字段的优先级的情况下,将所述第二表格中与所述第二字段对应的表格内容融合至所述目标表格中与所述目标字段对应的内容中。
4.根据权利要求1所述的方法,其特征在于,确定第一表格中的第一字段与目标表格中的目标字段之间的第一映射关系,以及第二表格中的第二字段与所述目标表格中的目标字段之间的第二映射关系包括:
确定所述第一字段的第一标识ID,建立所述第一ID与所述目标字段的目标ID之间的第一映射关系,其中,所述第一映射关系中包括与所述第一ID对应的第一映射值;
确定所述第二字段的第二标识ID,建立所述第二ID与所述目标字段的目标ID之间的第二映射关系,其中,所述第二映射关系中包括与所述第二ID对应的第二映射值。
5.根据权利要求1所述的方法,其特征在于,在确定所述第一表格中的第一字段与所述目标表格中的目标字段之间的第一映射关系,以及所述第二表格中的第二字段与所述目标表格中的目标字段之间的第二映射关系之前,所述方法还包括:
建立所述目标表格;
设置所述目标表格中的所述目标字段;
确定所述第一表格与所述目标表格之间的第三映射关系,以及所述第二表格与所述目标表格之间的第四映射关系;
利用所述第三映射关系与所述第四映射关系确定所述第一表格和所述第二表格的优先级,以确定出融合至所述目标表格的表格。
6.根据权利要求5所述的方法,其特征在于,利用所述第三映射关系与所述第四映射关系确定所述第一表格和所述第二表格的优先级,以确定出融合至所述目标表格的表格包括以下之一:
在所述第三映射关系中的第三映射值大于所述第四映射关系中的第四映射值的情况下,确定所述第一表格的优先级高于所述第二表格的优先级,将所述第一表格确定为融合至所述目标表格的表格;
在所述第三映射关系中的第三映射值小于所述第四映射关系中的第四映射值的情况下,确定所述第二表格的优先级高于所述第一表格的优先级,将所述第一表格确定为融合至所述目标表格的表格。
7.根据权利要求6所述的方法,其特征在于,按照所述目标字段的属性信息以及所述第一字段的优先级和所述第二字段的优先级将所述第一表格或所述第二表格融合至所述目标表格中,包括以下之一:
在所述第一字段与所述第二字段的优先级相同,且所述第一表格的优先级高于所述第二表格的优先级的情况下,将所述第一表格中与所述第一字段对应的表格内容融合至所述目标表格中与所述目标字段对应的表格中;
在所述第一字段与所述第二字段的优先级相同,且所述第二表格的优先级高于所述第一表格的优先级的情况下,将所述第二表格中与所述第二字段对应的表格内容融合至所述目标表格中与所述目标字段对应的表格中。
8.一种表格处理装置,其特征在于,包括:
第一确定模块,用于确定第一表格中的第一字段与目标表格中的目标字段之间的第一映射关系,以及第二表格中的第二字段与所述目标表格中的所述目标字段之间的第二映射关系,其中,所述第一字段、所述第二字段以及所述目标字段的属性相同;
第二确定模块,用于利用所述第一映射关系和所述第二映射关系确定所述第一字段与所述第二字段之间的优先级关系,并基于所述优先级关系确定出所述目标字段的属性信息;
融合模块,用于按照所述目标字段的属性信息、所述优先级关系将所述第一表格或所述第二表格融合至所述目标表格中。
9.一种存储介质,所述存储介质中存储有计算机程序,其特征在于,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。
设计说明书
技术领域
本发明涉及计算机领域,具体而言,涉及一种表格处理方法及装置、存储介质、电子装置。
背景技术
知识图谱又称为科学知识图谱,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的实体,每条边为实体与实体之间的关系或事件。知识图谱是关系或事件的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。知识图谱提供了从关系和事件的角度去分析问题的能力。然而知识图谱的实体往往面临数据融合的问题,因为知识图谱的数据源可能有多个,在不同数据源有对同一实体的不同表达,即使在同一个数据源里也可能存在这种情况,需要通过一定手段将其合并。
目前,在构建知识图谱的数据融合过程中有基于表优先级的数据融合方法,即给要融合的表划分优先级,优先级高的覆盖优先级低的,若有独有的信息则不分优先级,这些信息都会进行融合。这种方式可以处理数据的融合,但是对粒度的控制较差,很难满足复杂的业务场景。另外一种为基于字段级的数融合方法,对需融合的表进行每一个字段的优先级配置,选取优先级高的字段,这种方式可以做到对粒度的精细控制,可以满足复杂的业务场景但这种方法在配置成本较高,对于所有的字段都需进行人工配置,在数据量巨大的情况下将变得很不现实。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种表格处理方法及装置、存储介质、电子装置,以至少解决相关技术中存在的对表格进行融合的技术问题。
根据本发明实施例的一个方面,提供了一种表格处理方法,包括:确定第一表格中的第一字段与目标表格中的目标字段之间的第一映射关系,以及第二表格中的第二字段与所述目标表格中的所述目标字段之间的第二映射关系,其中,所述第一字段、所述第二字段以及所述目标字段的属性相同;利用所述第一映射关系和所述第二映射关系确定所述第一字段与所述第二字段之间的优先级关系,并基于所述优先级关系确定出所述目标字段的属性信息;按照所述目标字段的属性信息、所述优先级关系将所述第一表格或所述第二表格融合至所述目标表格中。
可选地,利用所述第一映射关系和所述第二映射关系确定所述第一字段与所述第二字段之间的优先级关系,并基于所述优先级关系确定出所述目标字段的属性信息,包括以下至少之一:在所述第一映射关系中的第一映射值大于所述第二映射关系中的第二映射值的情况下,确定所述第一字段的优先级高于所述第二字段的优先级,将所述第一字段的属性信息确定为所述目标字段的属性信息,其中,所述第一映射值用于标识所述第一字段,所述第二映射值用于标识所述第二字段;在所述第一映射关系中的第一映射值小于所述第二映射关系中的第二映射值的情况下,确定所述第二字段的优先级高于所述第一字段的优先级,将所述第二字段的属性信息确定为所述目标字段的属性信息。
可选地,按照所述目标字段的属性信息、所述优先级关系将所述第一表格或所述第二表格融合至所述目标表格中,包括:在所述第一字段的优先级高于所述第二字段的优先级的情况下,将所述第一表格中与所述第一字段对应的内容融合至所述目标表格中与所述目标字段对应的内容中;在所述第二字段的优先级高于所述第二字段的优先级的情况下,将所述第二表格中与所述第二字段对应的表格内容融合至所述目标表格中与所述目标字段对应的内容中。
可选地,确定第一表格中的第一字段与目标表格中的目标字段之间的第一映射关系,以及第二表格中的第二字段与所述目标表格中的目标字段之间的第二映射关系包括:确定所述第一字段的第一标识ID,建立所述第一ID与所述目标字段的目标ID之间的第一映射关系,其中,所述第一映射关系中包括与所述第一ID对应的第一映射值;确定所述第二字段的第二标识ID,建立所述第二ID与所述目标字段的目标ID之间的第二映射关系,其中,所述第二映射关系中包括与所述第二ID对应的第二映射值。
可选地,在确定所述第一表格中的第一字段与所述目标表格中的目标字段之间的第一映射关系,以及所述第二表格中的第二字段与所述目标表格中的目标字段之间的第二映射关系之前,所述方法还包括:建立所述目标表格;设置所述目标表格中的所述目标字段;确定所述第一表格与所述目标表格之间的第三映射关系,以及所述第二表格与所述目标表格之间的第四映射关系;利用所述第三映射关系与所述第四映射关系确定所述第一表格和所述第二表格的优先级,以确定出融合至所述目标表格的表格。
可选地,利用所述第三映射关系与所述第四映射关系确定所述第一表格和所述第二表格的优先级,以确定出融合至所述目标表格的表格包括以下之一:在所述第三映射关系中的第三映射值大于所述第四映射关系中的第四映射值的情况下,确定所述第一表格的优先级高于所述第二表格的优先级,将所述第一表格确定为融合至所述目标表格的表格;在所述第三映射关系中的第三映射值小于所述第四映射关系中的第四映射值的情况下,确定所述第二表格的优先级高于所述第一表格的优先级,将所述第一表格确定为融合至所述目标表格的表格。
可选地,按照所述目标字段的属性信息以及所述第一字段的优先级和所述第二字段的优先级将所述第一表格或所述第二表格融合至所述目标表格中,包括以下之一:在所述第一字段与所述第二字段的优先级相同,且所述第一表格的优先级高于所述第二表格的优先级的情况下,将所述第一表格中与所述第一字段对应的表格内容融合至所述目标表格中与所述目标字段对应的表格中;在所述第一字段与所述第二字段的优先级相同,且所述第二表格的优先级高于所述第一表格的优先级的情况下,将所述第二表格中与所述第二字段对应的表格内容融合至所述目标表格中与所述目标字段对应的表格中。
根据本发明实施例的另一方面,还提供了一种表格处理装置,包括:第一确定模块,用于确定第一表格中的第一字段与目标表格中的目标字段之间的第一映射关系,以及第二表格中的第二字段与所述目标表格中的所述目标字段之间的第二映射关系,其中,所述第一字段、所述第二字段以及所述目标字段的属性相同;第二确定模块,用于利用所述第一映射关系和所述第二映射关系确定所述第一字段与所述第二字段之间的优先级关系,并基于所述优先级关系确定出所述目标字段的属性信息;融合模块,用于按照所述目标字段的属性信息、所述优先级关系将所述第一表格或所述第二表格融合至所述目标表格中。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
在本发明实施例中,采用确定第一表格中的第一字段与目标表格中的目标字段之间的第一映射关系,以及第二表格中的第二字段与目标表格中的目标字段之间的第二映射关系,其中,第一字段、第二字段以及目标字段的属性相同;利用第一映射关系和第二映射关系确定第一字段与第二字段之间的优先级关系,并基于优先级关系确定出目标字段的属性信息;按照目标字段的属性信息、优先级关系将第一表格或第二表格融合至目标表格中。可以达到通过字段的优先级对表格进行融合的目的。进而解决了相关技术中存在的对表格进行融合的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种表格处理方法的移动终端的硬件结构框图;
图2是根据本发明实施例的表格处理方法的流程图;
图3是根据本发明实施例的目标表格与源表格的示意图;
图4是根据本发明实施例的对字段调整的流程图;
图5是根据本发明实施例的建立表的映射及优先级的流程;
图6是根据本发明实施例的建立字段的映射及优先级的流程图;
图7是根据本发明实施例的数据融合的方法流程图;
图8是根据本发明实施例的表格处理装置的示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种表格处理方法的移动终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的表格处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种表格处理方法,图2是根据本发明实施例的表格处理方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,确定第一表格中的第一字段与目标表格中的目标字段之间的第一映射关系,以及第二表格中的第二字段与目标表格中的目标字段之间的第二映射关系,其中,第一字段、第二字段以及目标字段的属性相同;
步骤S204,利用第一映射关系和第二映射关系确定第一字段与第二字段之间的优先级关系,并基于优先级关系确定出目标字段的属性信息;
步骤S206,按照目标字段的属性信息、优先级关系将第一表格或第二表格融合至目标表格中。
通过本发明,采用确定第一表格中的第一字段与目标表格中的目标字段之间的第一映射关系,以及第二表格中的第二字段与目标表格中的目标字段之间的第二映射关系,其中,第一字段、第二字段以及目标字段的属性相同;利用第一映射关系和第二映射关系确定第一字段与第二字段之间的优先级关系,并基于优先级关系确定出目标字段的属性信息;按照目标字段的属性信息、优先级关系将第一表格或第二表格融合至目标表格中。可以达到通过字段的优先级对表格进行融合的目的。进而解决了相关技术中存在的对表格进行融合的技术问题。
可选地,上述步骤的执行主体可以为终端等,但不限于此。
可选地,上述中可以应用于对表格进行融合的场景中,在该场景中,目标表格可以是预先建立的表格,其中并不包括表格内容。第一表格和第二表格可以是需要融合至目标表格中的源数据表格。
可选地,本实施例中的字段的属性可以是用于标识表格内容的属性信息,例如,学生表中的“年龄”字段、“专业”字段等等。第一字段和第二字段的属性可以是字段所表示的意思相同。例如,第一字段是“手机号码”,第二字段是“电话号”,即第一字段和第二字段所表示的意思都是手机号码,可以将“手机号码”的优先级设置为高于“电话号”。则在融合至目标表格中时,可以以“手机号码进行融合”。
可选地,目标表格中的字段可以是用户自定义设置的。例如,设置“手机号码”的字段。
可选地,对表格的融合包括但不限于字段的融合、表格内容的融合。
在一个可选的实施例中,利用第一映射关系和第二映射关系确定第一字段与第二字段之间的优先级关系,并基于优先级关系确定出目标字段的属性信息,包括以下至少之一:
S1,在第一映射关系中的第一映射值大于第二映射关系中的第二映射值的情况下,确定第一字段的优先级高于第二字段的优先级,将第一字段的属性信息确定为目标字段的属性信息,其中,第一映射值用于标识第一字段,第二映射值用于标识第二字段;
S2,在第一映射关系中的第一映射值小于第二映射关系中的第二映射值的情况下,确定第二字段的优先级高于第一字段的优先级,将第二字段的属性信息确定为目标字段的属性信息。
可选地,在本实施例中,字段的优先级可以用映射值表示,映射值可以是利用字段的标识ID确定的。例如,第一字段是“手机号码”,ID是2。第二字段是“电话号”,ID是1。则第一字段的映射值大于第二字段的映射值。将“手机号码”的优先级设置为高于“电话号”。
在一个可选的实施例中,按照目标字段的属性信息、优先级关系将第一表格或第二表格融合至目标表格中,包括:
S1,在第一字段的优先级高于第二字段的优先级的情况下,将第一表格中与第一字段对应的内容融合至目标表格中与目标字段对应的内容中;
S2,在第二字段的优先级高于第二字段的优先级的情况下,将第二表格中与第二字段对应的表格内容融合至目标表格中与目标字段对应的内容中。
可选地,在本实施例中,可以将字段和字段对应的内容均融合至目标表格中。
在一个可选的实施例中,确定第一表格中的第一字段与目标表格中的目标字段之间的第一映射关系,以及第二表格中的第二字段与目标表格中的目标字段之间的第二映射关系包括:
S1,确定第一字段的第一标识ID,建立第一ID与目标字段的目标ID之间的第一映射关系,其中,第一映射关系中包括与第一ID对应的第一映射值;
S2,确定第二字段的第二标识ID,建立第二ID与目标字段的目标ID之间的第二映射关系,其中,第二映射关系中包括与第二ID对应的第二映射值。
可选地,例如,第一字段的ID是2。第二字段的ID是1。则第一字段的第一映射值可以是2,第二字段的第二映射值可以是1。
在一个可选的实施例中,在确定第一表格中的第一字段与目标表格中的目标字段之间的第一映射关系,以及第二表格中的第二字段与目标表格中的目标字段之间的第二映射关系之前,方法还包括:
S1,建立目标表格;
S2,设置目标表格中的目标字段;
S3,确定第一表格与目标表格之间的第三映射关系,以及第二表格与目标表格之间的第四映射关系;
S4,利用第三映射关系与第四映射关系确定第一表格和第二表格的优先级,以确定出融合至目标表格的表格。
可选地,在本实施例中,建立映射关系的目的是将第一表格和第二表格与目标表格进行关联。
在一个可选的实施例中,利用第三映射关系与第四映射关系确定第一表格和第二表格的优先级,以确定出融合至目标表格的表格包括以下之一:
S1,在第三映射关系中的第三映射值大于第四映射关系中的第四映射值的情况下,确定第一表格的优先级高于第二表格的优先级,将第一表格确定为融合至目标表格的表格;
S2,在第三映射关系中的第三映射值小于第四映射关系中的第四映射值的情况下,确定第二表格的优先级高于第一表格的优先级,将第一表格确定为融合至目标表格的表格。
可选地,在本实施例中,将表格的优先级和字段的优先级结合对表格进行融合,在这基础上进行字段优先级细微的调控,把某些表优先级比较低里的字段优先级很高的数据,将其优先级置为全局比较高的位置,这样融合过程中配置的成本只需要对那些特殊的字段进行一些细微的优先级调控即可。这样整个人工的配置成本变低了,同时满足了复杂的业务场景。
在一个可选的实施例中,按照目标字段的属性信息以及第一字段的优先级和第二字段的优先级将第一表格或第二表格融合至目标表格中,包括以下之一:
S1,在第一字段与第二字段的优先级相同,且第一表格的优先级高于第二表格的优先级的情况下,将第一表格中与第一字段对应的表格内容融合至目标表格中与目标字段对应的表格中;
S2,在第一字段与第二字段的优先级相同,且第二表格的优先级高于第一表格的优先级的情况下,将第二表格中与第二字段对应的表格内容融合至目标表格中与目标字段对应的表格中。
可选地,在表格融合的过程中,优先考虑字段的优先级,再考虑表格的优先级,提高了融合的准确。
下面结合具体实施例对本发明进行详细说明:
本实施例基于表优先级和字段优先级的数据融合方式,提出一种图谱构建中基于混合优先级的控制方法。包括如下步骤:
S1,用M表示一张实体表,用L,N表示源表,如图3所示。
S2,对所有目标表M,将其与源表L和源表N建立映射,并选择源表的优先级。
S3,对目标表的字段建立映射,并对特定字段调整优先级,如图4所示。
S4,在融合过程中,设定了两个级别的优先级策略,一个是表优先级,另一个是更细粒度的字段优先级,而单值融合就是说,当在融合的时候,如果遇到key相同的情况下,优先级高的表覆盖优先级低的表、优先级高的字段覆盖优先级低的字段,字段若设为多值则都将其保留,其中字段优先级高于表优先级。
本实施具体的建立表的映射及优先级的流程,如图5所示,包括以下步骤:
S501:建立目标表名;
S502:与源表建立映射;
S503:调整建立源表映射的优先级。
如图6所示,是本实施例中建立字段的映射及优先级的示意图,如图6所示,包括以下步骤:
S601:目标表与源表字段建立映射;
S602:调整映射字段的优先级。
如图7所示,是本实施例中数据融合的方法流程图,如图7所示,包括以下步骤:
S701:创建映射的字段的目标表;
S702:开始执行数据融合策略;
S703:非null覆盖null;
S704:字段映射优先级MAX覆盖其他,同为MAX的随机;
S705:字段映射优先级MIN的会被其他非null覆盖;
S706:未指定字段映优先级的按表映射优先级覆盖;
S707:相同表映射数据版本高的覆盖数据版本低的;
S708:数据融合,结束。
综上所述,本实施例在不断的数据治理任务的图谱构建过程中,在满足复杂业务场景的情况的同时,极大地降低人工的成本,从而使数据治理的效率得到极大的提升。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述表格处理方法的表格处理装置。如图8所示,该装置包括:第一确定模块82、第二确定模块84以及融合模块86,下面对该装置进行详细说明:
第一确定模块82,用于确定第一表格中的第一字段与目标表格中的目标字段之间的第一映射关系,以及第二表格中的第二字段与目标表格中的目标字段之间的第二映射关系,其中,第一字段、第二字段以及目标字段的属性相同;
第二确定模块84,用于利用第一映射关系和第二映射关系确定第一字段与第二字段之间的优先级关系,并基于优先级关系确定出目标字段的属性信息;
融合模块86,用于按照目标字段的属性信息、优先级关系将第一表格或第二表格融合至目标表格中。
通过本发明,采用确定第一表格中的第一字段与目标表格中的目标字段之间的第一映射关系,以及第二表格中的第二字段与目标表格中的目标字段之间的第二映射关系,其中,第一字段、第二字段以及目标字段的属性相同;利用第一映射关系和第二映射关系确定第一字段与第二字段之间的优先级关系,并基于优先级关系确定出目标字段的属性信息;按照目标字段的属性信息、优先级关系将第一表格或第二表格融合至目标表格中。可以达到通过字段的优先级对表格进行融合的目的。进而解决了相关技术中存在的对表格进行融合的技术问题。
可选地,上述中可以应用于对表格进行融合的场景中,在该场景中,目标表格可以是预先建立的表格,其中并不包括表格内容。第一表格和第二表格可以是需要融合至目标表格中的源数据表格。
可选地,本实施例中的字段的属性可以是用于标识表格内容的属性信息,例如,学生表中的“年龄”字段、“专业”字段等等。第一字段和第二字段的属性可以是字段所表示的意思相同。例如,第一字段是“手机号码”,第二字段是“电话号”,即第一字段和第二字段所表示的意思都是手机号码,可以将“手机号码”的优先级设置为高于“电话号”。则在融合至目标表格中时,可以以“手机号码进行融合”。
可选地,目标表格中的字段可以是用户自定义设置的。例如,设置“手机号码”的字段。
可选地,对表格的融合包括但不限于字段的融合、表格内容的融合。
在一个可选的实施例中,上述第二确定模块84,包括以下至少之一:
第一确定单元,用于在第一映射关系中的第一映射值大于第二映射关系中的第二映射值的情况下,确定第一字段的优先级高于第二字段的优先级,将第一字段的属性信息确定为目标字段的属性信息,其中,第一映射值用于标识第一字段,第二映射值用于标识第二字段;
第二确定单元,用于在第一映射关系中的第一映射值小于第二映射关系中的第二映射值的情况下,确定第二字段的优先级高于第一字段的优先级,将第二字段的属性信息确定为目标字段的属性信息。
可选地,在本实施例中,字段的优先级可以用映射值表示,映射值可以是利用字段的标识ID确定的。例如,第一字段是“手机号码”,ID是2。第二字段是“电话号”,ID是1。则第一字段的映射值大于第二字段的映射值。将“手机号码”的优先级设置为高于“电话号”。
在一个可选的实施例中,上述融合模块86包括:
第一融合单元,用于在第一字段的优先级高于第二字段的优先级的情况下,将第一表格中与第一字段对应的内容融合至目标表格中与目标字段对应的内容中;
第二融合单元,用于在第二字段的优先级高于第二字段的优先级的情况下,将第二表格中与第二字段对应的表格内容融合至目标表格中与目标字段对应的内容中。
可选地,在本实施例中,可以将字段和字段对应的内容均融合至目标表格中。
在一个可选的实施例中,上述第一确定模块82包括:
第一建立单元,用于确定第一字段的第一标识ID,建立第一ID与目标字段的目标ID之间的第一映射关系,其中,第一映射关系中包括与第一ID对应的第一映射值;
第二建立单元,用于确定第二字段的第二标识ID,建立第二ID与目标字段的目标ID之间的第二映射关系,其中,第二映射关系中包括与第二ID对应的第二映射值。
可选地,例如,第一字段的ID是2。第二字段的ID是1。则第一字段的第一映射值可以是2,第二字段的第二映射值可以是1。
在一个可选的实施例中,上述装置还包括建立模块,用于在确定第一表格中的第一字段与目标表格中的目标字段之间的第一映射关系,以及第二表格中的第二字段与目标表格中的目标字段之间的第二映射关系之前,建立目标表格;
设置模块,用于设置目标表格中的目标字段;
第三确定模块,用于确定第一表格与目标表格之间的第三映射关系,以及第二表格与目标表格之间的第四映射关系;
第四确定模块,用于利用第三映射关系与第四映射关系确定第一表格和第二表格的优先级,以确定出融合至目标表格的表格。
可选地,在本实施例中,建立映射关系的目的是将第一表格和第二表格与目标表格进行关联。
在一个可选的实施例中,上述第四确定模块包括以下之一:
第三融合单元,用于在第三映射关系中的第三映射值大于第四映射关系中的第四映射值的情况下,确定第一表格的优先级高于第二表格的优先级,将第一表格确定为融合至目标表格的表格;
第四融合单元,用于在第三映射关系中的第三映射值小于第四映射关系中的第四映射值的情况下,确定第二表格的优先级高于第一表格的优先级,将第一表格确定为融合至目标表格的表格。
可选地,在本实施例中,将表格的优先级和字段的优先级结合对表格进行融合,在这基础上进行字段优先级细微的调控,把某些表优先级比较低里的字段优先级很高的数据,将其优先级置为全局比较高的位置,这样融合过程中配置的成本只需要对那些特殊的字段进行一些细微的优先级调控即可。这样整个人工的配置成本变低了,同时满足了复杂的业务场景。
在一个可选的实施例中,上述中的融合模块86包括以下之一:
第五融合单元,用于在第一字段与第二字段的优先级相同,且第一表格的优先级高于第二表格的优先级的情况下,将第一表格中与第一字段对应的表格内容融合至目标表格中与目标字段对应的表格中;
第六融合单元,用于在第一字段与第二字段的优先级相同,且第二表格的优先级高于第一表格的优先级的情况下,将第二表格中与第二字段对应的表格内容融合至目标表格中与目标字段对应的表格中。
可选地,在表格融合的过程中,优先考虑字段的优先级,再考虑表格的优先级,提高了融合的准确。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
设计图
相关信息详情
申请码:申请号:CN201910533725.X
申请日:2019-06-19
公开号:CN110263314A
公开日:2019-09-20
国家:CN
国家/省市:11(北京)
授权编号:授权时间:主分类号:G06F 17/24
专利分类号:G06F17/24
范畴分类:40B;
申请人:北京明略软件系统有限公司
第一申请人:北京明略软件系统有限公司
申请人地址:100086 北京市海淀区中关村东路1号院1号楼10层A1002
发明人:林海;张毅然
第一发明人:林海
当前权利人:北京明略软件系统有限公司
代理人:江舟
代理机构:11240
代理机构编号:北京康信知识产权代理有限责任公司
优先权:关键词:当前状态:审核中
类型名称:外观设计