廖浚斌:面向涉恐领域的知识图谱构建方法论文

廖浚斌:面向涉恐领域的知识图谱构建方法论文

摘 要:近年来,世界各地的恐怖袭击事件时有发生,为了减轻安防人员对涉恐信息分析工作的负担,需要提供工具辅助相关人员对海量信息进行整理,因此研究并实现了面向涉恐领域的知识图谱。首先,针对海量的互联网信息,采用了分布式爬虫技术进行数据的采集,并使用双向门控神经网络(BI-GRU)+注意力机制(Attention Mechanism,Att)等模型实现对信息的抽取;然后构建了涉恐领域本体库,并在此基础上完成了涉恐领域知识图谱的构建以及知识图谱的可视化展示。该研究成功地将知识图谱的构建技术应用到涉恐领域,对相关工作有一定的参考价值。

关键词:涉恐领域;知识图谱;本体库

0 引言

目前,世界处于网络时代,各领域的信息呈爆炸式增长。涉恐信息零散地分布在海量的数据中[1],包括涉恐分子信息、涉恐组织信息、涉恐事件信息以及反恐策略等信息。如果能够有效地获取、组织及利用这些信息,将对各个国家在反恐、防恐工作中起到重要的促进作用。为了帮助相关人员对多元化的涉恐信息进行更好的分析及表达,需要建立一个基于涉恐领域的知识图谱。涉恐领域知识图谱的建立可以将海量的涉恐信息整合成结构化的有意义的知识,极大程度地方便了安全人员对涉恐人员及组织的分析[2]。

1 涉恐领域知识图谱实现流程

涉恐领域知识图谱技术路线如图1所示。具体流程为:(1)数据获取,使用分布式爬虫技术采集互联网上已存在的非结构化数据和半结构化数据;(2)信息抽取,对于半结构化数据,需要根据其数据结构特征提取出人物、组织等实体和实体间的关系信息,对非结构化数据需要进行信息抽取,如采用实体识别[3-4]、关系抽取以及属性抽取等技术,最终使数据通过三元组的方式进行链接;(3)实体对齐,借助构建的涉恐领域本体库来辅助判断数据中任意两个实体是否指向真实世界同一对象,消除异构数据中的实体冲突、实体间指向不明等实体间的指向二义性问题[5];(4)通过构建的本体库对数据进行推理补充,进一步完善数据,最终形成涉恐领域的知识图谱。

1.1 数据采集

本知识图谱主要从互联网数据中获取与恐怖主义相关的人物与组织信息,这些信息主要以两种形式存在:半结构化的形式和非结构化的形式。第一类数据主要是各种社交媒体数据,如维基百科、FaceBook、Twitter等。第二类数据来源主要以政府网站、新闻媒体网站以及各研究机构的公开网站为主,该类型网站的数据往往以非结构化的文本形式存在。针对以上两类信息,考虑到其信息量的巨大,本文采用分布式爬虫进行数据的采集。分布式爬虫架构如图2所示。

图1 涉恐领域知识图谱实现流程

图2 分布式爬虫架构

分布式爬虫由三部分组成:(1)集中的统一资源定位符(Uniform Resource Locator,URL)调度管理和分配,即URL仓库;(2)爬虫节点;(3)数据存储。URL仓库负责对URL队列进行管理并将URL分配给各爬虫节点;爬虫节点由多个子节点构成,每个子节点负责获取和解析不同网站的数据,最终将爬取的数据存储到数据库中。

阳春二三月,杨柳齐作花。春风一夜入闺闼,杨花飘荡落南家。含情出户脚无力,拾得杨花泪沾臆。秋去春来双燕子,愿含杨花入巢里。

1.2 实体关系抽取

实体关系抽取是指从文本信息中提取出实体之间隐含关系的方法,是实现知识图谱的关键技术之一[6]。本文在构建涉恐领域知识图谱时应用BI-GRU+Att模型完成了文本信息中实体的关系抽取任务,模型结构如图3所示。

针对学生的难点问题,做成微视频,有针对性地去帮助学生,主要对数学学科中难以理解的概念、公式的推导以及考试的重难点知识,分割成简单的完整的知识点,用微课程的方式来展现,使学习者加深对重要知识点的掌握和研究,并将短时记忆的内容加工进入到长时记忆中,以便在遇到实际问题时可以随时将知识提取出来进行解决.

图3 BI-GRU+Attention模型

本文构建的人物本体库与组织本体库的类同属于超类“Thing”,统称为涉恐领域本体库的类,本体库的类结构如图4所示。

1.3 涉恐领域本体库构建

本节将主要对数据爬取、实体的关系抽取和本体库构建的实验进行说明。

2 涉恐领域知识图谱实现

本体是对特定领域中的概念及其相互关系的形式化表达,是同一领域不同主体进行交流、连通的基础[8-10],其相邻层节点之间具有严格的从属关系。在知识图谱中,本体库是用于管理知识图谱的模式层,用于描述概念层次体系,是知识图谱中知识的概念模板。通过本体库形成的知识图谱层次结构分明、冗余度小[11]。本文使用Protege本体库构建工具进行涉恐领域本体库的构建,Protege软件是语义网中本体构建的核心开发工具。

本文使用的涉恐领域的人物及组织信息主要从维基百科网站进行爬取,另外通过对反恐怖主义信息网、环球网等网站的爬取获取更多的信息。总计获取人物实例数据1 000条,组织实例数据200条。爬取的人物实例之一如表1所示,组织实例之一如表2所示。

2.1 数据爬取

(1)路面的抗滑性能受轮胎与路面的组成材料、级配类型等耦合作用的影响。当级配类型为AC—13时,光滑轮胎的抗滑能力最好;当级配类型为OGFC—13时,轮胎花纹较大的RSD2A的摩擦系数最大;SMA—13在四种轮胎花纹下的摩擦系数相当,说明SMA—13级配混合料对轮胎花纹不敏感。

表1 人物信息

字段属性值姓名本·拉登国家沙特阿拉伯王国性别男出生地沙特阿拉伯王国出生日期1957年3月10日

表2 组织信息

字段属性值名称伊斯兰国领导人奥马尔·巴格达迪所在国伊拉克成立时间2006年10月重大事件“伊斯兰国”在沙特东部制造自杀式炸弹袭击,共造成25人死亡

2.2 关系抽取

本文使用BI-GRU+Att模型对隐含在涉恐人物和组织数据中的关系进行抽取,结果如表3所示。

表3 本文应用模型评价

模型名称数据集准确率/%BI-GRU+Att本文70

从表3可以看出,本文针对涉恐信息的关系抽取方法由于网络结构简单,且使用字符级向量作为输入,所以得到了较高的准确率。因此可以证明本文针对涉恐信息的关系抽取任务使用的关系抽取模型有一定的效果,但还有一定的提升空间。表4为人物关系抽取的实例展示,表5为组织关系抽取的实例展示。

1) 上述M,L,动态仿真观察周期TV,腹地货物产生周期T0,α,β,H,λ,ω,Pi,pi,DGT,IDGT,1,IDGT,2,Ts等赋值,并给定初始值T=0,j=0。

表4 人物关系实例

文本关系扎瓦赫里是本·拉登最信任的朋友,是基地组织的首席战略家。好友

表5 组织关系实例

文本关系伊斯兰国很少听命于基地组织。上下级

从表4、表5可以得知,本文模型可以较好地从文本中抽取出实体间隐含的关系。

其中人物库的类包括人物类(People)和地点类(Location),而组织库的类包括组织类(organization)、事件类(Event)和地点类(Location)。

2.3 本体库的构建

其中,门控循环单元(GRU)网络是循环神经网络的一种变体[7],可以有效地克服循环神经网络无法很好处理远距离依赖的问题;而注意力机制可以增大关键词的注意力权重,使得神经网络更关注与关键词相关的上下文信息[8]。

图4 类层次结构图

我的小女儿曾经也是落榜生,但天生不知愁滋味的她,整天笑嘻嘻。送她去职业技术学院,待我转身离校她就变更了我选择的财会专业,自挑了商贸英语,受不了早晚背得唇干舌燥的单词折磨,又改学市场营销。我说,疯丫头,看你瞎折腾到几时! “我用适应自己的方式活着!”她俏皮地用一句流行歌词回答了我。是的,人们生存的方式多样,总有一种适合自己,“吾不为劲松,亦可为垂柳”,切莫朽木枯树一生! 真正意义上的“跛”应该是心灵上的蒙尘和行为上的偏失,最终影响人们生活质量的不单是文化知识的多寡,心中的贪欲和邪念,无才少德而又不去修炼,才是人生道路上真正的跛足瘸行!

2.4 涉恐领域知识图谱可视化

本文通过使用非关系型图数据库Neo4j将通过上述流程所得的信息转换为图数据库。图5为知识图谱部分节点的可视化展示。图中展示的是与国家民主联盟组织节点相关的节点。

图5 知识图谱可视化

3 结论

本文首先使用了分布式爬虫技术从互联网中爬取涉恐领域的人物与组织数据,然后利用BI-GRU+Att模型等技术实现对信息的抽取,并构建了涉恐领域的本体库,最终实现涉恐领域的知识图谱以及使知识图谱可视化。因为本文的研究重点集中于特定领域的知识图谱实现,而针对基于知识图谱的应用的研究尚处于初级阶段,所以在未来的工作中将进一步研究基于知识图谱的问答等应用领域,以便更好地满足涉恐领域的需求。

参考文献

[1] 倪叶舟,张鹏,扈翔,等.数据背景下涉恐信息挖掘方法综述[J].中国公共安全·学术版,2018(4):91-95.

[2] 李勇男.大数据驱动的反恐情报决策体系构建[J].情报杂志,2018,37(10):57-61.

[3] 刘玉娇,琚生根,李若晨,等.基于深度学习的中文微博命名实体识别[J].四川大学学报(工程科学版),2016(S2):142-146.

[4] 朱国进,沈盼宇.基于深度学习的算法知识实体识别与发现[J].智能计算机与应用,2017,7(1):17-21.

[5] HAN X P,SUN L,ZHAO J.Collective entity linking in Web text:a graph-based method[C].Proceedings of the 19th International Conference on Knowledge Discovery and Data Mining.New York:ACM,2013:1070-1078.

[6] 李枫林,柯佳.基于深度学习框架的实体关系抽取研究进展[J].情报科学,2018,36(3):169-176.

[7] CHO K,VAN MERRIENBOER B,GULCEHRE C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[C].Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing.ACL,2014:1724-1734.

[8] LIN Y K,SHEN S Q,LIU Z Y,et al.Neural relation extraction with selective attention over instances[C].Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics,Berlin,2016:2124-2133.

[9] GIRASE A V,PATNAIK G K,PATIL S S.Devloping knowledge driven ontology for decision making[C]. International Conference on Signal Processing.IEEE,2017:99-105.

[10] 车成逸,马宗民,焦晓龙.基于结构化信息源的本体构建方法综述[J].计算机应用研究,2012,29(7):2406-2410.

[11] 刘峤,李杨,杨段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600.

Construction method of knowledge graph for terrorism domain

Liao Junbin1,Zhou Xin1,2,He Xiaohai1,Wang Zhengyong1,Qing Linbo1

(1.College of Electronics and Information Engineering,Sichuan University,Chengdu 610065,China; 2.China Information Technology Security Evaluation Center,Beijing 100085,China)

Abstract:In recent years,terrorist attacks occur frequently around the world.In order to alleviate the burden of security personnel on the analysis of information related to terrorism,it is necessary to provide tools to assist the relevant personnel in collating the vast amount of information.Therefore,the knowledge graph for the field of terrorism is studied and implemented.Firstly,distributed crawler technology is used to collect massive Internet information,and bi-directional gated neural network (BI-GRU) +Attention Mechanism (Att) model is used to extract information.Then,the domain ontology base of terrorism is constructed,and on this basis,the domain knowledge graph of terrorism and the visual display of the knowledge map are completed.This paper successfully applied the construction technology of knowledge graph to the field of terrorism,and has certain reference value for related work.

Keywords: terrorist domain;knowledge graph;ontology base

中图分类号:TP391

文献标识码:A

DOI: 10.19358/j.issn.2096- 5133.2019.09.007

引用格式:廖浚斌,周欣,何小海,等.面向涉恐领域的知识图谱构建方法[J].信息技术与网络安全,2019,38(9):34-38.

*基金项目:四川省科技计划项目(2018HH0143);四川省教育厅项目(18ZB0355)

(收稿日期:2019-06-05)

作者简介:

廖浚斌(1995-),男,硕士研究生,主要研究方向:计算机视觉、自然语言处理。

周欣(1985-),男,博士研究生,助理研究员,主要研究方向:数据挖掘、自然语言处理。

何小海(1964-),通信作者,男,教授,主要研究方向:图像处理与模式识别、人工智能。E-mail:nic5602@scu.edu.cn。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

廖浚斌:面向涉恐领域的知识图谱构建方法论文
下载Doc文档

猜你喜欢