ApplicationAnalysisoftheInformationExtractionTechnologyofTechnologyDetection
胡立诺淤HULi-nuo曰胡立岩于HULi-yan(淤迁安市质量技术监督局,迁安064400;于迁安市园林绿化管理局,迁安064400)(淤Qian'anAdministrationofQualityandTechnologySupervision,Qian'an064400,China;于Qian'anLandscapingAuthority,Qian'an064400,China)
摘要院本文主要讲述了对于信息抽取技术的研究从它的概念,和它具体应用的分析,到最后的如何运用做了简单的介绍以及在信息抽取的过程中所涉及到的自然语言处理技术和中文信息抽取具有怎样的目的,任务和技术。
Abstract:Thispapermainlystudiesthetechnologyofinformationextractionfromperspectivesofspecificapplication,howtoapplyandtheobjectives,tasksandtechnologiesoftheinvolvednaturallanguageprocessingtechnologyandChineseinformationextractionintheprocessofinformationextraction.
关键词院新闻;获取信息;信息的检索Keywords:news;obtaininformation;informationretrieval中图分类号院G202文献标识码院A文章编号院1006-4311(2014)21-0236-020
引言随着社会经济不断的发展,各种各样的新闻也在不断地增加,随着互联网的发展,每天不断产生大量数据文件,同时还要对这些文件进行交流和处理。但是在实际需求中,人们往往不能在这些众多文件中,迅速将自身所需信息寻找出来,所以,如何能够快速准确地从众多的网络信息中来获取到自己所需要所感兴趣的信息就成为了一个主要的问题。
1对于信息抽取的简单描述信息抽取的技术属于是信息处理技术之一,其主要是依照之前已经设计好的模板,将人们所需求的信息从本结构或者是非结构化文本中进行提取。例如对于一条网络新闻来说,则就要对这条新闻的类型、发生时间以及发生地点等信息进行抽取。这样实施信息抽取,不但可以对人们找到自己所感兴趣所需要的信息提供帮助,同样也能够对其信息内容进行一定的处理和总结,从而提高人们寻找自己感兴趣信息速度,并获取与自己所感兴趣的信息所相关的一些信息。并且还能在这个基础上进一步对数据的挖掘,文本的生成等信息做后续的处理。这种信息提取技术的发展在各种新闻量增长的当代具有非常重要的应用价值。所以这项技术也越来越受到人们的重视。
2对信息抽取的主要情况的分析随着新闻的越来越多,人们所需要信息量也会越来越大,这就对加速信息检索到了一定的作用。对于信息的抽取是从某一段的文字中抽取出所需要的事件或者事实等,并将这些指定时间或者事实的抽取而形成的一种数据,填入到信息抽取技术系统的数据库中,这样也就为用户的信息查询提供方便。实施信息抽取的主要目的就是能够在网络中将自己所指定要找的文件信息找到,同时也将和自己制定文件信息相关的内容获取。比如说在计算机网络中,想要对某一种设备的名称、用途以及生产厂家等信息进行抽取,那么对于互联网IE任务来说,则也就是将这一设备的相关信息和内容从其在线文本中进行抽取,将在预先设计好中模板中进行填写完成。
对于特定的互联网IE系统的任务和通用的自然语言理解和任务是不一样的。对于通用自然语言来说,系统的输入必须是对输入的句子做透彻的分析,其中包括其输入句子的本身意义及隐含意义。通常我们会把自然语言进行两步理解,其一就是分析输入句子,将其在一个句法结构中进行映射,这一方式被称为句法树;其二则是对其进行句法和句义之间的转换,将其在句法意义中进行映射表达。在一个特定的互联网IE中,从一段的文本中抽取出指定的事件或者事实等,并将这些指定事件或者是事实抽取所形成的结构化数据,在提取信息数据库中进行填写,为用户对自己所需要的全部信息查询提供方便。当然其所抽取的信息,也必须将其事先进行设计。因此只有携带有相关短语的句子,就能够被进行解释,输入文本也能够将其有限数目分类时间进行映射。比如在搜索凶杀事件和爆炸事件等中。所以对语义进行完全句法式的分析解释,是完全没有意义的,主要对于文章进行片段性分析即可。
信息抽取技术系统主要的就是以模板框架做为中间点,从而把信息抽取的技术分成两个阶段,分别是选择和生长阶段。其中模板框架可以看成是一张申请单,其采用空槽形式将所需要的各项信息从原文中进行抽取。例如在对计算机病毒类信息需求时,即可以将病毒传染对象、病毒攻击对象、病毒名称以及病毒种类进行提取。在进行选择过程中,可以在文本中借助于具有特征性词语将其相关短语或者句子进行提取,将其用来输入到预先定义的模板中。比如如果能够在其文本中能够对可执行感染性文件相关文字进行发现,也就可以借助于这些文字或者是句子可执行文件作为病毒的感染对象填充到模板的框架中。其中在模板框架中的一些空白部分,其就和模板框架中空槽的部分相对应。比如说,病毒的感染对象是模板中的一个短语或者是句子,在之前在模板的框架中填充的病毒的感染对象为可执行的文件。因此在信息的提取中将会出现该病毒的传染对象是可执行文件的句子。对于对自己所需要信息的提取在一般情况下可以分为以下几个方面:第一个方面是,对于组织机构的信息,人的名字和某地方的地名,事件发生时间和地点等等进行抽取,其中包括隐含名词抽取、专用名词抽取以及集合名词抽取。例如其可以成功的将所有人名、地名、机构名以及团体名进行抽取。第二个方面也就是抽取其二元关系信息。比如抽取出其之前所输入的事件信息,或者将与公司宣布破产的信息和合并的相关的消息和原因抽取出来。第三个方面就是模板内容信息的抽取,用户可以对其之前已经设置好的模板进行使用,将自己所需要信息的详细内容进行自动抽取,其中抽取信息内容也就包括事件发生时间、地点以及人物,可以成功地将其所有相关信息进行分类排序,并全部抽取出来。
3信息抽取技术系统在实际中的运用从80年代开始,不管是公司,还是大学和研究机构,其均将信息抽取技术的发展作为重点,对其进行长期研究,并取得了一系列的研究成果。其中在国外就有专门对这项活动进行评测的组织和机构,其可以合理评估当前信息抽取技术的研究成果。在目前的信息抽取中,抽取技术应用的范围很广泛。其能够成功地被应用在传统信息检索系统之中,将信息检索和抽取合并在一起来获取系统,在信息的检索中仅仅只用关键词来表达用户所查询的信息是不能使用户达到搜索到自己所需要的信息这一目的的,在对信息的搜索完成后,进一步抽取和其信息具有一定先关性的文本信息,这也就成功地将当初的信息搜索过程转化成了信息理解过程。
在数据库应用系统中,将信息抽取技术系统进行受理,可以将其结构化信息在非结构化以及半结构化信息中进行产生,所以这也就成功的将数据库构成。在信息抽取技术系统中的这种结构化信息,具有非常广泛的用途,例如在对一些数据进行查询、搜索以及生成总结中,可以提高用户找到自己所需要所感兴趣的信息的速度。例如SCISOR系统中的一些分析技术,就能够迅速的筛选公司中的所需信息,将公司名字在文本中进行抽取等,并将其储存在数据库,以便用户的更方便的得到自己想要查询到的内容。
对于在线新闻信息的抽取。用一些新闻故事的简单的文本来对有线新闻的网络进行监控。采用对关键性的字和词语或者是句子的检索,用关键字的形式来对自己所需信息和新闻进行搜索。基于网页信息,将个人所感兴趣信息和内容在此之中进行获取,目前已经成为互联网信息研究过程中的一个重点,这个研究项目已经经历了几年的研究时间,但是其所取得的研究成果已经非常多。
4总结由于网上爆炸性的信息越来越多,于是用户对于自己能够快速和准确地找到对自己有用的信息已经成为了用户的最大的愿望。而信息抽取技术的系统不仅能够帮助人们方便地找到自己所需要和自己所感兴趣的信息,并且可以在合理分析和了解信息内容之后,将其在互联网上,对相关信息进行抽取。信息抽取技术是一门对应用性语言的处理技术,所以越来越受到人们的关注。
参考文献院[1]和密密.HLR日志信息抽取技术的研究与应用[D].山东科技大学,2012:50-51.[2]苏伟兵.个性化Web商务信息融合关键技术研究[D].浙江大学,2010:150-151.[3]孙胜平.中文微博客热点话题检测与跟踪技术研究[D].北京交通大学,2011:20-21.作者简介院胡立诺(1979-),女,唐山迁安人,本科,助工,研究方向为标准计量质量。