文本信息检索论文-李高鹏,艾山·吾买尔,郑炅,王路路

文本信息检索论文-李高鹏,艾山·吾买尔,郑炅,王路路

导读:本文包含了文本信息检索论文开题报告文献综述及选题提纲参考文献,主要关键词:信息检索,算法介绍,倒排索引,检索系统构建

文本信息检索论文文献综述

李高鹏,艾山·吾买尔,郑炅,王路路[1](2019)在《文本信息检索系统的设计与实现》一文中研究指出随着信息化的发展,互联网上出现了越来越多的文档信息,如何根据用户的需要从海量的文档中快速获取相关信息成为了研究的热点。采用Python编程语言、Django Web应用框架、UWSGI Web服务器、Nignx代理服务器,基于TextRank关键词提取算法、倒排索引结构、Jaccard相似度计算以及MySQL数据库技术构建了汉英文本信息检索系统。该系统包含文本注册、文本检索和文本注销叁个模块,可实现千万量级文本数量上的快速注册和快速检索功能,为构建舆情分析系统提供服务,并可根据人们特定的需求,扩展文本检索服务。(本文来源于《现代电子技术》期刊2019年16期)

刘达,房龙,姜健[2](2019)在《基于网络文本信息检索的地理信息变化自动发现研究》一文中研究指出地理信息变化发现是地理信息数据更新的重要步骤。传统地理信息变化发现是通过遥感影像解译和外业调绘核查来实现,成本高,效率低。使用模板化网络爬虫技术对网络文本信息进行检索,可以实现部分地理信息要素的变化自动发现,提高地理信息数据更新的效率与准确性。(本文来源于《测绘与空间地理信息》期刊2019年06期)

许奥狄[3](2019)在《信息检索中基于深度学习的文本表示与分类方法研究》一文中研究指出文本表示与分类是支撑高质量信息检索的前提;高稀疏、高维度文本特征和检索准确率低是当前信息检索任务中文本表示与分类方法面临的主要问题。为了准确、高效地检索出目标信息,构建性能优异的文本表示与分类方法已成为信息检索领域的研究热点之一。本文针对多分类、多标签文本表示与分类方法展开了深入研究,主要工作如下:(1)针对传统基于BOW的多分类文本表示与分类方法存在高稀疏、高维度的固有缺点,提出一种融合深度信念网络(Deep Belief Network,DBN)与文本卷积神经网络(Text Convolutional Neural Network,TextCNN)的深度信念卷积神经网络模型(Deep Belief Convolutional Neural Network,DBCNN)。DBCNN模型首先通过DBN预训练,在保留文本有效信息的前提下,对文本特征进行降维;进一步,通过TextCNN对降维的文本特征进行卷积和池化处理,以提取低维度、稠密的文本高层特征向量表示。实验结果表明,DBCNN模型的多分类文本表示与分类性能优于传统方法,准确率平均提高了6.18%;关键词词向量嵌入相比普通词向量嵌入,能有效提高模型的性能;DBN结构中的每层节点数越接近输入词汇的个数,DBCNN模型的性能越好;引入L2正则化和滑动平均模型能有效提高DBCNN模型的分类准确率。(2)针对传统多标签文本表示与分类方法存在检索?准确率低、汉明损失高的问题,提出一种融合双向长短时记忆网络(Bi-Long Short-Term Memory,Bi-LSTM)与文本卷积神经网络的双向长短时卷积神经网络模型(Bi-Long Short Time Convolutional Neural Network,Bi-LSTCNN)。该模型首先通过Bi-LSTM网络提取文本的上下文特征向量,并将其和模型输入进行拼接,得到信息更加丰富的文本融合特征向量;再利用TextCNN提取局部特征的能力对文本融合特征向量进行降维,获取文本高层特征向量表示。实验结果表明,Bi-LSTCNN模型的多标签文本表示与分类性能优于传统方法,准确率平均提高了9.4%、汉明损失平均减少了0.374;引入L2正则化和滑动平均模型能有效提高Bi-LSTCNN模型的分类准确率。(3)针对多标签文本表示与分类方法的输出空间随着文本标签集合增大而指数增长、导致难以获得准确标签集合的缺点,本文在Bi-LSTCNN模型基础上引入层次化标签树的多标签分类策略,以提高Bi-LSTCNN模型的性能。实验结果表明,引入层次化标签树的Bi-LSTCNN模型在处理多标签文本表示与分类任务时相比于未引入层次化标签树的Bi-LSTCNN模型,其召回率、准确率、F1值分别提高了2.2%、2.9%、2.5%;汉明损失降低了0.187。(本文来源于《重庆邮电大学》期刊2019-05-20)

熊泽宇[4](2018)在《文本信息检索中查询优化与向量化技术研究》一文中研究指出随着互联网的普及与计算技术的飞速发展,网络海量信息数据处理是当今大数据处理的重要研究课题。人们不仅在网络中发布和获取信息,更重要的是利用网络信息数据带来日常生活的便利,并产生新的经济效益和社会效益。文本海量数据的处理与利用已得到越来越广泛的重视,具有广阔的应用前景。文本信息检索的数据分为结构化和非结构化两类,经典的文本检索模型有:基于集合论的布尔模型、基于代数学的向量空间模型、基于概率统计的概率模型和基于统计的机器学习模型等。这些文本检索模型依照用户查询,对文档集合中的文档计算查询匹配分数并进行相关排序、形成查询结果。随着文本信息量的增加,传统的文本信息检索技术在查询结果的精确匹配、检索效率与性能方面是有限的。当今文本信息检索任务需要分析处理越来越复杂、越来越繁重的文本数据,对准确、高效的文本信息检索技术的研究有更高要求和期待。因此,本文研究经典文本检索模型的改进与优化、研究基于深度学习的分布式向量化技术,相关的研究成果有重要的理论意义和应用价值。本文的主要工作和成果如下:1.针对BM25及其改进模型客观存在的语义缺失现象,在Markov随机场(MRF)模型和Lkp模型的基础上,提出了一种改进的用于文本高阶相似查询结果计算的分数模型,实验对比分析了改进模型与原有模型的在查询分数计算时的不同,显示了改进模型在评分函数体现高阶相似查询性能上的优势。2.针对文本信息的行文习惯,主题句一般出现在文档的首尾部分,为此引入了基于区间树的分数度量机制,将区间树分数度量分别与Score Comp模型和Freq Comp模型相结合,提出了基于区间树的文本查询分数计算模型。实验结果对比分析了基于区间树的Score Comp模型与基于区间树的Freq Comp模型在查询分数计算的差异,基于区间树的Score Comp模型表现了对词项之间更敏感的语义关联。3.针对分布式词向量学习时间长的问题,在n-gram模型、CBOW词向量模型、Skip-Gram词向量模型、层次Softmax模型的基础上,建立了一种查询优化策略,提出了一种扩展的分布式词向量的优化模型,实验结果表明新的分布式词向量生成优化模型CBOW-OR或Skip Gram-OR模型间接表现出的词对间的语义关联比CBOW和Skip-Gram模型更合理。4.针对经典的分布式段向量构造算法存在盲目学习的问题,提出了一种基于CBOW与CNN结合的段向量深度学习方法,实验结果表明结合CBOW模型和CNNs模型生成的段向量比CBOW模型获得的段向量在表达段落主题方面更合理。(本文来源于《国防科技大学》期刊2018-06-25)

杨宇[5](2018)在《面向网页文本的地理信息检索关键技术研究》一文中研究指出近年来,随着基于位置服务的兴起,海量以文本形式描述的地理信息存在于互联网中。在当下网络信息爆炸时代,随着检索需求中地理约束的引入,传统信息检索出现功能瓶颈,致使地理相关的网络化信息难以得到发掘,故地理信息检索成为网络化地理信息有效获取的重要手段。本文在现有地理信息检索研究基础上,以气象主题领域为例,对地理信息检索关键技术进行了深入研究。具体工作如下:(1)在借鉴本体相关理论研究的基础上,提出了概念本体树与概念属性关系表相结合的知识库构建方法,并构建了具备一定推理能力的知识库,为后续网络化信息采集、抽取、表达、解析和相关度计算提供知识基础。该知识库为轻量级的知识库,易于构建、应用与扩展,能满足大部分地理信息检索中的需求。(2)以气象主题新闻为例,以网络爬虫技术为信息采集的方法,构建了固定深度的主题网络爬虫实现对新闻网页的采集;并提出了文本主题信息和地理信息识别和抽取算法,以改进的叁元组表达模型对文本信息进行合理表达,为检索相关度评价奠定基础。(3)以定量和定性相结合的方式对检索意图和网页文本中地理信息元进行语义理解,重点提出了拓扑和方位关系下的地理语义解析模型。同时引入语义距离的概念,以地理语义解析为基础,提出了基于概念本体树语义距离的检索相关度评价模型,可实现带地理约束的检索意图和网页文本之间相关度的准确评价。(4)在以上研究的基础上,借助ASP.NET、Arc GIS API for Javascript等技术实现了面向网页文本的地理信息检索原型系统。原型系统检索测试实验显示查全率稳定在75%,而查准率稳定在85%,具有良好的检索效果,验证了本文地理信息检索相关理论的可行性和可靠性。(本文来源于《中国矿业大学》期刊2018-05-01)

叶蓉,刘书玲[6](2017)在《高效文本信息检索在信息平台中的应用与探究》一文中研究指出随着信息时代的不断发展,海量且个性化的非结构信息检索为信息平台管理提出了更高的要求。如何做到高效的文本信息检索,是优化信息管理的重要组成部分。传统的检索方法注重事件的最终结果,对于信息的查找效率有限,未能重视信息内容及其内在联系,这也涉及数据挖掘技术等一系列新兴技术的应用。在面对海量数据信息时,对文本信息进行高效准确地检索,是我国科技强国的重要手段。本文提出了基于本体的特征聚类的文本信息检索,从检索技术手段出发,阐述其在信息平台中的实际应用,展望信息检索技术的广阔发展前景。(本文来源于《科技广场》期刊2017年05期)

赵忠伟[7](2017)在《基于SIGIR邮件列表和学术文本的信息检索主题比较研究》一文中研究指出主题研究主要包括主题结构研究和主题演化研究。已有的主题研究大多基于学术文本的题录数据。虽然这种方法有效,但是研究对象过于单一。国外有很多学者对开源软件的邮件列表进行过相关的研究,这些研究主要集中在邮件的内容挖掘和邮件的社会网络挖掘等。本文借鉴国外学者的经验,以SIGIR邮件列表为切入点,构建SIGIR邮件列表数据集和同期SIGIR,ECIR会议论文数据集。最终得到了 2008年到2016年共7218封邮件,SIGIR会议论文1968篇,ECIR会议论文828篇。在这些邮件中识别了 1312位学者的身份,将邮件的发送者和ACM数据库中的学者进行了对应。首先,研究了信息检索的主题结构:(1)将邮件列表分为会议通告和招聘通告两类。在这两类邮件列表和会议论文中利用TF-IDF算法分别识别了高频主题词40个,并构建了主题词共现网络,利用SPSS聚类进行可视化分析。分别得出了信息检索的七个研究主题。(2)在邮件列表会议通告,招聘通告和会议论文上分别构建了主题词-作者的合着网络,进行了可视化分析。(3)总结了聚类的结果,得出了信息检索研究的八个子主题,并对每一个主题进行了分析。然后,研究了信息检索主题结构的演化:(1)利用词频分析法分别在邮件列表会议通告,招聘通告和会议论文上分析了七个研究主题近十年来的变化情况。(2)构建主题词-年份的共现网络,识别了历年的代表性研究主题词。(3)利用NEViewer对主题演化进行了可视化分析。总结分析了研究主题的变化情况。(本文来源于《武汉大学》期刊2017-05-01)

田永刚[8](2016)在《基于文本分类技术的WEB校友信息检索系统实现》一文中研究指出在当今这个信息技术发展越来越迅猛的时代,尤其是Web的广泛普及和应用,Web上的信息也呈现着飞速增长的趋势,并逐渐积累成巨大的信息资源库。然而,面对目前Internet上依旧在不停增多的信息资源,怎样才能快速和精确地从这巨大的信息资源库中,检索到自己所需要的具体信息资料便成了一项值得探索和研究的课题。对于学校从事校友工作的部门来说,校友信息挖掘和收集是校友工作的一项非常重要的基础性工作。如今的Internet包含了众多各个时代,各个行业和人群的资料信息,其中便包括了很多校友的个人资料,生活状态,工作简历或是与校友相关的活动报道等等。在一般情况下,我们在Internet上查找校友的相关信息的时候,通常会直接通过搜索引擎来查找,但是由于搜索引擎反馈回来的搜索结果太多,并且夹杂着很多混乱的信息甚至有一些存在安全隐患的网页链接,所以从搜索结果中判断真假对错,挑选出有用的数据信息也是一项庞大而且繁琐的工作。因此,为了提高校友信息检索者的工作效率和检索精准度,建立一个自动、全面、详细并且精准的“Internet校友信息搜索系统”,必然会给校友工作人员带来很多便捷和帮助。建立一个这样的系统是非常实用并且有意义的。本文研究了关于文本分类技术的校友信息检索方法,深入地解释和分析了关于在Internet上进行校友信息检索的特点和目前所面临的难点。并且,在两次分类方法的基础上,设计了一个基于互联网的校友信息检索系统。本文的工作如下:1.简要介绍了互联网上校友信息的分布特点,以及由此产生的学习模型的泛化能力不足和维灾难问题;2.采用了两次分类的方法来完成校友信息的分类,这两次校友信息分类提高了检索结果的准确率和全面性;3.使用启发式规则将校友的名字和相关关键词在检索结果中进行辨识;4.根据以上所述的相关校友信息检索方法,本文使用JAVA语言建立起一个基于互联网的校友信息检索系统。该系统借助互联网搜索引擎技术以及网页爬虫来随时和及时的检索互联网和校友相关的各类信息。(本文来源于《天津大学》期刊2016-11-01)

刁宇峰[9](2016)在《探讨文本挖掘技术研究在信息检索中的应用》一文中研究指出文本挖掘指的是对一些具有丰富的语义的文本内容进行分析之后再理解这个文本内容包含的内容和意义的过程,随着科学技术以及经济实力的不断发展,文本挖掘机技术研究已经成为研究中的重要方向。(本文来源于《信息系统工程》期刊2016年06期)

王莉军[10](2016)在《海量数据下的文本信息检索算法仿真分析》一文中研究指出在海量数据下对文本信息进行准确检索,能够帮助人们获取新知识,提高工作效率。传统的检索方法不能对海量数据下文本信息特征的变化造成的影响做出反应,从而降低了文本信息检索的准确性。提出一种基于特征聚类的文本信息检索方法。对文本信息进行降维处理,保留主要的文本信息特征,消除冗余数据带来的影响;在文本信息检索的过程中,按照特征相似度对文本信息的特征进行聚类,确定文本信息检索的目标函数,并利用约束条件进行约束,在检索的过程中自适应调整文本信息特征的聚类中心和特征的权值,最终实现了文本信息的准确检索。仿真结果表明,改进算法能够提高海量数据下文本信息检索的准确率和效率。(本文来源于《计算机仿真》期刊2016年04期)

文本信息检索论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

地理信息变化发现是地理信息数据更新的重要步骤。传统地理信息变化发现是通过遥感影像解译和外业调绘核查来实现,成本高,效率低。使用模板化网络爬虫技术对网络文本信息进行检索,可以实现部分地理信息要素的变化自动发现,提高地理信息数据更新的效率与准确性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本信息检索论文参考文献

[1].李高鹏,艾山·吾买尔,郑炅,王路路.文本信息检索系统的设计与实现[J].现代电子技术.2019

[2].刘达,房龙,姜健.基于网络文本信息检索的地理信息变化自动发现研究[J].测绘与空间地理信息.2019

[3].许奥狄.信息检索中基于深度学习的文本表示与分类方法研究[D].重庆邮电大学.2019

[4].熊泽宇.文本信息检索中查询优化与向量化技术研究[D].国防科技大学.2018

[5].杨宇.面向网页文本的地理信息检索关键技术研究[D].中国矿业大学.2018

[6].叶蓉,刘书玲.高效文本信息检索在信息平台中的应用与探究[J].科技广场.2017

[7].赵忠伟.基于SIGIR邮件列表和学术文本的信息检索主题比较研究[D].武汉大学.2017

[8].田永刚.基于文本分类技术的WEB校友信息检索系统实现[D].天津大学.2016

[9].刁宇峰.探讨文本挖掘技术研究在信息检索中的应用[J].信息系统工程.2016

[10].王莉军.海量数据下的文本信息检索算法仿真分析[J].计算机仿真.2016

标签:;  ;  ;  ;  

文本信息检索论文-李高鹏,艾山·吾买尔,郑炅,王路路
下载Doc文档

猜你喜欢