文档索引论文-扎西拉旦,安见才让

文档索引论文-扎西拉旦,安见才让

导读:本文包含了文档索引论文开题报告文献综述及选题提纲参考文献,主要关键词:XML,藏文网页,倒排索引

文档索引论文文献综述

扎西拉旦,安见才让[1](2017)在《基于XML文档的藏文网页倒排索引的研究与实现》一文中研究指出如今互联网上藏文信息也不断的扩充,藏文搜索引擎作为常用的信息检索的工具和渠道,倒排索引又是搜索引擎的核心技术之一,倒排索引直接影响搜索引擎检索的结果和响应的速度。之所以文章详细介绍了一个自主开发的藏文网页倒排索引系统,它以XML文档的标签内容作为索引对象,定义了文档和文档属性等概念,采用C#语言对文藏文网页正文构建倒排索引的关键技术和实现方法进一步的阐述,实现了基于XML文档的藏文网页倒排索引数据库的底层实现,提供了技术参考。利用这种方法藏文搜索引擎中信息检索的速度和准确率有所提高。(本文来源于《软件工程》期刊2017年06期)

首照宇,孙颖,张彤,赵晖[2](2017)在《基于双索引结构的XML文档查询设计及优化》一文中研究指出为了解决大型XML文档检索时间长、响应速度慢、内存资源消耗大等问题,设计了类B树形结构的双索引结构,提出了基于双索引结构快速定位目标内容的查询方法。采用基于路径的倒排索引结构,降低了检索内容之间逐个比较Dewey编码的时间消耗。同时针对XML文档内容进行分词处理构建数据单元,通过数据单元间的逻辑关系建立Path Guide索引库,避免对查询内容无关节点的访问。多组对比实验结果表明,基于内容的双索引结构查询方法及优化方案在查询效率上表现出明显的优越性。(本文来源于《桂林电子科技大学学报》期刊2017年02期)

王万乐,石冰,陈驰[3](2016)在《面向海量文档集的分布式索引构建方法》一文中研究指出Kmeans聚类算法是分布式索引构建中比较有效的文档分割方法。然而,基于单节点Kmeans算法的索引构建方法在应用于海量数据时存在两个问题:初始中心点的选取对于聚类结果的影响较大,聚类结果不稳定;聚类节点容易成为系统运行的瓶颈、文档集合的可扩展性差。针对上述问题,提出一种基于可并行的优化Kmeans算法的索引构建方法,基于样本聚类优化算法初始点的选择,保证聚类结果的稳定性,优化索引分布;同时将聚类的过程并行化,消除系统瓶颈,提升系统效率。实验表明,该方法在索引构建效率和查询结果的准确性方面均较传统方法有显着提升。(本文来源于《网络新媒体技术》期刊2016年05期)

王万乐[4](2016)在《基于聚类的海量文档集分布式索引构建方法》一文中研究指出全文信息检索技术是当前时代迅速获得准确信息的重要手段之一。在全文信息检索技术中最重要的部分是索引的管理。大数据时代,集中式的索引管理方式面临巨大挑战,最佳的解决方案之一是创建分布式索引。在分布式索引技术中索引分割方式主要有基于文档分割和基于词项分割,两者各有优势与不足,目前对分布式索引技术的研究主要是对两种索引分割方式的改进。本文研究了其他学者对不同索引分割方式的改进,对基于文档分割索引的方式进行了研究,在前人基础上提出了基于聚类的分布式索引构建方法。该方法通过聚类操作将原始文档分割为若干个集合,然后在每个集合创建局部索引。该方法发挥了基于文档分割索引方式的系统负载均衡、网络负担较小的优势,同时避免了文档随机分配导致的检索时需要遍历所有局部索引的缺点。本文通过将K-means聚类算法进行优化以及并行化并应用于文档聚类分割,提升了系统效率,优化了索引分割效果,使整个系统更加均衡稳定。本文研究了常见的文本聚类算法,通过研究其他学者对K-means算法的优化方法,发现大部分的优化方法需要很高的计算量,不适用于大数据环境,因此在前人基础上提出了一个针对大数据环境的基于样本聚类的优化K-means算法:SCB-K-means算法。该算法基于对样本的多次数轮聚类计算聚类算法的初始聚类中心,有效的提升了聚类效果,在使用该算法分割文档并创建的索引上的检索取得了较好的效果。最后本文结合Hadoop框架,使用HDFS和MapReduce计算模型实现了SCB-K-means算法的并行化,并将其应用在分布式索引创建的文档分割部分,在HDFS中使用本文方法对一个较大规模文档集创建了分布式索引,并通过多个实验验证了本文方法的有效性。(本文来源于《山东大学》期刊2016-06-30)

胡吉颖,吴振新,谢靖,张智雄[5](2016)在《构建面向WARC文档的全文索引系统》一文中研究指出【目的】开发网络信息存档WARC文件的解析与索引系统,充分挖掘科技网站存档资源价值。【应用背景】在网络资源采集存档领域,WARC文件格式获得了广泛的应用。随着网络信息的多样化,已有的WARC文件索引工具越来越难以满足用户多样性的查询需求。【方法】采用模块化方案解析WARC文件。分析比较常用的索引工具,选择Solr平台开发全文索引系统。【结果】实现对WARC文件基于内容的检索访问服务,并在WARC的索引中增加了学科分类、资源类型和存档时间等分面检索内容,从多维度对WARC文件内容进行揭示。【结论】向用户提供了丰富的科技网站存档数据信息,提高了用户检索访问效率。(本文来源于《现代图书情报技术》期刊2016年05期)

张睿涵[6](2016)在《索引文档检测技术应用分析》一文中研究指出本文通过对索引文档检测技术基本方法及适用情况的分析,结合石油企业敏感数据文件的特征,探讨索引文档检测技术在企业数据信息防泄漏过程中应用的可能性和运用方法。(本文来源于《信息系统工程》期刊2016年03期)

喻庚,殷飞,陈友斌,刘成林[7](2015)在《基于索引的快速手写中文文档关键词检索》一文中研究指出手写文档检索很难同时保证较高的检索精度和速度.基于上述原因,文中提出快速手写中文文档关键词检索方法,大幅提高检索速度并保持检索精度.该方法基于文本行识别的候选切分-识别网格预先生成压缩的索引文件,然后在索引上快速检索关键词.在手写中文文档数据库CASIA-HWDB上的实验证明文中方法的有效性,该方法不但压缩索引大小,而且缩短词检索的耗时.(本文来源于《模式识别与人工智能》期刊2015年11期)

史亮,张鸿,刘欣然,王勇,王斌[8](2015)在《倒排索引中的文档序号重排技术综述》一文中研究指出倒排索引作为文本搜索的核心索引技术,广泛应用于搜索引擎、桌面搜索和数字图书馆领域。倒排索引由字典和对应的倒排表组成,倒排表一般采用差值存储和整数编码进行压缩。研究表明,当倒排表具有较好的局部连续性时,上述方法能够获得很高的压缩率。整数编码研究通过不断改进编码算法来充分利用倒排表的局部连续性特征,而文档序号重排正是一种对文档序号重新排列来产生局部连续性的技术。通过文档序号重排,索引压缩率得到显着提高。该文主要介绍近年来文档序号重排技术取得的研究成果:首先介绍索引压缩的基本原理,然后详细介绍文档序号重排技术,包括分析、对比各个方法的优劣;最后对文档序号重排技术进行总结、整理和展望。(本文来源于《中文信息学报》期刊2015年02期)

司宏伟[9](2014)在《微博中基于增强型倒排索引的特定文档影响力估计算法》一文中研究指出微博搜索系统中,将微博帖子根据搜索相关性和重要性进行排序,并通过列表的方式返回结果,是目前信息内容的主要展示手段。基于向量空间模型的打分函数被广泛地应用于该类系统中。事实上,微博系统中的帖子重要性打分函数实际取值并不为用户所见,文档的影响力通过排名的方式表现出来。对于一个检索外的文档,如何衡量其在信息检索系统文库中的影响力?一般搜索引擎或信息检索系统并不能很好地回答该问题。在微博短文本的基础上引入了社交影响力这一概念,并通过在文本倒排索引基础上设置反向位置标记,给出了一种全新的影响力度量指标,有效地回答了前述问题。理论分析和数据实验验证了算法的有效性和效率。(本文来源于《计算机工程与科学》期刊2014年03期)

张涛,刘彩云[10](2013)在《一种图书书目XML文档的索引机制》一文中研究指出该文针对XML,DOM和SAX协议操作大文档的缺陷,将技术成熟的关系数据库索引机制应用于图书书目查询系统,从而实现对XML文档的快速查询。(本文来源于《电脑知识与技术》期刊2013年30期)

文档索引论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

为了解决大型XML文档检索时间长、响应速度慢、内存资源消耗大等问题,设计了类B树形结构的双索引结构,提出了基于双索引结构快速定位目标内容的查询方法。采用基于路径的倒排索引结构,降低了检索内容之间逐个比较Dewey编码的时间消耗。同时针对XML文档内容进行分词处理构建数据单元,通过数据单元间的逻辑关系建立Path Guide索引库,避免对查询内容无关节点的访问。多组对比实验结果表明,基于内容的双索引结构查询方法及优化方案在查询效率上表现出明显的优越性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文档索引论文参考文献

[1].扎西拉旦,安见才让.基于XML文档的藏文网页倒排索引的研究与实现[J].软件工程.2017

[2].首照宇,孙颖,张彤,赵晖.基于双索引结构的XML文档查询设计及优化[J].桂林电子科技大学学报.2017

[3].王万乐,石冰,陈驰.面向海量文档集的分布式索引构建方法[J].网络新媒体技术.2016

[4].王万乐.基于聚类的海量文档集分布式索引构建方法[D].山东大学.2016

[5].胡吉颖,吴振新,谢靖,张智雄.构建面向WARC文档的全文索引系统[J].现代图书情报技术.2016

[6].张睿涵.索引文档检测技术应用分析[J].信息系统工程.2016

[7].喻庚,殷飞,陈友斌,刘成林.基于索引的快速手写中文文档关键词检索[J].模式识别与人工智能.2015

[8].史亮,张鸿,刘欣然,王勇,王斌.倒排索引中的文档序号重排技术综述[J].中文信息学报.2015

[9].司宏伟.微博中基于增强型倒排索引的特定文档影响力估计算法[J].计算机工程与科学.2014

[10].张涛,刘彩云.一种图书书目XML文档的索引机制[J].电脑知识与技术.2013

标签:;  ;  ;  

文档索引论文-扎西拉旦,安见才让
下载Doc文档

猜你喜欢