导读:本文包含了倒排索引论文开题报告文献综述、选题提纲参考文献,主要关键词:索引,分区,蜂群,余弦,分词,数组,分布式。
倒排索引论文文献综述写法
黄立冬[1](2019)在《分布式搜索引擎中关键词倒排索引方法仿真》一文中研究指出针对当前信息检索方法存在的检索效率低、检索过程安全性和准确性差的问题,提出分布式搜索引擎中关键词倒排索引方法。以倒排索引理论分析为依据,构建关键词倒排索引体系,并解析索引中的关键技术。使用该技术将多种特征向量构建的超向量当作文档特征提取出来,将取值不同的各维特征向量归一化。提取特征后,将各维特征均值与标准差作为规整向量,完成文档特征规整。依据特征特征规整,利用模糊K均值聚类法生成检索词典。分析词典,构建明文倒排索引文档,对文档中相关记录信息加密,生成密文文档并构建密文文档倒排索引。索引服务器根据CRC32算法处理密文索引词,利用特征提取技术将索引词划分成不同段,根据词典将其转换成字序列用于检索,以命中关键词在每个候选文档中占据的比例当作检索词与全部候选文档相似程度的判定依据,将相似度值按从大到小顺序排列,将排列结果返给用户,完成一次索引。实验结果表明,上述方法检索耗时短、安全系数高,检索结果准确性优于当前方法,适用性强。(本文来源于《计算机仿真》期刊2019年08期)
马飞[2](2019)在《基于Map/Reduce框架实现的倒排索引文本检索》一文中研究指出倒排索引在搜索引擎检索系统中有很广泛的应用前景。而随着互联网各种数据的不断聚集,单处理器早已无法满足对数据的处理。文章介绍了基于Map/Reduce框架下通过多节点实现多个文本的倒排索引技术,详细阐述了在多处理器下倒排索引实现的原理。并根据目前倒排索引在各大搜索引擎的应用状况,结合在试验中获得的相关数据,进一步探索了在Map/Reduce框架下倒排索引文本的有效性和效率。(本文来源于《智能城市》期刊2019年11期)
安兆翔[3](2019)在《基于模式化编码的倒排索引压缩算法研究》一文中研究指出倒排索引是信息检索系统的重要组成部分之一,被用于维护数十亿文档并对大量查询操作进行响应。随着当前互联网数据量的不断增加,倒排索引的体积也不断攀升。倒排索引压缩算法可以提高信息检索系统的性能,减少索引的空间占用,加快查询处理速度,因而成为了重要的研究对象。模式化编码相比传统的位编码具有解码速度快,压缩效果好的优点,因而被广泛应用于倒排索引压缩中。本文针对模式化编码中的字节对齐编码算法、固定比特编码算法以及字对齐编码算法进行深入研究,主要工作如下:(1)本文对字节对齐编码和固定比特编码的特点进行剖析,并以此为基础提出了 PVU编码压缩算法。算法以字节对齐编码为基础,引入了固定比特编码中的分区思想,使用“模式区-长度区-编码区”的叁层存储结构对字节对齐编码中的二层结构加以改进。算法代替以字节为最小存储单位的单一方式,设计了多种最小存储单位供各分区选取最优的压缩模式,从而提高了全局压缩率。针对PVU编码的分区策略进行研究,将编码分区问题转换为图论中的最短路径问题,设计并实现了动态规划求解编码最优分区的方法,并提出了分区优化的OptPVU编码。(2)分析DocID序列经预处理后的取值分布特征,以字对齐编码Simple Family为基础,融合游程编码加以改进,提出了 Simple21编码压缩算法。算法包含21种编码模式,当序列包含大量连续0值时,Simple21编码相比其它Simple Family编码有效减少了占用空间。Simple21编码还通过将模式标识符和压缩编码分割的方式,增加了编码的最大存储长度,扩大了算法的可用范围。(3)本文提出并实现了 PVU编码、分区优化的OptPVU编码以及Simple21编码叁种倒排索引压缩算法,并与Golomb编码、Elias-Delta编码,Variable Byte编码、Stream VByte编码、NewPFD编码和Simple9编码进行了对比实验。实验结果表明,Simple21编码在压缩率和解码速度方面均优于其它压缩算法,是实验中综合效果最优的编码方案。PVU编码、OptPVU编码相比字节对齐编码VByte和Stream VByte,在压缩率上取得了明显的优势。与固定比特编码NewPFD相比,PVU编码与NewPFD编码具有相似的压缩效果,而经分区优化的OptPVU编码则取得了比NewPFD编码更好的压缩率和解码速度。(本文来源于《北京交通大学》期刊2019-05-01)
贾丽波,姜晓明,叶青,陈占芳[4](2019)在《一种基于倒排索引的频繁项集挖掘方法》一文中研究指出针对频繁项集挖掘算法中多次扫描数据库、生成大量无效频繁项集的问题,提出一种基于倒排索引和二维数组的挖掘算法。通过一次扫描数据库建立包含事务的倒排索引,解决多次扫描数据库的问题。在二维数组存储候选频繁项集时,引入标志位约束,避免产生大量无效的频繁项集。与其他算法在不同规模的数据集上进行性能比较,发现算法在数据集超过25万时执行效率优于其他算法。通过实验验证了所提出算法的高效性和可行性。(本文来源于《长春理工大学学报(自然科学版)》期刊2019年02期)
杜瑞忠,李明月,田俊峰,吴万青[5](2019)在《基于倒排索引的可验证混淆关键字密文检索方案》一文中研究指出随着云计算的发展,以密文检索为核心技术的安全搜索问题日益成为国内外研究的热点.为了提高密文检索方案的安全性,提出了基于倒排索引的可验证混淆关键字密文检索方案.首先,在构建陷门时插入混淆关键字抵抗恶意云服务器的关键字攻击,同时引入数据缓存区,利用Pailliar加密技术对包含混淆关键字搜索结果进行盲计算,过滤掉包含目标关键字以外的密文数据,减少通信开销;其次,利用双线性映射生成标签验证搜索结果,并对方案在正确性、安全性和可靠性这3个方面进行了验证.在真实数据集上进行反复实验,理论分析和实验结果表明,该方案在保证检索效率的同时,比现有的密文检索方案有效地提高了密文检索的安全性.(本文来源于《软件学报》期刊2019年08期)
屈志坚,范明明,周锐霖,王汉林,朱丹[6](2018)在《海量配电网调度监测信息的非主行键倒排索引查询技术》一文中研究指出为解决配电网调度监控系统数据体量不断增大导致数据检索速度越来越慢的问题,结合数据同步技术与倒排索引机制,提出了一种二级索引架构。使用数据库的同步组件与索引器生成非主行键索引,在搜索时先获得数据主行键,再根据主行键检索到需要的数据,完成非主行键检索,再利用倒排索引技术改变数据的信息结构,缩短检索时间。以某铁路局10 kV供电调度监控信息为算例,进行非主行键检索测试。结果表明:完成非主行键检索所用时间为161 ms,满足在配电网调度监控系统中对数据进行快速检索的工程应用需求。(本文来源于《电力系统保护与控制》期刊2018年23期)
刘健,宁玉文,孙茂,许浩,李宝娟[7](2018)在《基于倒排索引结构的寻亲系统的设计》一文中研究指出设计一种新型的数据存储结构和检索方法,以实现对短串联重复序列数据的合理存储和快速检索。对不同STR基因座位点设置不同的域;在不同的域中,构建倒排索引结构来存储STR基因座数据;在此基础上,构建了基于STR基因座数据相似度的检索排序算法。该方法有效解决了采用传统关系型数据库存储STR基因座数据时存在的检索效率低下、难以应对基因突变以及扩展性差等问题。采用文中提出的数据存储结构和检索算法,极大地提高了系统的检索性能和可扩展性。(本文来源于《信息技术》期刊2018年10期)
安兆翔,瞿有利[8](2019)在《编码单位可变的倒排索引压缩算法研究》一文中研究指出倒排索引是大多数大型文本搜索系统的核心数据结构,索引压缩可以有效地减少倒排索引的空间占用,提升检索效率。针对倒排索引压缩算法中的字节对齐编码进行研究,对于其压缩率不够优秀的问题,提出了分区可变单位编码(PVU编码)。算法以可变单位方式代替固定字节存储,使实际存储空间更加贴合原码长度,从而提高压缩效果。针对序列均匀分区并非最优分区的问题,提出将最优分区问题转化为图论中最短路径问题的方法,使用Dijkstra算法求解序列的最优编码分区。通过对比实验验证了改进优化的PVU编码相较于传统的字节对齐编码能够更好地压缩倒排索引序列。(本文来源于《计算机工程与应用》期刊2019年15期)
齐翌辰,王森淼,赵亚慧[9](2018)在《基于倒排索引的问答系统的设计与实现》一文中研究指出近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广泛的研究方向。为了方便学生们检索有关课程的相关知识,进一步深入学习,本文设计并实现了一个基于倒排索引技术的课程问答系统。通过建立问答系统的数据库,对问题进行分析以及问题关键词的处理、信息检索进行答案抽取。通过中文分词系统实现提取问答对中的关键词。通过余弦相似度计算文本相似度与问答对中的问题进行比对及匹配,从而显示正确答案通过网页反馈给学生。这样可以帮助学生更有效地学习课程,为学生对该课程的学习提供了便利。(本文来源于《教育教学论坛》期刊2018年35期)
白福均,高建瓴,李宛蓉,贺思云,肖绍武[10](2019)在《一种倒排索引压缩方法》一文中研究指出针对自适应分段压缩ASCS算法进行了研究,对于ASCS算法中采用的均匀分段方式并非最优分段问题,提出以人工蜂群算法优化ASCS算法中的分段方式;对于ASCS算法考虑序列占用空间的影响因素过于单一问题,提出多因素下的改进算法;对于分布不均的长序列在ASCS算法下压缩率不理想的问题,提出先排序后差分编码操作再以ASCS算法压缩。通过对比实验证明,优化改进后的算法可以较显着地压缩倒排索引。(本文来源于《计算机应用研究》期刊2019年01期)
倒排索引论文开题报告范文
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
倒排索引在搜索引擎检索系统中有很广泛的应用前景。而随着互联网各种数据的不断聚集,单处理器早已无法满足对数据的处理。文章介绍了基于Map/Reduce框架下通过多节点实现多个文本的倒排索引技术,详细阐述了在多处理器下倒排索引实现的原理。并根据目前倒排索引在各大搜索引擎的应用状况,结合在试验中获得的相关数据,进一步探索了在Map/Reduce框架下倒排索引文本的有效性和效率。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
倒排索引论文参考文献
[1].黄立冬.分布式搜索引擎中关键词倒排索引方法仿真[J].计算机仿真.2019
[2].马飞.基于Map/Reduce框架实现的倒排索引文本检索[J].智能城市.2019
[3].安兆翔.基于模式化编码的倒排索引压缩算法研究[D].北京交通大学.2019
[4].贾丽波,姜晓明,叶青,陈占芳.一种基于倒排索引的频繁项集挖掘方法[J].长春理工大学学报(自然科学版).2019
[5].杜瑞忠,李明月,田俊峰,吴万青.基于倒排索引的可验证混淆关键字密文检索方案[J].软件学报.2019
[6].屈志坚,范明明,周锐霖,王汉林,朱丹.海量配电网调度监测信息的非主行键倒排索引查询技术[J].电力系统保护与控制.2018
[7].刘健,宁玉文,孙茂,许浩,李宝娟.基于倒排索引结构的寻亲系统的设计[J].信息技术.2018
[8].安兆翔,瞿有利.编码单位可变的倒排索引压缩算法研究[J].计算机工程与应用.2019
[9].齐翌辰,王森淼,赵亚慧.基于倒排索引的问答系统的设计与实现[J].教育教学论坛.2018
[10].白福均,高建瓴,李宛蓉,贺思云,肖绍武.一种倒排索引压缩方法[J].计算机应用研究.2019