多元搜索引擎论文_刘登洪,徐贤

导读:本文包含了多元搜索引擎论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:搜索引擎,系统,词表,分词,用户,后缀,中文。

多元搜索引擎论文文献综述

刘登洪,徐贤[1](2017)在《元搜索中成员搜索引擎的选择问题研究》一文中研究指出随着网络的普及,网上检索成为了人们获取信息的主要方式。目前的搜索引擎相对独立,覆盖范围比较有限。相比之下,元搜索能够更好地满足用户的检索需求。当用户在元搜索提供的统一界面中输入一个查询时,元搜索会将处理后的用户请求发送给相关的成员搜索引擎。但是一个重要的问题是如何识别出潜在的搜索引擎以便更好地处理用户的请求。鉴于此提出了一种基于遗传算法的选择机制,该方法将各个成员搜索引擎的权重考虑在内。实验结果表明,该方法确实能够提高引擎选择中的效率和精度。(本文来源于《计算机科学》期刊2017年10期)

刘文苑[2](2017)在《元搜索引擎中基于Agent的结果合成方法的研究》一文中研究指出元搜索结果合成是将多个成员搜索引擎的检索结果进行结果融合的过程。结果合成技术作为元搜索引擎中的关键技术之一,直接影响用户对元搜索引擎的满意度评价。已有的结果合成技术采用单一的排序算法对结果重排序,然而单一算法在不同的网页结果重迭率下表现不一,导致在不同查询词下用户的查询效果差异显着,影响了元搜索引擎的性能。针对该问题,本文提出一种基于Agent的动态结果合成方法,选取多个排序算法作为成员排序算法,利用智能Agent感知当前查询词下的结果重迭率,根据重迭率动态调度其中最优的一种成员排序算法进行结果合成,从而缩小不同查询词间的查准率差异,提高用户满意度。本文的主要贡献包括设计动态结果合成策略以及设计基于Agent的结果合成子系统,具体的工作内容有:(1)通过分析单一算法的局限性,确定动态调度排序算法的策略。该策略选择多个算法作为成员排序算法,将结果重迭率作为算法调度条件。论文使用静态经验学习确定动态调度策略,即确定在当前结果重迭率下的最优算法。(2)设计结果合成过程中的去重,确定去重使用的方法及流程,同时确定结果重迭率计算公式。(3)由于当前的成员搜索引擎返回的结果不包含网页的初始相关分值,因此论文使用逻辑回归方程估计CombMNZ算法和SDM算法的初始相关分值。(4)根据论文的成员排序算法选择标准,确定动态调度的成员排序算法,同时分析这些算法的算法思想和计算公式。(5)利用用户点击日志数据分析用户对成员搜索引擎的偏好和用户的检索主题兴趣,使用成员搜索引擎权重和用户兴趣权值修正动态合成的结果,实现基于用户兴趣的结果合成。(6)在“智搜”元搜索引擎上实现基于Agent的结果合成子系统,分析系统结构图并对子系统中的各Agent模块进行分析。(7)设计实验验证论文所做的工作,实验分为叁部分:在动态结果合成实验中,将本文提出的方法与Borda Fuse、CombMNZ等算法进行对比,验证了基于Agent的动态结果合成方法具有较高的查准率;在基于用户兴趣的结果合成实验中,对比登录用户与未登录用户进行相同检索时返回的结果序列,验证了添加用户兴趣因素后系统能够满足用户的兴趣需求;在基于Agent的结果合成性能实验中,对比使用Agent的结果合成与未使用Agent的结果合成所需时间,验证了使用多Agent系统实现结果合成在时间性能上具有的一定优越性。(本文来源于《西安电子科技大学》期刊2017-06-01)

李英健[3](2017)在《元搜索引擎中基于用户信息与行为的推荐方法的研究》一文中研究指出随着互联网中内容的爆炸式增长,每一秒都会产生4万GB以上的内容。在这种情况下,传统搜索引擎的索引覆盖率正在不断降低,难以为用户提供全面且准确的检索服务。而元搜索引擎技术通过调度多个不同的搜索引擎的方式,能够有效地提高检索结果的覆盖率。与此同时,通过搜索引擎与推荐技术的结合,挖掘搜索引擎用户间的相似关系,充分利用搜索引擎中丰富的数据资源,能够为用户提供更多的个性化搜索服务。然而在目前阶段,针对元搜索技术以及其中的推荐技术的相关研究尚不完善,都还存在着许多不足亟需解决。本文主要对元搜索引擎技术与推荐技术结合的设计、实现与应用进行了相关研究。首先本文对元搜索引擎技术及推荐技术的研究进展进行了分析归纳,并在此基础上提出了元搜索引擎中推荐方法的设计方案及流程。其次,本文对元搜索引擎中推荐方法中的关键技术展开了深入研究。其中包括充分分析用户在元搜索引擎中的隐式信息及显式信息,完成元搜索引擎内的用户模型的构建,对元搜索引擎内的用户进行规范化描述;针对推荐方法中存在的群组划分机制的欠缺,从不同维度对用户信息进行分析,设计了一种元搜索引擎内的细粒度的用户群组划分方法,自主地对元搜索引擎中的用户进行分类;通过用户点击模型分析用户的点击记录对推荐进行过滤,全面考虑用户间的综合相似程度进一步衡量推荐内容的相关性,完成推荐内容的筛选与排序。最终,本文对提出的元搜索引擎中基于用户信息与行为的推荐方法进行实现,完成元搜索引擎技术与推荐技术的有效结合。为了说明本文提出的元搜索引擎中的推荐方法的效果,本文进行了相应的实验验证。不但对推荐方法内的各关键技术的有效性进行了验证,而且通过对比实验的方法对整体的推荐方法进行了准确性评估,实验结果表明本文提出的推荐方法能够稳定地为用户提供个性化的搜索服务,并提升用户的搜索体验。(本文来源于《西安电子科技大学》期刊2017-05-01)

陈建华[4](2017)在《基于后缀树聚类算法的元搜索引擎的设计与实现》一文中研究指出日新月异的Internet革命给人们带来了极大便利。随着大数据时代的到来,如何更高效的获取信息越来越成为人们关注的焦点,而搜索引擎正是解决此类问题的有效工具之一。但从目前来看,搜索引擎技术仍有很多不足,虽然有众多的商业搜索引擎供用户选择,很多时候用户还是难以在第一时间找到感兴趣的内容。由于全文搜索引擎之间数据库内容和排序算法上都有很大不同,导致用户得到的结果集也千差万别,为了提高搜索引擎的覆盖率和查全率,元搜索引擎技术孕育而生。传统搜索引擎还存在着另一个不足之处,用户提交关键字进行搜索时,得到的结果集往往十分庞杂,需要用户一一筛选,而在关键字具有多种含义时这种不足尤为明显,在大量具有不同类别含义的结果集面前用户常常会花费很多时间查找有用信息。一种解决方案是对结果集进行聚类处理,当用户提交关键字查询时,返回结果以聚类的形式呈现给用户,从而提高搜索效率。目前,越来越多的元搜索引擎开始引入聚类功能,如开源搜索引擎Carrot2和Vivisimo等。但聚类搜索引擎的技术还没有进入完全成熟的阶段,分类水平、类标签的可读性、对中文语言的支持等方面都存在着一定不足,有待于进一步研究。本文针对元搜索引擎和聚类算法进行了一定的分析和研究,并在此基础之上使用java语言和myEclipse10工具设计实现了一个基于后缀树聚类算法的元搜索引擎,主要工作如下:1.对元搜索引擎的工作原理进行了介绍,阐述了元搜索引擎各个模块的工作方式和实现。2.针对短文本聚类算法的研究,介绍了几种常用的聚类算法,深入比较了这些聚类算法的优缺点,对后缀树聚类算法的原理进行了细致分析。3.针对聚类算法产生的类标签描述性不强的问题,首先对类标签的选取方法进行了研究和改进,使得评分较高的类标签更符合汉语的语言习惯;其次,在后缀树聚类和类融合之后,对具有相同类标签的簇再一次融合,保证标签不具有重复性;最后引入语义规则对所有类的标签进行再一次的筛选,通过筛选的类簇才作为结果进行返回,保证标签的可读性。在实现该搜索引擎的同时,本文对该系统的性能进行了分析,实验结果表明该系统对中文的支持较好,聚类算法所花费的时间和分类能力比较令人满意,类标签的质量有了一定的提升,无意义类标签数量明显减少。下面给出该系统存在的一些问题和应该改进的方向:1.本系统仅对检索信息的标题和摘要进行聚类,并未赋予其权值,在以后的信息采集过程中,除了可以为标题和摘要赋予权值比重外,还可以引入如段首段尾这些信息量强的内容,这样可以进一步增强文本特征,提高聚类效果。2.本系统实现的后缀树聚类算法是完全基于内存处理的,这对于处理结果的总量产生了制约,可以考虑将该聚类算法改进成一种外归并聚类算法,当处理结果超过一定数量级后,按用户需求提供二次聚类或多次聚类。3.目前中文同义词词库较少,未来可以加入中文同义词词典,在聚类中引入语义相似度计算方法,从而对语义上相近的类簇进行合并。(本文来源于《吉林大学》期刊2017-05-01)

王然[5](2016)在《主题元搜索引擎排序算法研究》一文中研究指出主题搜索引擎的产生是针对某种具体的组织、行业的网络信息来构建的,这是一个能够使该组织、行业的搜索要求满足的搜索引擎。随着网络信息的多元化形成,没有任何一种主题搜索技术能应用到所有的主题信息领域,而主题元搜索引擎的出现很好地解决了这个现象。主题元搜索引擎将元搜索引擎和主题搜索引擎相结合,在提高查全率的同时又进一步提高了查准率。其中搜索引擎的分词技术和排序技术是影响搜索结果的关键性。本文以开源的搜索引擎Nutch为原型,使用主题提取器在多个搜索引擎中提取种子站点,再从各种子站点上搜索关键词,实现搜索的主题化和多元化,提高了查准率和查全率。针对Nutch搜索引擎按字分词和排序效果差的问题,本文主要完成了以下两方面的工作:第一,参考各种资料以及相关中文分词插件文档,通过实验对Paoding,IKAnalyzer等中文分词器进行了时效性以及准确率等方面的对比,选取在大量文字分词时,时间和准确度等方面性能更优且有丰富的本地词库的ICTCLAS2015分词器,进行了Nutch中文分词模块的改进。第二,本文提出了结合使用Page Rank算法并加入本地浏览器书签作为参考因子的方法,对Nutch的评分机制进行了改进,提高了搜索结果的确切度。对改进后的算法进行了验证,通过对实验数据的分析说明了改进后的算法不仅可以提高PR值较高的页面的排序结果,而且对本地书签有相关性的搜索结果的排名有所提高。本文通过结合ICTCLAS2015中文分词插件和改良中文分词算法对Nutch搜索引擎系统进行了二次开发,在此基础上,结合网站PR值和本地书签影响因子对Nutch排序算法进行改进,经试验测试表明,改进后的算法在搜索结果更确切,更符合用户的需求。(本文来源于《华北电力大学》期刊2016-06-01)

田蒂[6](2016)在《基于用户检索意图的元搜索引擎研究》一文中研究指出网络数据每天都以人们所无法想象的速度衍生,网络数据的海量生产与高速传播,已使现有信息检索技术显得不尽人意。虽然信息检索水平已得到了很大的提高,然而面对网络数据的爆炸式增长,各检索工具的覆盖面、查准率逐步下滑。海量数据背景下,现有的搜索引擎已经完全不能满足用户对信息检索系统“准确性”、“高效性”的检索需求。为了获取准确的信息,用户只能通过花费大量时间,多次调用不同的检索工具。元搜索引擎的出现在一定程度上缓和了单个搜索引擎“查全率”低的矛盾,但以冗长的结果列表形式为用户呈现出各搜索引擎的检索结果,使得用户再次陷入“查询结果过载”的困境。为有效地提高检索系统的“查准率”、“查全率”,将数据挖掘、机器学习、人工智能技术应用于信息检索,实现检索工具的人性化、智能化已成为解决信息获取矛盾的新方案。构建中文搜索引擎,其中一项重要的技术指标就是:查询语句的语义理解,通过对查询语句进行语义分析,明确用户实际的信息需求。基于用户查询意图提供信息查找服务可以极大程度地提高查询结果的质量。元搜索引擎的构建必须明确信息检索的工作过程和各机制的内部实现原理,了解国内外关于元搜索的研究和发展水平,同时还应把握信息检索工具今后的发展趋势。本论文的主要研究工作为:首先,基于自然语言处理技术分析用户检索意图,明确用户查询目的,提取用户查询关键词;基于开放目录树,分析用户检索主题,然后依据主题相关性为用户提供搜索引擎调度策略;其次,基于投票理论计算各记录的全局相关性;然后,基于改进的后缀树算法对Web检索结果进行层次化聚类,利用特征词的共现频率和用户查询意图关键词提取类标识,依次递归生成层次化聚类结果。(本文来源于《吉林大学》期刊2016-05-01)

李自金[7](2016)在《元搜索引擎的结果合成算法研究》一文中研究指出搜索引擎为用户进行信息检索提供了很大的便利,但是研究表明,搜索引擎的资源覆盖率还是不能满足需求,而且在准确率方面也有待提高。元搜索引擎集成了多个独立的搜索引擎,它调用其成员搜索引擎来完成用户检索,最后统一处理返回的结果集,在一定程度上解决了搜索引擎存在的一些问题,得到了广泛使用。目前,有关元搜索引擎的核心技术研究有检索请求的分析与转换,成员引擎的调度算法,检索结果的合成算法等。本文的研究重点是元搜索引擎的结果合成机制,针对结果合成机制中的网页去重和结果融合排序两大部分进行了研究。结果去重和排序对元搜索引擎的性能非常重要,而现在有关元搜索引擎的去重和排序还存在许多不足之处,本文针对这些问题进行研究,论文的主要工作有:(1)本文系统性地研究了搜索引擎与元搜索引擎的体系结构及工作原理,并且对各自的国内外研究现状做了分析,并详细介绍了元搜索引擎的关键技术。(2)针对现有的搜索引擎与元搜索引擎中常用的网页去重算法进行了比较分析,研究了其优缺点,结合元搜索引擎的结果返回特点,提出利用返回结果的URL、标题和摘要的来去重的算法,并针对URL、标题和摘要各自的特点提出了不同的判别方法,使得去重算法更准确。(3)研究了元搜索引擎中经典的检索结果排序算法,对不同的排序算法的优缺点进行了分析总结,重点研究了 Borda投票排序法,针对Borda排序的不足,提出了结合位置关系与查询相似度的改进算法,并对结果位置的规范化方法和相似度计算方法进行了改进。(4)提出了一个元搜索引擎系统原型,在此系统之上对提出的去重算法和排序算法做了相应的实验,对实验结果进行了分析,验证了算法的性能。论文的最后对全文进行了总结,全面总结了本文的主要工作,创新点以及实验的过程,并对元搜索引擎的发展方向及以后的研究问题进行了阐述。(本文来源于《哈尔滨工程大学》期刊2016-01-01)

周承璐[8](2015)在《智能化元搜索引擎中多Agent系统架构的研究与实现》一文中研究指出随着互联网中信息量的不断增长,搜索引擎已经成为人们快速获取有效信息的重要手段,是人们日常生活中必不可少的工具之一。但是单一搜索引擎能够检索到的信息量有限;而且有多种搜索引擎并且各有其擅长的领域;同时,随着垂直搜索引擎的出现,搜索引擎之间的差异更为明显。因此人们通常需要根据搜索目的选用不同搜索引擎,这降低了用户的信息检索效率。元搜索引擎为用户提供了统一的访问接口,综合处理与分析来自多个搜索引擎的结果。它既能减轻用户的负担,也能有效地提高检索结果的全面性。元搜索引擎正逐步往个性化、智能化发展:通过智能学习用户的个人兴趣,元搜索引擎在保证检索结果查全率的同时,也能提高其准确性。关于元搜索引擎及其相关技术的研究主要考虑如何进行自动的成员搜索引擎、采用更好的结果合成算法以及建立良好的系统框架支持,以使得元搜索引擎更好地达成目标。本文介绍元搜索引擎系统中多Agent系统架构的研究与实现。首先,本文分析了目前元搜索引擎中的研究内容及多Agent系统在元搜索引擎研究中的发展现状。然后对于本文相关的技术进行了概述与介绍,包括元搜索引擎的相关技术、Agent的相关理论以及本文所采用的JADE开发框架。接下来设计了基于Agent的元搜索引擎系统框架模型,详细介绍了如何将传统的Web应用与多Agent系统相结合机制及多Agent系统的设计过程,包括系统中各类Agent的结构设计、角色及能力定义以及生命周期中的行为模式。随后将本文的设计方案与成熟的多Agent系统开发框架JADE相结合,实现了元搜索引擎中的多Agent系统,同时也在已有成果的基础之上,丰富了元搜索引擎的结果处理方法,增加其个性化特性。对系统的测试表明,本文所设计的系统中各类Agent通过相互协作,完成系统中的各项任务。同时本文还对系统在检索结果的个性化排序方面也进行了测试,结果证明搜索结果能够具有一定的个性化特性,达到了预定的研究目标。(本文来源于《西安电子科技大学》期刊2015-12-01)

龚庆侠,李凌,雷润玲[9](2015)在《免费生物医学语义元搜索引擎——Quertle检索特点探析》一文中研究指出据统计分析,检索文献在科研工作中占70%的时间。哪一位科研人员、查新员不愿意检索文献简单高效,用最少的时间检索到最相关的文献,避免阅读相关度不大的文献。近年来研发使用的网络发现系统较多,如SUMMON系统、超星中文发现系统等,方便了用户一站式检索多种数据库资源,节省时间和精力。业有专长,学有专攻。(本文来源于《中华医学会第二十一次全国医学信息学术会议论文汇编》期刊2015-06-18)

李青山,王俊,褚华,季陶然[10](2015)在《基于Agent的智能化元搜索引擎个性化机制》一文中研究指出大数据环境下,信息量过载,人们需要精准、智能的检索工具.本文研究了基于Agent的智能元搜索引擎中的个性化机制,准确地理解用户的搜索意图,有效地提高了信息检索的服务质量.文中着重研究基于Agent的智能元搜索引擎个性化方法及功能实现所需的相关理论与技术,给出了查询语句分析与查询兴趣挖掘及成员搜索引擎调度过程,设计了基于动态学习的复杂查询识别机制,基于动态更新的用户兴趣概貌模型的检索兴趣挖掘机制,以及基于概念格与日志分析的搜索引擎评估调度策略机制.最后,针对复杂查询语句识别、搜索引擎调度策略效果及检索结果相关性的测试结果表明,本文提出的基于Agent的智能元搜索引擎个性化机制,可较为准确地识别出复杂的查询语句并进行预处理,高效学习用户的查询兴趣,达到明显提高检索结果相关程度的目的,并智能化地调度成员搜索引擎,为提高用户信息检索效率提供充分支持,从而提高用户的检索体验.(本文来源于《中国科学:信息科学》期刊2015年05期)

多元搜索引擎论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

元搜索结果合成是将多个成员搜索引擎的检索结果进行结果融合的过程。结果合成技术作为元搜索引擎中的关键技术之一,直接影响用户对元搜索引擎的满意度评价。已有的结果合成技术采用单一的排序算法对结果重排序,然而单一算法在不同的网页结果重迭率下表现不一,导致在不同查询词下用户的查询效果差异显着,影响了元搜索引擎的性能。针对该问题,本文提出一种基于Agent的动态结果合成方法,选取多个排序算法作为成员排序算法,利用智能Agent感知当前查询词下的结果重迭率,根据重迭率动态调度其中最优的一种成员排序算法进行结果合成,从而缩小不同查询词间的查准率差异,提高用户满意度。本文的主要贡献包括设计动态结果合成策略以及设计基于Agent的结果合成子系统,具体的工作内容有:(1)通过分析单一算法的局限性,确定动态调度排序算法的策略。该策略选择多个算法作为成员排序算法,将结果重迭率作为算法调度条件。论文使用静态经验学习确定动态调度策略,即确定在当前结果重迭率下的最优算法。(2)设计结果合成过程中的去重,确定去重使用的方法及流程,同时确定结果重迭率计算公式。(3)由于当前的成员搜索引擎返回的结果不包含网页的初始相关分值,因此论文使用逻辑回归方程估计CombMNZ算法和SDM算法的初始相关分值。(4)根据论文的成员排序算法选择标准,确定动态调度的成员排序算法,同时分析这些算法的算法思想和计算公式。(5)利用用户点击日志数据分析用户对成员搜索引擎的偏好和用户的检索主题兴趣,使用成员搜索引擎权重和用户兴趣权值修正动态合成的结果,实现基于用户兴趣的结果合成。(6)在“智搜”元搜索引擎上实现基于Agent的结果合成子系统,分析系统结构图并对子系统中的各Agent模块进行分析。(7)设计实验验证论文所做的工作,实验分为叁部分:在动态结果合成实验中,将本文提出的方法与Borda Fuse、CombMNZ等算法进行对比,验证了基于Agent的动态结果合成方法具有较高的查准率;在基于用户兴趣的结果合成实验中,对比登录用户与未登录用户进行相同检索时返回的结果序列,验证了添加用户兴趣因素后系统能够满足用户的兴趣需求;在基于Agent的结果合成性能实验中,对比使用Agent的结果合成与未使用Agent的结果合成所需时间,验证了使用多Agent系统实现结果合成在时间性能上具有的一定优越性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

多元搜索引擎论文参考文献

[1].刘登洪,徐贤.元搜索中成员搜索引擎的选择问题研究[J].计算机科学.2017

[2].刘文苑.元搜索引擎中基于Agent的结果合成方法的研究[D].西安电子科技大学.2017

[3].李英健.元搜索引擎中基于用户信息与行为的推荐方法的研究[D].西安电子科技大学.2017

[4].陈建华.基于后缀树聚类算法的元搜索引擎的设计与实现[D].吉林大学.2017

[5].王然.主题元搜索引擎排序算法研究[D].华北电力大学.2016

[6].田蒂.基于用户检索意图的元搜索引擎研究[D].吉林大学.2016

[7].李自金.元搜索引擎的结果合成算法研究[D].哈尔滨工程大学.2016

[8].周承璐.智能化元搜索引擎中多Agent系统架构的研究与实现[D].西安电子科技大学.2015

[9].龚庆侠,李凌,雷润玲.免费生物医学语义元搜索引擎——Quertle检索特点探析[C].中华医学会第二十一次全国医学信息学术会议论文汇编.2015

[10].李青山,王俊,褚华,季陶然.基于Agent的智能化元搜索引擎个性化机制[J].中国科学:信息科学.2015

论文知识图

并发多元搜索引擎结构图并发多元搜索引擎序列图个性化多元搜索引擎模型个性化多元搜索引擎模型结构外文电子资源统一检索界面和检索corba的...基于主题爬虫的个性化信息采集模型

标签:;  ;  ;  ;  ;  ;  ;  

多元搜索引擎论文_刘登洪,徐贤
下载Doc文档

猜你喜欢