导读:本文包含了主题式搜索论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:搜索引擎,主题,相似性,信息检索,文本,页面,论文。
主题式搜索论文文献综述
马奕平,庄敏,叶延风,张霞[1](2008)在《基于伪爬行器的主题式元搜索引擎研究与设计》一文中研究指出为提高搜索的查准率和查全率,设计一个主题式的元搜索引擎和一个类似于爬行器的伪爬行器,通过调用通用搜索引擎采集信息,查全率高于通用搜索引擎。利用反馈机制,参考用户查询历史记录,搜索结果更加接近用户的要求。通过采用主题式策略,改进文档相似度算法,提高分类的正确率和搜索引擎的查准率与搜索范围,同时减少系统响应时间,降低对服务器性能的要求。(本文来源于《计算机工程》期刊2008年22期)
张霞[2](2007)在《主题式搜索引擎中Web页面检索与推荐技术的研究》一文中研究指出Web页面检索和推荐是搜索引擎中网络信息处理的重要组成部分,它可以自动地从网络文档中发现和抽取用户感兴趣的信息,对于构建主题式的搜索引擎具有重要作用。本文对主题式搜索引擎中的Web页面检索和推荐技术进行了研究,所完成的主要工作有:1、在分析了当前搜索引擎的工作原理及关键技术、比较研究了典型的通用搜索引擎与主题搜索引擎的基础上,提出了将两者结合起来的思想,设计了基于元搜索的特定主题的搜索引擎MBTSE系统。2、针对系统中页面检索所遇到的问题,研究分析了文本过滤和常用的页面检索模型,为克服实际检索中计算量大的困难,提出并实现了一种将快速检索算法运用到文本过滤的页面检索思想,在实验中验证了该方法的可行性。3、针对页面相似性问题,提出了一种改进的页面相似度度量方法,并对此度量方法做了详细的理论分析和实验验证。同时,把改进的相似度度量运用到KNN分类算法中,提出了一种改进的MKNN决策规则,并与原KNN决策规则作了对比实验,实验结果表明此改进提高了平均正确率。4、通过对网页结构的分析,对网页进行一系列的预处理操作,包括网页解析、过滤停用词、词根还原、特征提取以及最后生成单词的特征向量空间表示和ngram的网页表示。5、研究分析了基于LOF的孤立点挖掘算法,提出了通过孤立点挖掘来实现主题式搜索引擎中基于内容的页面主动推荐,用于自动地、主动地发现相关主题领域的研究新发现,体现了搜索引擎智能化的思想。同时,从用户的角度出发,提出了一种根据概率来求孤立因子阈值的top-n%方法,并采取文本嵌入主题的方法对提出的方案进行了实验,验证了从top-n到top-n%的改进在发现web页面孤立点上有效可行。(本文来源于《南京航空航天大学》期刊2007-01-01)
程传鹏,郑源[3](2006)在《基于元搜索的主题式WebCrawler的研究》一文中研究指出利用元搜索引擎的原理提出了一种基于元搜索的主题式WebCrawler,结合主题式信息检索的特点对PageR-ank公式进行了一定的改进,并把改进后的PageRank公式应用到页面主题相关性的判断上.(本文来源于《中原工学院学报》期刊2006年02期)
赖俊,周琳,张学平[4](2004)在《基于Web挖掘的主题式搜索引擎的设计》一文中研究指出如何快速有效地从海量的网络信息中,挖掘出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用,是急需解决的问题。文中通过对全文检索式搜索引擎和目录结构式搜索引擎的分析,介绍了一种基于Web挖掘的主题式搜索引擎,并详细的描述了它的设计。(本文来源于《军事通信技术》期刊2004年03期)
主题式搜索论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
Web页面检索和推荐是搜索引擎中网络信息处理的重要组成部分,它可以自动地从网络文档中发现和抽取用户感兴趣的信息,对于构建主题式的搜索引擎具有重要作用。本文对主题式搜索引擎中的Web页面检索和推荐技术进行了研究,所完成的主要工作有:1、在分析了当前搜索引擎的工作原理及关键技术、比较研究了典型的通用搜索引擎与主题搜索引擎的基础上,提出了将两者结合起来的思想,设计了基于元搜索的特定主题的搜索引擎MBTSE系统。2、针对系统中页面检索所遇到的问题,研究分析了文本过滤和常用的页面检索模型,为克服实际检索中计算量大的困难,提出并实现了一种将快速检索算法运用到文本过滤的页面检索思想,在实验中验证了该方法的可行性。3、针对页面相似性问题,提出了一种改进的页面相似度度量方法,并对此度量方法做了详细的理论分析和实验验证。同时,把改进的相似度度量运用到KNN分类算法中,提出了一种改进的MKNN决策规则,并与原KNN决策规则作了对比实验,实验结果表明此改进提高了平均正确率。4、通过对网页结构的分析,对网页进行一系列的预处理操作,包括网页解析、过滤停用词、词根还原、特征提取以及最后生成单词的特征向量空间表示和ngram的网页表示。5、研究分析了基于LOF的孤立点挖掘算法,提出了通过孤立点挖掘来实现主题式搜索引擎中基于内容的页面主动推荐,用于自动地、主动地发现相关主题领域的研究新发现,体现了搜索引擎智能化的思想。同时,从用户的角度出发,提出了一种根据概率来求孤立因子阈值的top-n%方法,并采取文本嵌入主题的方法对提出的方案进行了实验,验证了从top-n到top-n%的改进在发现web页面孤立点上有效可行。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
主题式搜索论文参考文献
[1].马奕平,庄敏,叶延风,张霞.基于伪爬行器的主题式元搜索引擎研究与设计[J].计算机工程.2008
[2].张霞.主题式搜索引擎中Web页面检索与推荐技术的研究[D].南京航空航天大学.2007
[3].程传鹏,郑源.基于元搜索的主题式WebCrawler的研究[J].中原工学院学报.2006
[4].赖俊,周琳,张学平.基于Web挖掘的主题式搜索引擎的设计[J].军事通信技术.2004