导读:本文包含了文本分类信息检索论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:文本,信息检索,爬虫,特征,搜索引擎,分词,向量。
文本分类信息检索论文文献综述
田永刚[1](2016)在《基于文本分类技术的WEB校友信息检索系统实现》一文中研究指出在当今这个信息技术发展越来越迅猛的时代,尤其是Web的广泛普及和应用,Web上的信息也呈现着飞速增长的趋势,并逐渐积累成巨大的信息资源库。然而,面对目前Internet上依旧在不停增多的信息资源,怎样才能快速和精确地从这巨大的信息资源库中,检索到自己所需要的具体信息资料便成了一项值得探索和研究的课题。对于学校从事校友工作的部门来说,校友信息挖掘和收集是校友工作的一项非常重要的基础性工作。如今的Internet包含了众多各个时代,各个行业和人群的资料信息,其中便包括了很多校友的个人资料,生活状态,工作简历或是与校友相关的活动报道等等。在一般情况下,我们在Internet上查找校友的相关信息的时候,通常会直接通过搜索引擎来查找,但是由于搜索引擎反馈回来的搜索结果太多,并且夹杂着很多混乱的信息甚至有一些存在安全隐患的网页链接,所以从搜索结果中判断真假对错,挑选出有用的数据信息也是一项庞大而且繁琐的工作。因此,为了提高校友信息检索者的工作效率和检索精准度,建立一个自动、全面、详细并且精准的“Internet校友信息搜索系统”,必然会给校友工作人员带来很多便捷和帮助。建立一个这样的系统是非常实用并且有意义的。本文研究了关于文本分类技术的校友信息检索方法,深入地解释和分析了关于在Internet上进行校友信息检索的特点和目前所面临的难点。并且,在两次分类方法的基础上,设计了一个基于互联网的校友信息检索系统。本文的工作如下:1.简要介绍了互联网上校友信息的分布特点,以及由此产生的学习模型的泛化能力不足和维灾难问题;2.采用了两次分类的方法来完成校友信息的分类,这两次校友信息分类提高了检索结果的准确率和全面性;3.使用启发式规则将校友的名字和相关关键词在检索结果中进行辨识;4.根据以上所述的相关校友信息检索方法,本文使用JAVA语言建立起一个基于互联网的校友信息检索系统。该系统借助互联网搜索引擎技术以及网页爬虫来随时和及时的检索互联网和校友相关的各类信息。(本文来源于《天津大学》期刊2016-11-01)
李静,杨小帆,孙启干[2](2012)在《面向Web信息检索的虚核文本分类算法》一文中研究指出提出一种虚核文本分类算法。通过单类别下标记数据的特征词频计算该类别虚核在每个特征项处的特征引力场强,进而获得类别虚核,根据类别虚核对待标记文本产生的引力大小判断其所属类别。实验结果表明,与k近邻算法和朴素贝叶斯算法相比,虚核算法在分类精度和时间开销方面具有较大的优势。(本文来源于《计算机工程》期刊2012年10期)
贾志洋,高炜,王勇刚[3](2012)在《结合信息检索技术的半监督文本分类方法》一文中研究指出搜索引擎的查询结果和查询关键词与某一个文本类别应该具有一定关联.基于这样的假设,针对文本分类问题,根据小样本集提取特征词构建查询并从查询结果中下载网页样本,将下载的网页样本进行去重、去噪、提取正文等处理后,判断其类别并扩充到初始样本集,最终使用扩充后的实验样本集学习训练朴素贝叶斯文本分类器,并对分类器的分类效果进行了测试.实验结果表明,结合信息检索技术的半监督分类器的分类准确率相对于使用小样本构建的分类器具有较大的提高.(本文来源于《苏州大学学报(自然科学版)》期刊2012年01期)
海丽且木·艾沙,维尼拉·木沙江[4](2010)在《Web文本分类及其维、哈、柯多文种信息检索中的应用研究》一文中研究指出研究维、哈、柯多文种信息检索中web文本分类问题。根据维、哈、柯Web文本具有结构信息的特点,提出了分类系统框架,采用了基于KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了KNN分类算法。实验表明,KNN方法在Web文本分类中能够获得较好的分类效果。(本文来源于《少数民族青年自然语言处理技术研究与进展——第叁届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集》期刊2010-06-27)
刘冬雪[5](2010)在《文本分类技术在信息检索中的应用》一文中研究指出本文研究的内容是信息检索领域里的文本分类问题。文本分类可以在较大程度上解决信息杂乱的现象,同时它也为信息检索提供了更高效的搜索策略和更有效的搜索结果。(本文来源于《科技资讯》期刊2010年18期)
彭毅[6](2009)在《基于潜在语义索引的文本分类及其在科技信息检索中的研究》一文中研究指出随着科技的进步,科技创新越来越受重视,但目前科技项目评审缺乏科技创新参考指标,因此需要对以往科技项目创新性指标进行分类,提高科技项目评审的质量。采用传统的基于向量空间模型的方法不能满足查全率和查准率的需要,因此论文给出潜在语义索引的文本分类模型,以提高查全率和查准率。本文在潜在语音索引/奇异值分解的基础上,分析奇异值分解方法在实际分类中所存在的问题,引入偏最小二乘法来替代奇异值分解方法。通过对全局潜在语义索引分类模型的实验,发现该分类模型整体上具有良好的分类稳定性和准确度。但是这种全局潜在语义索引分类模型对稀有类别的分类效果比较差,为此,进一步引入局部潜在语义索引分类模型。同时为了进一步降低存局部潜在语义分类的存储空间的开销,采用半离散分解方法替代奇异值分解方法。通过实验,发现局部潜在语义模型能很好地解决了稀有类别的分类问题,并且全部类别的查全率和查准率都有一定的提高。实验语料采用标准中文语料和科技项目信息语料两种语料,以提高分类模型上的通用性。本文在潜在语义索引的基础上,通过对全局潜在语义分类模型和局部潜在语义分类模型的研究,发现潜在语义索引能一定程度上提高文本分类的性能。(本文来源于《中南大学》期刊2009-05-01)
彭耶萍,肖大光[7](2008)在《个性化信息检索中的文本分类方法》一文中研究指出个性化信息检索使得搜索引擎能满足不目的,背景的用户的查询需求,该文主要探讨了个性化信息检索中常用的文本分类算法。(本文来源于《电脑知识与技术》期刊2008年29期)
王军[8](2007)在《基于文本分类的WEB信息检索技术的研究》一文中研究指出随着Internet的迅猛发展,搜索引擎已经成为人们处理Web信息、获取信息资源的必备工具。传统的搜索引擎,即通用搜索引擎不能满足人们对个性化信息检索服务日益增长的需要。近年来,基于文本分类技术的面向专题的搜索引擎应运而生,以提供分类更细致精确的Web信息检索服务。文本自动分类是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。文本自动分类技术能够有效地将文本信息组织管理起来,帮助人们准确高效的定位文本信息,为用户获取所需信息提供有力的支持。文本分类的关键技术主要包括向文本表示模型、特征项赋权、特征选取、分类器构建等,本文对这些技术作了详细介绍和深入分析。本文在向量空间模型基础上,通过针对常用的特征权重计算方法TF-IDF的分析,提出了一种新的权值计算方法。该权值计算方法将特征评估函数包含到特征权值计算中,按照特征对文本分类的辨别能力调整其在权重计算中的贡献。网页是一种超文本文档,其中含有文本信息和许多超文本标记等结构信息。本文通过分析HTML标记对特征值权重的影响,在特征赋权方面,提出了结合TF-IDF与HTML标记分布信息的权重计算法。实验结果表明改进的权重计算法对分类精度有所提高。本文介绍了Lucene搜索架构以及Lucene各个模块的组成和使用,利用开源的Lucene引擎架构设计一个搜索测试系统。(本文来源于《大连交通大学》期刊2007-12-23)
刘涛[9](2006)在《现代信息检索中的文本分类及图像恢复研究》一文中研究指出信息化的飞速发展使各种信息呈现爆炸式增长,这给人们的工作、学习和生活提供了极大便利,但淹没于大量无用、重复信息之中的有用信息很难通过人工的方法被全面准确地提取出来,人们陷于信息提取的泥潭中,快速有效的信息检索技术成为了唯一的解决方案。信息检索主要包含两个部分:按照科学的体系结构对信息进行归类和获取用户真实意图,反馈给用户所需的信息。前者是提高效率的关键,本文的研究则集中于信息归类,围绕中文文本分词、特征选择和分类方法以及图像检索中的模糊图像恢复等关键技术展开探索。研究过程使用了理论分析和计算机实验验证两种主要方法。以理论分析确定实验目的,指导实验方法;以实验数据支持理论分析,推动更深入的理论分析。 本文首先介绍了信息检索的发展现状,结合本论文的主要研究内容论述了信息检索中的关键技术,对本论文的内容安排和主要创新作了说明。而后,从总体上介绍了自动文本分类系统的组成结构和功能,为后面的研究打下了基础。本论文所作的创新主要包括以下几个部分: 现有机械分词方法准确率偏低,对后续特征选择和分类造成了破坏,影响了文本分类精度;非机械分词法虽然有较好的分词精度,但是时间和/或空间复杂度较高,不易实现。针对上述问题,本文提出了一种对最大匹配法进行改进得到的预测最大匹配分词方法。预测最大匹配法通过对长词出现可能性和起始位置进行预测,使分词过程更符合长词优先准则。通过对新方法分词性能和时间复杂度的分析,证明了该方法以较小的复杂度增加为代价明显提高了分词准确性,接近全局最大匹配的性能。 以词为特征表示中文文本时特征维数较高,需要剔除对分类贡献小的特征。现有特征选择方法基于词与词之间相互独立的假设,属于标量特征选择。实际上词与词之间存在很强的的相关性,本文提出了基于期望交叉熵的向量特征选择方法,兼顾了词与类别及词与词之间的相关性。本文还研究了使用K-L变换和奇异值分解特征生成的方法。实验证明在(本文来源于《北京邮电大学》期刊2006-05-01)
文本分类信息检索论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
提出一种虚核文本分类算法。通过单类别下标记数据的特征词频计算该类别虚核在每个特征项处的特征引力场强,进而获得类别虚核,根据类别虚核对待标记文本产生的引力大小判断其所属类别。实验结果表明,与k近邻算法和朴素贝叶斯算法相比,虚核算法在分类精度和时间开销方面具有较大的优势。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文本分类信息检索论文参考文献
[1].田永刚.基于文本分类技术的WEB校友信息检索系统实现[D].天津大学.2016
[2].李静,杨小帆,孙启干.面向Web信息检索的虚核文本分类算法[J].计算机工程.2012
[3].贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报(自然科学版).2012
[4].海丽且木·艾沙,维尼拉·木沙江.Web文本分类及其维、哈、柯多文种信息检索中的应用研究[C].少数民族青年自然语言处理技术研究与进展——第叁届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集.2010
[5].刘冬雪.文本分类技术在信息检索中的应用[J].科技资讯.2010
[6].彭毅.基于潜在语义索引的文本分类及其在科技信息检索中的研究[D].中南大学.2009
[7].彭耶萍,肖大光.个性化信息检索中的文本分类方法[J].电脑知识与技术.2008
[8].王军.基于文本分类的WEB信息检索技术的研究[D].大连交通大学.2007
[9].刘涛.现代信息检索中的文本分类及图像恢复研究[D].北京邮电大学.2006