导读:本文包含了潜在语义索引论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:语义,索引,文本,向量,模型,互联网,不良信息。
潜在语义索引论文文献综述
贾君枝,叶壮壮[1](2019)在《基于潜在语义索引的Wikidata机构实体聚类研究》一文中研究指出【目的】Wikidata机构类目范畴树中,存在实例数目过多而使类目的外延过大、不能明确指示及类分资源的问题。为系统化机构名称层级体系,需将这些实例进行划分,使其均衡分布在机构范畴树的各层。【方法】将无监督的层次聚类算法用于解决无类别标签的机构实例的自动聚簇问题。为消除机构实体名称中特征词共现对聚类算法的影响,引入Wikidata中机构实体的相关属性作为其上下文环境。同时聚类算法对数据的维度十分敏感,因此采用潜在语义索引作为文本表示模型,通过奇异值分解将高维数据映射到潜在的低维语义空间。【结果】本文方法在实验数据集上的聚类准确率达到87.3%,取得了较好的聚类效果。【局限】仅在小样本数据集上进行验证。【结论】为机构名称提供上下文环境有利于同类机构的聚集,基于潜在语义索引模型的层次聚类算法对于高维度的文本聚类问题是有效的。(本文来源于《数据分析与知识发现》期刊2019年10期)
黄鑫溢,周维民[2](2017)在《基于潜在语义索引的职位描述聚类研究》一文中研究指出本研究鉴于某公司职位描述存在的特点以及其所带来的问题,对其展开研究。由于职位描述中的文本字数少、数量多,特征维数较高,样本特征稀疏,不能很好的抽取出文本关键特征。针对这些问题,我们用潜在语义索引模型(LSI)对文本进行特征提取,分析潜在语文空间维度对聚类性能的影响,然后根据提取的特征进行K-means聚类,能有效降低简历匹配筛选过程中的职位类别数,提高了简历匹配的效率。(本文来源于《网络新媒体技术》期刊2017年03期)
侯泽民,巨筱[3](2014)在《一种改进的基于潜在语义索引的文本聚类算法》一文中研究指出提出一种改进的基于潜在语义索引的文本聚类算法。算法引入潜在语义索引理论,改进传统的SOM算法。用潜在语义索引理论表示文本特征向量,挖掘文本中词与词之间隐藏的语义结构关系,从而消除词语之间的相关性,实现特征向量的降维。改进传统的SOM算法的局限性,准确给出聚类类别数目的值。实验结果表明,本算法的聚类效果更好,聚类时间更少。(本文来源于《计算机与现代化》期刊2014年07期)
毕臣,季铎,蔡东风[4](2014)在《基于专利信息的潜在语义索引优化技术的研究》一文中研究指出以专利文献为基础,结合特征传递共现对映射潜在语义空间的影响,提出了基于专利信息的潜在语义索引优化方法。该方法根据专利文献的分解细节信息,将单独的专利文献分解为多个子文档和伪文档,使同一类别文档内特征共现度升高、不同类文档间特征共现度降低,从而使对应的潜在语义空间更加合理。同时提取专利核心特征构建专利信息伪文档,增强合理共现信息的出现频率。实验结果证明,专利文本分类任务结合本方法时,可以有效地提高分类的准确性。(本文来源于《山西大学学报(自然科学版)》期刊2014年01期)
刘勘,朱芳芳[5](2014)在《基于潜在语义索引的科技文献主题挖掘》一文中研究指出提出了一种基于潜在语义的科技文献主题挖掘方法,描述了科技文献的主题挖掘模型。对科技文献集进行预处理,计算特征词权重,构造出词汇-文献矩阵。用改进的LSI算法对稀疏矩阵进行降维得到固定的主题-文献矩阵。取权重最高的主题作为该文献的主题。该方法利用Frobenius范数来规范矩阵,对稀疏矩阵进行降维,可以快速精确地挖掘出科技文献的主题。(本文来源于《计算机工程与应用》期刊2014年24期)
吴志媛[6](2013)在《基于潜在语义索引的Web文本挖掘》一文中研究指出当今社会已跨入互联网时代,人们生活也因它而改变,互联网已然成为人们学习、工作和休闲的好帮手。然而,随之带来的负面影响却是人们对繁多杂乱的信息不知所措。因此,如何有效的挖掘浩瀚的文本信息中自己想要的内容,是研究人员面临的一大难题。在信息领域里,对于Web文本聚类的研究,逐步进入热潮。Web文本的预处理中,首先分析网页的结构,了解“噪音”,使用本文提出的基于HTML标签的网页清洗算法进行“去噪”处理,去除杂质,留下与主题相关的Web正文文本。然后,在矩阵元素的权重计算时,考虑了HTML不同标记的权值,本文重新给出了权重计算方法。最后,得到原始的“文本--特征词”矩阵。针对中文词语固有的同义、多义等特性,引入LSI和PLSI模型,达到对原始矩阵的降维去噪的目的。同时,对潜在语义索引进行概率化,得到PLSI的模型优化;提出网页的概率潜在语义信息(WPLSI)算法。通过PLSI模型,WPLSI算法将原始矩阵的向量空间投影到另一个空间,称之为“网页的概率潜在语义向量空间”。在低维的概率语义空间中,计算文本向量间的语义相似度。使用HAK-mediods算法对所有的语义向量进行聚类,达到对语义特征的二次降维。最后,在互联网用户的兴趣点挖掘和大众分类系统的基础上,搭建了Web文本聚类的实验平台,并选用划分的算法、层次算法,和提出的HAK-mediods算法进行实验对比。实验结果证明了本文提出的聚类算法的聚类效果更好,有利于系统发现用户的兴趣所在,从而作出更加精准的推荐。(本文来源于《江南大学》期刊2013-06-01)
何靖侃[7](2012)在《基于潜在语义索引的LYNC即时消息过滤研究》一文中研究指出Lync Server2010是微软最新一代整合通讯产品,即为大家所熟知的Office Communications Server2007R2的下一版本。在即时通信提供信息传输便利的同时,一些不法分子也趁机利用这些工具来传输大量的反动言论、宣扬邪教、暴力色情、攻击性链接等不良信息。增加对即时消息的监控手段,提高信息过滤的能力便成为不少企业的需求,不良信息过滤日益引起人们的重视。目前在即时通信工具方面,尤其是微软的LYNC产品,市面上针对该应用的现成的过滤工具寥寥无几,甚至可以说是为零,这也突显了该课题研究的迫切性和必要性。本文首先指出基于关键字过滤技术对于文本过滤的不足,引出采用智能过滤的方法来提高文本过滤的必要性。然后重点介绍潜在语义索引(LSI),支持向量机(SVM)等相关技术点的算法原理及代码实现,通过微软LYNC服务器提供的公共接口MSPL来实现即时消息过滤引擎的嵌入。最后,完成基于潜在语义索引的LYNC即时消息过滤的代码整合。另外,关于创建训练集、样本过滤、特征值选取等等技术点,本论文依次加以解决并最终实现LYNC即时消息过滤的解决方案。最后,通过实验方法来验证该设计模型精确度优于关键字匹配算法。(本文来源于《复旦大学》期刊2012-10-22)
冯霞,闫冠男,李娟娟[8](2011)在《一种基于潜在语义索引的谱聚类方法研究》一文中研究指出传统的文本聚类算法存在文本向量维度过高,算法易陷入局部最优问题。针对上述问题,提出了一种适用于文本的基于潜在语义索引的谱聚类方法,该方法应用了潜在语义索引和谱聚类方法的优点,不仅分析了词与词之间的语义关系,而且适用于任意形状分布的样本数据聚类。针对航空安全报告的聚类实验表明,该方法取得了较好的聚类效果。(本文来源于《中国民航大学学报》期刊2011年03期)
苏再强[9](2011)在《基于ATN算法和潜在语义索引的不良信息过滤系统研究》一文中研究指出近年来,互联网取得了突飞猛进的发展,网络信息越来越丰富,呈指数级增长,到现在为止,全世界已有几亿个网站。然而,任何事物都有两面性,在互联网飞速发展的同时,大量不良信息在网上肆无忌惮的传播,给社会治安、人民的正常生活带来了极大的负面影响。在这种情况下,过滤现有网络资源中的不良信息是当前计算机研究人员必须面对的挑战。论文分析了当前互联网存在的严峻形势,总结了当前常用的叁种不良信息过滤技术的相关概念、特点以及相关产品,分析对比了叁种过滤技术的过滤效果,优点与不足。并在此基础上设计了一个基于扩充转移网络算法(ATN, Augmented Transition Network)和潜在语义索引(LSI, Latent Semantic Indexing)的不良信息过滤系统。在系统中用ATN算法来代替传统的基于字符串匹配的分词算法,由于该算法基于汉语词法、语法规则,所以在分词处理结果上有更高的准确性。用潜在语义索引算法取代传统简单的向量空间模型来做信息的过滤,该算法在处理汉语“一词多义”和“多词一义”有很好的效果。为了将过滤成果应用到实践中,系统将过滤结果以PICS标签的形式保存在数据库中以便推广应用。最后为了验证系统过滤性能,用中国教育和科研计算机网紧急响应组(CCERT, China Education and Research Network Emergency Response Te-am)提供的中文邮件数据集(CDSCE, CCERT Data Sets of Chinese Emails)做了实验验证,结果表明,系统设计合理,过滤效果较好。(本文来源于《西南交通大学》期刊2011-05-01)
王瑛[10](2010)在《基于VSM的潜在语义索引》一文中研究指出传统向量空间模型信息检索技术,只是统计关键词在文档中出现的频度,检索结果不能反映出文档的相关性.为了解决关键词检索时潜在语义的挖掘问题,提出了一种基于向量空间模型的潜在语义索引的改进算法.对比实验证明,该算法能够有效提高检索查准率.(本文来源于《陕西科技大学学报(自然科学版)》期刊2010年05期)
潜在语义索引论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本研究鉴于某公司职位描述存在的特点以及其所带来的问题,对其展开研究。由于职位描述中的文本字数少、数量多,特征维数较高,样本特征稀疏,不能很好的抽取出文本关键特征。针对这些问题,我们用潜在语义索引模型(LSI)对文本进行特征提取,分析潜在语文空间维度对聚类性能的影响,然后根据提取的特征进行K-means聚类,能有效降低简历匹配筛选过程中的职位类别数,提高了简历匹配的效率。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
潜在语义索引论文参考文献
[1].贾君枝,叶壮壮.基于潜在语义索引的Wikidata机构实体聚类研究[J].数据分析与知识发现.2019
[2].黄鑫溢,周维民.基于潜在语义索引的职位描述聚类研究[J].网络新媒体技术.2017
[3].侯泽民,巨筱.一种改进的基于潜在语义索引的文本聚类算法[J].计算机与现代化.2014
[4].毕臣,季铎,蔡东风.基于专利信息的潜在语义索引优化技术的研究[J].山西大学学报(自然科学版).2014
[5].刘勘,朱芳芳.基于潜在语义索引的科技文献主题挖掘[J].计算机工程与应用.2014
[6].吴志媛.基于潜在语义索引的Web文本挖掘[D].江南大学.2013
[7].何靖侃.基于潜在语义索引的LYNC即时消息过滤研究[D].复旦大学.2012
[8].冯霞,闫冠男,李娟娟.一种基于潜在语义索引的谱聚类方法研究[J].中国民航大学学报.2011
[9].苏再强.基于ATN算法和潜在语义索引的不良信息过滤系统研究[D].西南交通大学.2011
[10].王瑛.基于VSM的潜在语义索引[J].陕西科技大学学报(自然科学版).2010