语义相似度量论文-林泽东,曾庆田,段华,鲁法明,邹杰

语义相似度量论文-林泽东,曾庆田,段华,鲁法明,邹杰

导读:本文包含了语义相似度量论文开题报告文献综述及选题提纲参考文献,主要关键词:用户行为相似度,文本语义相似度,相似性度量,EMD距离

语义相似度量论文文献综述

林泽东,曾庆田,段华,鲁法明,邹杰[1](2018)在《支持活动语义度量的用户行为相似度计算方法》一文中研究指出针对基于活动序列的用户行为相似性度量方法未见考虑活动的语义相似性度量,提出一种支持活动语义度量的用户行为相似性计算方法。首先结合活动间的邻接关系与标签文本语义计算活动间的相似度;其次,定义了活动编辑权值函数和活动序列距离;最后,利用活动序列多重集建模用户行为并利用推土机距离计算用户行为相似度。与目前主流算法在度量性质可满足性、现实数据集实验评估等方面进行对比分析,验证了所提方法的可行性和有效性。(本文来源于《计算机集成制造系统》期刊2018年07期)

郭维威[2](2018)在《基于WEB的领域本体语义相似性度量方法研究》一文中研究指出语义相似性度量在信息检索和自然语言处理领域中起到重要的作用,本文分析了传统语义相似性度量的方法,针对现实领域本体中WEB搜索引擎检索信息的方式,提出了一种基于WEB的领域本体语义相似性度量方法,通过对该方法的理论验证和分析,所提出的方法可以有效的提高语义相似性的计算精度。(本文来源于《山东工业技术》期刊2018年15期)

刘超超[3](2018)在《新词分析与语义分析相结合的文本相似度量方法研究》一文中研究指出技术的进步和社会的发展使得互联网成为了人们日常生活中如影随形的必备物品,进而刮起的互联网化浪潮更是让人们在工作和生活中体验到了实质性的便利和高效。互联网凭借其技术优势依托于各种载体进行信息的传递,让人们成为了互联网化社会团体中的一个连接点。在这样一个互联世界中,追求的就是信息传递的高效和准确。硬件和基础设施技术的发展很好的解决了互联网追求的高效性问题。而准确性则不单单的依赖于基础技术的进步,落脚点则在算法和思想上,文本相似度计算就是算法分支的一个突破口和优化点,因此它一直以来都是研究的热点和难点。本文就旨在立足于前人的研究成果,着力寻找提升文本相似度计算的方法。已有研究成果基本分为两种方法:单一的余弦相似度方法和余弦相似度与语义相似度相结合的方法,通过对两种方法进行实验对比发现,余弦相似度与语义相似度相结合的方法取得的效果更加合理准确一些。余弦相似度计算相对简单,而语义相似度则更为复杂一些,多依托于语义网络或本体,而《知网》(HowNet)则是其依赖的一个权威知识库。本文就将《知网》作为研究对象,分析其建设原则和结构,发现了义原层次树的深度和局部密度影响语义相似度的计算结果,因此在考虑义原距离的基础之上,将义原层次树的深度和局部密度纳入到义原相似度计算的公式中。另一方面,根据《知网》的结构和语义描述,对《知网》中未登录的词语进行概念确定,进而计算其与其它词语之间的相似度。最后通过实验验证了本文提出的方法的合理性和可操作性,为文本相似度算法的优化和它在其应用领域的使用提供了参考。(本文来源于《西南科技大学》期刊2018-05-01)

周萍[4](2017)在《基于语义分析的文本相似性度量研究及应用》一文中研究指出文本相似性计算是通过对文本的内容、语法、结构等因素分析,建立算法模型计算文本之间的相似程度,是文本信息处理的关键技术。目前,文本相似性计算已广泛应用到智能检索、自动问答、文本查重等众多领域。部分文本相似性计算模型仅从统计意义上对文本相似性进行分析,对词语间携带的语义关系考虑不充分。针对这个问题,本文重点研究了如何运用知识图谱中所包含的语义信息来度量文本相似性并将其应用于文本检索领域。具体工作内容如下:(1)优化了基于word2vec的语义相似度模型。首先从词频、词性和位置对文本词汇进行加权处理,降低空间向量模型(Value Stream Mapping,VSM)中文本词频对相似性计算的影响。其次,引入word2vec中的Skip-Gram模型,从语义层面将相似词语的语法以及语义联系学习到词向量中,实现基于语义分析来度量文本相似性。最后与VSM模型和知网语义模型进行对比分析,实验证明,在最好情况下本文采用的方法相较于知网语义模型在执行时间上提升近3倍,相较于VSM模型准确率提升44%。(2)在语义理解的基础上构建了核领域的中文知识图谱。对批量下载的文本预处理后,对每篇新闻稿的书目部分进行语义标注,获取核领域概念、属性、实体间的关系,实现了核领域知识图谱的构建。(3)研究基于知识图谱的文本相似性度量方法。对于一个包含众多实体及实体间关系的知识图谱,判断实体间的相似度是提高文本相似性计算准确率的关键。本文采用一种通用的实体相似度计算方法,通过清洗噪声数据,从实体对所包含的不同属性值来度量实体间的相似性,提高文本相似性计算准确率。(4)将知识图谱与优化后的语义相似度计算方法相结合,构建核领域文本相似度计算方法,实现了一个核领域相关信息的检索系统。本系统在输入检索词时,会根据知识图谱给出相似检索词,借助知识图谱的语义关系,搜索引擎能够在一定程度上理解用户检索需求,对比传统的数据库检索及倒排索引检索方法,本系统在一定程度上良好地过滤了与检索条件不相关的文本信息,实现了语义检索功能,对信息检索服务具备一定的应用价值。(本文来源于《武汉工程大学》期刊2017-12-05)

贾小斌,艾廷华,彭子凤,王光霞[5](2016)在《地理信息语义的LOD表达与相似性度量》一文中研究指出提出一种实用性较强的地理信息语义表达及相似性度量模型,实现从地理信息语义建模到相似性度量的完整技术链条。在对地理信息语义表达的内容与尺度分析的基础上,提出地理信息语义描述的基本结构,并将其进一步细化为具有不同大小的语义粒度项,以构建出地理信息语义的细节层次(level of detail,LOD)表达模型,最后依据地理信息概念间相关语义粒度项的匹配关系实现地理信息语义相似程度的定量化计算,在实例分析中则以土地利用类型为例进行相似度计算的实验,通过实验结果与实际经验判断比较验证出该模型具有较强的实用性。(本文来源于《武汉大学学报(信息科学版)》期刊2016年10期)

胡维华,鲍乾,李柯[6](2016)在《结合汉明距离及语义的文本相似度量方法研究》一文中研究指出利用VSM模型的TF-IDF算法对文本进行相似度量是文本信息处理领域的常用做法,但是该方法涉及到高维稀疏矩阵的处理,计算效率不高,不利于处理大规模文本,同时该方法忽略词项语义信息对文本的影响.另有一种基于语义的相似度算法可克服前一种方法的语义缺点,但需要知识库的支持,其建立过程的繁杂使此类算法理论多过实践.为此提出一种新的文本相似度计算方法,方法综合TF-IDF算法以及HOWNET的语义信息,并利用汉明距离计算文本相似度,避开对高维稀疏矩阵的直接处理.实验结果表明,与常用方法相比较,处理速度更快、性能更好,适用于大规模文本处理.(本文来源于《杭州电子科技大学学报(自然科学版)》期刊2016年03期)

巴志超,李纲,朱世伟[7](2016)在《基于语义网络的研究兴趣相似性度量方法》一文中研究指出【目的】为准确识别研究内容相似但使用不同关键词的作者关系,解决传统共现分析方法缺乏语义关联的问题,提出一种基于关键词语义网络构建的作者研究兴趣相似性度量方法。【方法】通过引入word2vec模型对作者关键词进行词向量表示,将关键词表示成语义级别的低维实值分布;计算关键词之间的语义相关度并构造关键词语义网络,采用JS距离对构建的作者研究兴趣矩阵进行相似性度量。【结果】该方法能计算出共现及非共现词对的相关性,有效地挖掘出作者之间的潜在合作关系。【局限】训练语料的数量和准确性有待进一步提高,提出的度量方法仅考虑两个作者之间的潜在合作关系。【结论】研究结果对改进基于传统的共现分析方法度量作者合作关系具有重要的参考价值。(本文来源于《现代图书情报技术》期刊2016年04期)

高俊涛,王雪珊[8](2016)在《语义级业务过程模型相似性度量技术》一文中研究指出为了解决业务过程模型的语义异构问题,提出一种语义级业务过程相似性度量技术。基于语义相似度计算理论构造过程模型相似矩阵,通过迭代算法模拟相似度传播效应修正相似矩阵;运用匈牙利算法降低最佳匹配的时间复杂度,证明了匈牙利算法在相似性度量过程中的有效性;借鉴Jaccard系数定义业务过程综合相似度,并通过实验结果验证了该方法的有效性。(本文来源于《计算机集成制造系统》期刊2016年05期)

鲍乾[9](2016)在《结合汉明距离及语义的文本相似度量方法研究》一文中研究指出当今人类越来越重的网络依赖性令网络数据的规模呈现出爆炸性增长的趋势,文字作为重要载体,其相关的文本信息处理技术得到越来越多的关注。文本相似度量作为该技术的关键部分,其准确率直接影响文本信息处理的结果。目前文本相似度量方法的主流之一是利用向量空间模型(VSM)中向量关系来反应文本之间的相似程度,其概念简单、可计算性强。但该方法涉及到高维稀疏矩阵的处理,计算复杂度高,另外,它忽略语义信息对文本的影响。另有一种基于语义的相似度算法可克服此缺点。但需要特定领域的知识库支持,其建立过程的繁杂性,使此类算法理论多过实践。借鉴此二类算法,本文提出一种新方法(HSim)。该方法结合第一类方法中空间模型的优势,以及第二类方法中语义信息的优势,最后利用汉明距离来计算文本相似度,从而避开了对高维稀疏矩阵的直接处理。该方法一方面利用汉明距离克服第一类方法中高维稀疏矩阵低计算效率的缺点;另一方面,VSM模型与汉明距离的结合,使HSim直接利用语义词典作为参照,克服了第二类方法中特定领域知识库建立过程繁杂的缺点。实验利用训练语料以F度量与其他文本相似度量方法进行聚类比较。实验结果表明HSim方法较其他方法性能更为优越的同时,也存在一些适用性的不足。针对这些不足,本文针对算法步骤中的两次映射以及最后计算的输入集进行优化改进,并进行新的实验,实验结果表明改进的方法在适用性上有很大的提高。(本文来源于《杭州电子科技大学》期刊2016-03-01)

王俊华,左万利,闫昭[10](2015)在《基于朴素贝叶斯模型的单词语义相似度度量》一文中研究指出单词语义相似度度量是自然语言处理领域的经典和热点问题.通过结合朴素贝叶斯模型和知识库,提出一个新颖的度量单词语义相似度度量途径.首先借助通用本体WordNet获取属性变量,然后使用统计和分段线性插值生成条件概率分布列,继而通过贝叶斯推理实现信息融合获得后验概率,并在此基础上量化单词语义相似度.主要贡献是定义了单词对距离和深度,并将朴素贝叶斯模型用于单词语义相似度度量.在基准数据集R&G(65)上,对比算法评判结果与人类评判结果的相关度,采用5折交叉验证对算法进行分析,样本Pearson相关度达到0.912,比当前最优方法高出0.4%,比经典算法高出7%~13%;Spearman相关度达到0.873,比经典算法高出10%~20%;且算法的运行效率和经典算法相当.实验结果显示将朴素贝叶斯模型和知识库相结合解决单词语义相似度问题是合理有效的.(本文来源于《计算机研究与发展》期刊2015年07期)

语义相似度量论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

语义相似性度量在信息检索和自然语言处理领域中起到重要的作用,本文分析了传统语义相似性度量的方法,针对现实领域本体中WEB搜索引擎检索信息的方式,提出了一种基于WEB的领域本体语义相似性度量方法,通过对该方法的理论验证和分析,所提出的方法可以有效的提高语义相似性的计算精度。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

语义相似度量论文参考文献

[1].林泽东,曾庆田,段华,鲁法明,邹杰.支持活动语义度量的用户行为相似度计算方法[J].计算机集成制造系统.2018

[2].郭维威.基于WEB的领域本体语义相似性度量方法研究[J].山东工业技术.2018

[3].刘超超.新词分析与语义分析相结合的文本相似度量方法研究[D].西南科技大学.2018

[4].周萍.基于语义分析的文本相似性度量研究及应用[D].武汉工程大学.2017

[5].贾小斌,艾廷华,彭子凤,王光霞.地理信息语义的LOD表达与相似性度量[J].武汉大学学报(信息科学版).2016

[6].胡维华,鲍乾,李柯.结合汉明距离及语义的文本相似度量方法研究[J].杭州电子科技大学学报(自然科学版).2016

[7].巴志超,李纲,朱世伟.基于语义网络的研究兴趣相似性度量方法[J].现代图书情报技术.2016

[8].高俊涛,王雪珊.语义级业务过程模型相似性度量技术[J].计算机集成制造系统.2016

[9].鲍乾.结合汉明距离及语义的文本相似度量方法研究[D].杭州电子科技大学.2016

[10].王俊华,左万利,闫昭.基于朴素贝叶斯模型的单词语义相似度度量[J].计算机研究与发展.2015

标签:;  ;  ;  ;  

语义相似度量论文-林泽东,曾庆田,段华,鲁法明,邹杰
下载Doc文档

猜你喜欢