相关度计算论文-张玉腾

相关度计算论文-张玉腾

导读:本文包含了相关度计算论文开题报告文献综述及选题提纲参考文献,主要关键词:词语相关度,非独立同分布,概念表示,文本分类

相关度计算论文文献综述

张玉腾[1](2019)在《非独立同分布词语相关度计算方法研究》一文中研究指出词语相关度计算,即度量两个词语表达意义的近似程度。它是自然语言处理领域的一项基础性研究,对文本分类、自动问答、词义消歧、机器翻译等上层任务有着重要的影响。词语的表示学习是词语相关度计算中一项基础而核心的工作,获取高质量的词语表示是提高词语相关度计算结果的有效方式。本文试图从提高词语的表示学习质量这一角度出发进行相关研究,在非独立同分布学习理论(not independent and identically distributed learning,简写non-IID learning)的指导下,充分挖掘概念之间的耦合关系,生成高质量的概念向量,再通过概念映射将词语与概念关联起来,利用概念向量计算词语相关度,进而改善文本分类、自动问答等上层应用的效果。本文的主要工作和贡献体现在下述叁个方面:(1)针对传统的词语相关度计算方法混淆语义概念信息且忽视概念耦合关系的问题,本文提出了基于非独立同分布学习的词语概念表示方法和词语相关度计算方法。本文充分挖掘概念描述和知识网络蕴含的多种概念耦合关系,包含概念描述中的显式概念共现耦合、知识网络中的显式概念超链接耦合以及两者之间的隐式概念耦合;提出了基于non-IID的概念表示方法,以捕获概念之间显式和隐式的耦合关系,充分利用概念之间的这些耦合关系,获得更加完善的概念语义表示;通过概念映射,将词语与概念语义表示关联起来,进而提升词语相关度计算的效果。在六种不同的真实数据集上,对比七种主流的词向量方法,基于非独立同分布学习的词语概念表示方法都有大幅度的提升,其平均结果至少比基线模型高出20.4%。实验结果表明,该方法能有效地表示概念的语义信息,能够提高词语相关度的计算性能。(2)为了进一步验证基于non-IID的词语概念表示方法的性能,本文将概念向量应用到文本分类任务中,提出了基于non-IID词语表示的文本分类方法。首先利用基于non-IID的概念表示方法设计文本特征构建模块,将文本转化为密集的向量表示,为文本提供更加丰富完善的语义表示;同时也使用传统的词表示算法为文本提供普通向量表示;然后将两种向量表示连接起来,作为文本的特征表示;最后使用LIBLINEAR模型训练分类器,获得最终的文本分类结果。实验结果表明,借助于non-IID词语概念表示方法,六种传统的文本分类模型,在20NewsGroup数据集上分类精度上均得到了有效提升,其中F_1值平均提高22.8%。(3)为了进一步验证基于non-IID的词语概念表示方法的性能,本文将概念向量应用到医疗自动问答任务中,提出了基于non-IID词语表示的医疗问答方法。首先利用基于non-IID的概念表示方法设计词嵌入模块,将问答对转化为密集的向量表示,为问题句和答案句提供更加丰富完善的语义表示;然后针对中文医疗问答任务的特点,设计六种编码器,使用编码器对问答对的向量表示进行编码,以捕获句子内部词语之间的依赖关系,生成问答对的高层语义表示;最后使用余弦相似度算法计算问答对高层语义表示的距离,获得问答对之间的相似性评分,将得分最高的答案作为模型选择的答案。实验结果表明,融入基于non-IID的词语概念表示后,医疗自动问答系统的性能能够得到有效改善,在cMedQA数据集上ACC@1的最高得分达到69.85%,优于传统方法的效果。(本文来源于《齐鲁工业大学》期刊2019-05-31)

王锋,白宇,蔡东风,王铁铮[2](2018)在《基于Bi-LSTM和分布式表示的网页主题相关度计算》一文中研究指出针对向量空间模型忽略了查询关键词和网页的语义相关问题,提出一种基于双向LSTM(bidirectional long short-term memory)、词的分布式表示和文档的分布式表示的网页主题相关度计算方法。该方法通过双向LSTM和词的分布式表示对查询关键词进行扩展,并得到查询扩展的主题关键词集合的词向量;将搜索到的网页通过分布式表示方法得到网页向量;对主题关键词集合和网页进行相关度计算,得到主题相关网页。实验采用搜狗实验室公开的搜狗全网新闻数据作为词向量训练语料,搜狗评测数据作为测试语料。实验结果表明采用该方法可以提高主题相关网页计算的准确率,性能明显高于向量空间模型。(本文来源于《计算机应用与软件》期刊2018年07期)

董建锋[3](2018)在《跨模态检索中的相关度计算研究》一文中研究指出随着互联网、智能移动设备、社交媒体和即时通讯等技术的迅猛发展,人们可以随时随地自行创建和分享各种不同模态的多媒体数据(文字、图像、视频等)。面对大量产生的多媒体数据,如何从中高效、准确地检索到用户所需或感兴趣的多媒体数据是一个具有实际应用价值的问题。其中,跨模态检索允许输入的查询和候选检索对象为不同模态的数据并实现不同模态数据的相互检索,比如以图像搜文本、以文本搜图像等,其灵活多变的检索方式更能满足用户的检索需求,已成为多媒体检索领域的研究热点。对于给定的查询样例,跨模态检索技术根据候选检索对象与查询样例的相关度对候选对象进行排序从而得到最终的检索结果,因此关键在于计算不同模态的多媒体数据间的跨模态相关度。由于不同模态的数据之间呈现出底层特征异构及不可比的特点,称之为异构鸿沟,使得如何计算跨模态相关度成为巨大的挑战。针对上述挑战,本文关注文本、图像和视频叁种最常见的数据,对基于文本和图像的跨模态检索及基于文本和视频的跨模态检索展开深入的研究。本文从跨模态数据的表达、公共空间选择的角度出发来计算跨模态相关度,提出了一系列跨模态检索模型,并在多个公开数据上进行了丰富的实验验证。此外,本文还系统评测了目前主流的基于文本和图像的跨模态检索模型,揭露了这些模型的优点和局限性,并从相关度融合角度提出了一个模型融合的框架。具体而言,本文的主要创新和工作可以总结为如下几个方面:1.现有的跨模态检索模型主要对跨模态数据的整体语义信息进行建模,而在图像分析、单模态图像检索领域中受到广泛关注的显着信息并没有在跨模态检索领域被挖掘。本文对文本、视频这两类数据的显着信息表达进行了挖掘,提出了一种能够同时获取输入数据的整体语义信息和显着信息的特征表达方法。所提出的特征表达方法被分别轻松地应用到基于公共空间学习和基于相似性度量的跨模态检索模型中,表现出很好的通用性。实验结果验证了该方法的有效性,并表明额外挖掘显着信息对跨模态检索的潜力。2.基于公共空间学习的主流跨模态检索方法主要依赖将不同模态的数据映射到公共的潜在子空间中,但潜在子空间缺乏实际的物理解释性且需要两次映射才能实现跨模态相关度的计算。本文直接将通过深度卷积神经网络得到的深度视觉特征空间作为公共空间,这样只需简单的单向映射就能实现相关度计算。为此,本文提出了一个可以从文本输入中学习预测深度视觉特征的神经网络模型,使得文本也能在深度视觉空间进行表达从而实现在这个空间中计算跨模态相关度。所提出的模型被应用于与图像和视频相关的跨模态检索中,并在四个公开数据集超过了主流的基于潜在子空间的跨模态模型,实验结果证明选择深度视觉空间作为公共空间进行跨模态检索的可行性和有效性。3.虽然有大量的跨模态检索模型相继被提出,但大部分的模型都是在实验的环境下进行评测,其在真实环境下的表现不得而知,这不利于我们更好的认识模型从而阻碍对模型的改进。本文结合商用搜索引擎的大规模查询日志数据分析对主流的基于文本和图像的跨模态检索模型进行系统地评测,提出了一个基于匹配的基线方法以帮助揭露复杂的先进模型相比于基线模型的性能提升,并进一步对各个模型进行了鲁棒分析和统计显着性检验。本文还通过引入查询的视觉性对文本查询进行自动分类,从而帮助对检索结果进行更细化的分析,认识模型的优点和局限性。4.不同特征和不同跨模态检索方法通常有自己独特的机制、优点及局限性,因此不同特征和不同的方法可能存在一定的互补性。本文系统地研究了特征融合、方法融合两种方案的特点和性能,并提出了一个跨模态相关度的融合框架。所提出的融合框架支持对任何跨模态检索方法进行融合,表现出很好的扩展性;实验结果证明,该融合框架不仅能提升跨模态检索的性能,还能提升其鲁棒性。5.在跨模态相关度融合框架下构建了一个跨模态图像检索原型系统,并在原型系统上初步实现了本文提出的跨模态检索模型,验证了模型在实际跨模态检索应用中的实用性。(本文来源于《浙江大学》期刊2018-06-22)

孟禹光[4](2018)在《基于语义相关度计算的词义消歧》一文中研究指出词义消歧是自然语言处理领域的难点之一,有着广泛的应用。其中有监督词义消歧系统在公开评测中表现最好,但是需要大量的人工标注语料。语义相关度是一种重要的语义特征,它的质量直接影响到词义消歧的结果,相关度计算的难点主要在于研究出与人类认知水平接近的计算方法。考虑到中英文现有的资源不同,提出了不同的语义相关度计算方法。针对中文,提出了一种基于知网计算语义相关度方法,并在此基础之上进行词义消歧。该方法利用知网提供的知网推理机和义原,计算语义相关度。充分地利用了知网对语义的结构化定义及其他现有资源。针对英文,提出了一种利用引入词性特征的语境向量计算语义相关度方法,并在此基础之上进行词义消歧。通过引入词性特征的深度学习模型计算语境向量,使用待消歧句与例句的语境向量计算语义相关度,改进后的语义相关度算法得到了较好的消歧效果。在以上方法基础上,提出了一种将语义相关度与有监督的词义消歧结合的方法。对于中文,将用知网计算出的语义相关度与有监督学习结合;对于英文,将用语境向量计算出的语义相关度与有监督学习结合。在结合之后,在中文和英文中词义消歧效果均得到了显着提升。用Sem Eval、Senseval公开评测集进行性能评价,结合方法得到了较好的消歧效果。(本文来源于《沈阳航空航天大学》期刊2018-03-05)

荆琪,段利国,李爱萍,赵谦[5](2018)在《基于维基百科的短文本相关度计算》一文中研究指出为提高短文本语义相关度的计算准确率,将维基百科作为外部语义知识库,利用维基百科的结构特征,如维基百科的分类体系结构、摘要中的链接结构、正文中的链接结构以及重定向消歧页等,提出类别相关度与链接相关度相结合的词语相关度计算方法。在此基础上,提出基于词形结构、词序结构以及主题词权重的句子相关度计算方法。实验结果表明,在词语相关度计算方面,该方法的Spearman参数比文本相关度计算方法提高2.8%,句子相关度准确率达到73.3%。(本文来源于《计算机工程》期刊2018年02期)

张仰森,郑佳,李佳媛[6](2018)在《一种基于语义关系图的词语语义相关度计算模型》一文中研究指出词语的语义计算是自然语言处理领域的重要问题之一,目前的研究主要集中在词语语义的相似度计算方面,对词语语义的相关度计算方法研究不够.为此,本文提出了一种基于语义词典和语料库相结合的词语语义相关度计算模型.首先,以HowNet和大规模语料库为基础,制定了相关的语义关系提取规则,抽取了大量的语义依存关系;然后,以语义关系叁元组为存储形式,构建了语义关系图;最后,采用图论的相关理论,对语义关系图中的语义关系进行处理,设计了一个基于语义关系图的词语语义相关度计算模型.实验结果表明,本文提出的模型在词语语义相关度计算方面具有较好的效果,在Word Similarity-353数据集上的斯皮尔曼等级相关系数达到了0.5358,显着地提升了中文词语语义相关度的计算效果.(本文来源于《自动化学报》期刊2018年01期)

陈小红,潘懋,史艳丽,李晨阳,张驰[7](2017)在《基于领域约束本体的语义相关度计算研究》一文中研究指出语义相关度计算是信息检索、文档分类和聚类、推荐系统、机器学习等诸多领域的关键技术之一。研究基于地学领域本体,综合考虑了本体层级信息量、本体拓扑结构等基础上,引入约束性本体,实现相关度计算算法。实验结果表明,加入约束性本体条件下实现的算法,相关度计算结果明显提高。(本文来源于《科学技术与工程》期刊2017年19期)

荆琪[8](2017)在《基于维基百科的短文本相关度计算》一文中研究指出随着移动通信技术与社交媒体的发展,中文短文本形式的信息已渗透在社会和生活的各个领域。巨大信息量的增长也催生出巨大的使用价值,如何挖掘出这些文本的深层价值成为了一个热门话题。因此自然语言处理成为了研究者的研究热点。语义相关度计算作为自然语言处理领域一项基本性的研究工作,被广泛地应用于查询扩展、词义消歧、机器翻译、知识抽取、自动纠错等领域。而短文本作为一种新兴的文本信息源,字数较少,所表述的概念信号弱、特征信息模糊,因而难以抽取有效的特征信息。鉴于短文本所表达的信息有限,因此需要大量的背景知识来对样本特征进行扩展。维基百科作为目前世界上最大的、多语种的、开放式的在线百科全书,得到很多研究者的青睐,因此本文选择中文维基百科作为外部语料库,维基百科的结构信息以及语义信息也为短文本语义分析提供了基础。本文将短文本分为词语和句子两部分,首先提出了一种基于维基百科的词语间相关度的计算方法。该方法主要结合维基百科中的结构信息及语义信息,维基百科的主要结构包括分类体系结构、摘要中的链接结构、正文中链接结构以及重定向消歧页等,提出一种综合类别相关度与链接相关度的计算词语间相关度的方法。为了探究词语语义深层信息,提出了利用关联规则计算词语相关度的计算方法。在此基础上,本文提出了句子间相关度的计算方法,主要从叁大方面入手:句子结构间的相关度计算、基于词对的相关度计算以及利用聚类对主题词加权的聚类相关度计算。其中,句子结构又包括两方面:词形和词序。在词形相关度计算上,主要通过计算词共现的频率来体现;在词序计算上,通过逆序数的计算来体现。基于词对的相关度计算主要考虑句子中词语的深度语义信息,更符合人类主观认识。聚类主要是将语义相关的词语或文本聚为一类或一簇,本文将其利用到句子间相关度的计算上,提高句子相关度计算的准确率。在理论方法成型的基础上,完成实验方案的设计。首先,下载处理中文维基百科语料;其次完成词语以及句子间相关度的计算;最后将计算结果与人工标注集进行对比,本实验选用了人工翻译Word Similarity-353测试集以及国防科技大学所统计的Words-240作为词语相关度的测试集,句子相关度的测试集选择中国数据库万维网知识提取大赛所提供的短文本语义相关度比赛评测数据集,通过对比Spearman参数和准确率等相关系数,在词语相关度计算方面,本文方法的Spearman参数比传统算法提高2.8%,句子相关度准确率达到73.3%,取得较好实验效果。证明了本文方法的合理性和实用性。(本文来源于《太原理工大学》期刊2017-06-01)

杨进才,陈忠忠,沈显君,胡金柱[9](2017)在《基于汉语复句的语义相关度计算及类别的标识》一文中研究指出语义相关度计算作为中文信息处理领域中的一项关键技术,在信息检索、语义消岐、文本分类中起着重要的作用。利用汉语复句的句法理论和关系标记搭配理论,以汉语复句语料库以及搜索引擎获取的复句为语料,提出了一种基于汉语复句的语义相关度计算方法——SRCCS。本方法不仅能够计算词语的相关度,而且能够表明相关的性质与类别。与通过短文计算相关度的方法相比,本方法选取的计算对象范围更小,因而结果更准确,计算复杂度更低。在同一测试集上与搜索引擎方法的对比分析证明了基于汉语复句的语义相关度计算方法的有效性与优越性。(本文来源于《计算机科学》期刊2017年05期)

肖宝,李璞,蒋运承[10](2017)在《混合词汇特征和LDA的语义相关度计算方法》一文中研究指出文本语义相关度计算在自然语言处理、语义信息检索等方面起着重要作用,以Wikipedia为知识库,基于词汇特征的ESA(Explicit Semantic Analysis)因简单有效的特点在这些领域中受到学术界的广泛关注和应用。然而其语义相关度计算因为有大量冗余概念的参与变成了一种高维度、低效率的计算方式,同时也忽略了文本所属主题因素对语义相关度计算的作用。引入LDA(Latent Dirichlet Allocation)主题模型,对ESA返回的相关度较高的概念转换为模型的主题概率向量,从而达到降低维度和提高效率的目的;将JSD距离(Jensen-Shannon Divergence)替换余弦距离的测量方法,使得文本语义相关度计算更加合理和有效。最后对不同层次的数据集进行算法的测试评估,结果表明混合词汇特征和主题模型的语义相关度计算方法的皮尔逊相关系数比ESA和LDA分别高出3%和9%以上。(本文来源于《计算机工程与应用》期刊2017年12期)

相关度计算论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

针对向量空间模型忽略了查询关键词和网页的语义相关问题,提出一种基于双向LSTM(bidirectional long short-term memory)、词的分布式表示和文档的分布式表示的网页主题相关度计算方法。该方法通过双向LSTM和词的分布式表示对查询关键词进行扩展,并得到查询扩展的主题关键词集合的词向量;将搜索到的网页通过分布式表示方法得到网页向量;对主题关键词集合和网页进行相关度计算,得到主题相关网页。实验采用搜狗实验室公开的搜狗全网新闻数据作为词向量训练语料,搜狗评测数据作为测试语料。实验结果表明采用该方法可以提高主题相关网页计算的准确率,性能明显高于向量空间模型。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

相关度计算论文参考文献

[1].张玉腾.非独立同分布词语相关度计算方法研究[D].齐鲁工业大学.2019

[2].王锋,白宇,蔡东风,王铁铮.基于Bi-LSTM和分布式表示的网页主题相关度计算[J].计算机应用与软件.2018

[3].董建锋.跨模态检索中的相关度计算研究[D].浙江大学.2018

[4].孟禹光.基于语义相关度计算的词义消歧[D].沈阳航空航天大学.2018

[5].荆琪,段利国,李爱萍,赵谦.基于维基百科的短文本相关度计算[J].计算机工程.2018

[6].张仰森,郑佳,李佳媛.一种基于语义关系图的词语语义相关度计算模型[J].自动化学报.2018

[7].陈小红,潘懋,史艳丽,李晨阳,张驰.基于领域约束本体的语义相关度计算研究[J].科学技术与工程.2017

[8].荆琪.基于维基百科的短文本相关度计算[D].太原理工大学.2017

[9].杨进才,陈忠忠,沈显君,胡金柱.基于汉语复句的语义相关度计算及类别的标识[J].计算机科学.2017

[10].肖宝,李璞,蒋运承.混合词汇特征和LDA的语义相关度计算方法[J].计算机工程与应用.2017

标签:;  ;  ;  ;  

相关度计算论文-张玉腾
下载Doc文档

猜你喜欢