导读:本文包含了向量模型论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:向量,模型,词表,文本,话题,事件,方差。
向量模型论文文献综述
马路佳,赖文,赵小兵[1](2019)在《基于跨语言词向量模型的蒙汉查询词扩展方法研究》一文中研究指出跨语言信息检索指以一种语言为检索词,检索出用另一种或几种语言描述的一种信息的检索技术,是信息检索领域重要的研究方向之一。近年来,跨语言词向量为跨语言信息检索提供了良好的词向量表示,受到很多学者的关注。该文首先利用跨语言词向量模型实现汉文查询词到蒙古文查询词的映射,其次提出串联式查询扩展、串联式查询扩展过滤、交叉验证筛选过滤叁种查询扩展方法对候选蒙古文查询词进行筛选和排序,最后选取上下文相关的蒙古文查询词。实验结果表明:在蒙汉跨语言信息检索任务中引入交叉验证筛选方法对信息检索结果有很大的提升。(本文来源于《中文信息学报》期刊2019年06期)
郭磊[2](2019)在《基于主题词向量模型的话题演化分析技术研究》一文中研究指出近年来,热点话题层出不穷,不断点燃网络舆论。几乎每个热点话题都有铺天盖地的相关信息。有效的对话题演化进行分析有助于人们及时了解话题发展动态,掌握话题演化脉络,总结话题发展规律,为科学制定决策提供帮助。已有的相关研究分析较为粗糙且不够深入,主要存在如下叁个方面问题:(1)重在捕捉全局的主题语义信息,没有兼顾局部词汇语义信息,语义连贯性较差;(2)对话题发展过程中有显着影响事件的定位准确性较差;(3)不能有效厘清话题的演化发展脉络,无法高效的对话题的演化趋势进行直观展示。主题词向量模型能够有效解决或改善以上问题。本文研究了基于主题词向量模型的话题演化分析技术,主要研究成果如下:(1)研究了话题内新事件检测。传统的主题模型无法有效兼顾文档隐含的主题语义信息和局部词汇语义信息,实际应用中性能不够理想且波动较大。本文提出了基于主题词向量聚类的话题内新事件检测方法。首先,通过主题词向量模型对经预处理的文档进行训练来获取主题词向量,可以有效的兼顾全局的主题语义信息和局部词汇语义信息;然后,对获取的主题词向量进行K-means聚类来获取话题内的子话题分布;最后,基于各个子话题所包含文档时间戳的先后顺序,完成话题内新事件检测。实验结果表明,该方法较传统新事件检测方法取得了更好的性能。(2)研究了事件演化关系识别。传统的词语特征向量空间模型无法准确表示事件语义,且对于事件相似度的比较停留在词语级别。本文提出了基于主题词向量模型的事件演化关系识别方法。首先,通过主题词向量模型对文档进行训练来获取主题词向量;然后,利用事件对应的主题词向量构建事件向量;最后,通过事件向量计算事件相似度,完成事件演化关系识别。实验结果表明,较已有的相关研究,该方法提高了事件演化关系识别性能。(3)研究了话题演化图构建。传统话题演化图构建方法未能深入挖掘话题的主题语义信息和词汇语义信息,且存在需要事先指定文档聚类数目的局限。本文提出了基于事件向量聚类的话题演化图构建方法。首先,利用主题词向量生成事件向量;其次,对事件向量进行聚类,获取文档的类别分布;然后,根据文档的类别标签发现节点,并利用其对应的事件向量在节点间建立边;最后,选择节点代表性文档,并根据节点边构建话题演化图。实验结果表明,该方法能够生成比较清晰的话题演化图,较好地展示了话题演化脉络。(本文来源于《华侨大学》期刊2019-05-23)
赵浩新,俞敬松,林杰[3](2019)在《基于笔画中文字向量模型设计与研究》一文中研究指出中文汉字在横向、纵向展开具有二维的复杂结构。现有的中文词向量研究大都止步于汉字字符,没有利用中文笔画序列生成字向量,且受限于统计模型本质,无法为低频、未登录字词生成高质量向量表示。为此,该文提出了一种依靠中文笔画序列生成字向量的模型Stroke2Vec,扩展Word2Vec模型CBOW结构,使用卷积神经网络替换上下文信息矩阵、词向量矩阵,引入注意力机制,旨在模拟笔画构造汉字的规律,通过笔画直接生成字向量。将Stroke2Vec模型与Word2Vec、GloVe模型在命名实体识别任务上进行评测对比。实验结果显示,Stroke2Vec模型F1值达到81.49%,优于Word2Vec 1.21%,略优于GloVe模型0.21%,而Stroke2Vec产生的字向量结合Word2Vec模型结果,在NER上F1值为81.55%。(本文来源于《中文信息学报》期刊2019年05期)
赖港明[4](2019)在《基于词性标注和依存句法的词向量模型改进研究》一文中研究指出近年来,深度学习借助基于神经网络的词向量在自然语言处理领域大放异彩,席卷自然语言处理各项基础研究。词向量的质量直接影响上层自然语言处理任务的效果。而词向量模型则是训练词向量的核心,但目前诸多的词向量模型仍存在很多不足之处。这些不足之处包括:(1)网络结构问题。目前基于神经网络的词向量模型大多将上下文窗口中的词语同等对待,不考虑词语之间的依存关系;(2)信息丢失问题。固定的上下文窗口会对句子成分复杂的长句和复合句进行裁剪导致部分重要词汇的丢失;(3)未充分利用词性标注的词法结构信息和依存句法的句法结构信息。现有基于词性标注改进的研究大多仅使用词性关联修改词语在上下文中的权重,基于依存句法改进的研究大多没有考虑依存关系的差异;(4)二次采样和负采样技术过于简单。词频高的词语在进行二次采样和负采样时被同等对待,从而导致部分对预测目标词有较大影响的高频词丢失。(5)词性之间的相似度无法衡量。词性之间存在语义鸿沟,就目前所知,没有量化词性之间相似度的算法和数据集。针对基于神经网络的词向量模型所面临的多个问题,本文在现有工作的基础上,结合词性标注和依存句法分析,提出四种改进的词向量模型:(1)基于词性标注的CBOW+P模型。将词性信息整合到词向量的训练过程中,提出词性向量的概念以解决词性相似度难以衡量的问题。具体策略是使用词性向量相关系数和距离加权函数将词向量和词性向量统一训练,同时使用词性占比改进二次采样和负采样技术;(2)基于词性标注的CBOW+PW模型。在CBOW+P模型的基础上,进一步将词性向量相关系数细化到每一个词语中;(3)基于依存句法的CBOW+G模型。提出使用依存句法修正现行固定上下文窗口做法所导致的信息丢失问题。具体策略是使用依存关系权重衡量依存关系的差异,同时提出两种计算依存关系权重策略:预训练平均余弦距离策略和负采样平均余弦距离策略;(4)基于词性标注和依存句法的CBOW+G+P模型。融合CBOW+P模型和CBOW+G模型,同时利用词性标注信息和依存句法信息改进词向量模型。为了衡量词性向量的效果,本文构建了一个含有55组测试数据的词性类比数据集以及一种基于词性向量的句子表示方法。在词相似性、词类比和中文文本分类任务上的实验验证了本文所提出的四种模型的有效性,特别是组合模型(CBOW+G+P)的优异性,且时间复杂度与经典的CBOW模型处于同一量级。(本文来源于《华南理工大学》期刊2019-04-15)
李万理,唐婧尧,薛云,胡晓晖,张涛[5](2019)在《基于点互信息的全局词向量模型》一文中研究指出提出了一种基于点互信息的全局词向量训练模型。该模型为了避免GloVe词向量模型中使用条件概率刻画词语关系时所产生的缺点,使用了另一种相关信息——联合概率与边际概率乘积的比值——来刻画词语间的关系。为了验证模型的有效性,在相同条件下,利用GloVe模型和我们的模型训练词向量,然后使用这2种词向量分别进行了word analogy以及similarity的实验。实验表明,模型的准确率在word analogy的Semantic问题中比GloVe模型表现更好,分别在100维、200维、300维的词向量实验中,准确率提升了10.50%、4.43%、1.02%,而在similarity的实验中,模型准确率提升也达5%~6%。结果表明,模型可以更有效地捕捉词语的语义。(本文来源于《山东大学学报(理学版)》期刊2019年07期)
王勇,何养明,邹辉,黎春,陈荟西[6](2019)在《WordNG-Vec:一种应用于CNN文本分类的词向量模型》一文中研究指出文本特征提取(文本输入表示)作为文本分类技术的要点,其构建质量直接影响着分类系统的分类效果.现在最流行的文本输入表示——词向量(Word Vector)虽然考虑了词的相似性但忽略了局部词序特征,在一些情况下造成文本语义上的缺失和歪曲.为此,本文提出了一种结合N-Gram特征与Word2vec的词向量模型WordNG-Vec,其提取出的词向量(Word-NG向量),作为双通道卷积神经网络模型(DC-CNN)的输入.经过多组对比实验分析表明,在精确率(precision)和召回率(recall)和F1值叁个评价指标下,本文提出的方法有效提高文本分类的效果.(本文来源于《小型微型计算机系统》期刊2019年03期)
李龙[7](2019)在《基于多重支持向量模型的雷达目标识别器设计》一文中研究指出在如今日益复杂的地面战场环境下,雷达目标识别技术的需求愈加迫切。高分辨一维距离像(High Resolution Range Profile,HRRP)具有可提供目标在雷达视线上的结构信息的特点,使得其在雷达地面目标识别领域受到了广泛的关注与研究。为实现基于HRRP的雷达目标识别实用化,本文构建了一种基于多重支持向量模型的雷达目标识别器。本方法通过对目标特征空间的区域分割、特征区域描述与子分类超平面构建,得到更为精细化的目标特征空间描述,同时达到目标鉴别与分类的联合处理。此外,本方法基于支持向量模型,内存需求少、计算复杂度低,适合目标识别系统的实际工程应用。通过基于实测数据的对比实验,证明了本文所提方法在目标识别性能与实时性两方面均具有较大的优势。(本文来源于《现代导航》期刊2019年01期)
张青,韩立新,刘合兵[8](2019)在《结合字词向量的主题向量模型》一文中研究指出为了将已有的英文主题向量模型更好地应用于中文的主题向量训练,并且解决主题个数事先确定的缺点。本文将原有模型中,文档向量和词向量线性相加的方式改为内积的方式,并结合文档向量、字向量和词向量叁者一起训练主题向量。当得到主题向量后通过聚类方法将相似的主题聚集在一起,以此来确定主题个数。实验表明,该方法训练出的主题词的相关性较原有模型和传统模型有所提升,并且能够获得较为合理的主题个数,同时,还能够得到词向量,主题向量和文档向量。(本文来源于《电子测量技术》期刊2019年03期)
孙毅,裘杭萍,康睿智[9](2019)在《基于方差权重因子选词的SIF句向量模型》一文中研究指出针对平滑反频率(SIF)模型在文本分类和情感分析中性能较差的问题,在SIF模型的基础上,根据单词在不同分类任务类别中的分布情况,计算其对任务贡献度的方差权重(VW)因子,建立一种VW因子选词句向量模型CwVW-SIF。在标准文本分类数据集和情感分析数据集上进行测试,结果表明,CwVW-SIF相对SIF模型具有较高的分类精度。(本文来源于《计算机工程》期刊2019年09期)
林云,胡强[10](2018)在《多测量向量模型下的修正MUSIC算法》一文中研究指出压缩感知多测量向量(MMV)模型用于解决具有相同稀疏结构的多快拍问题,在传统阵列信号处理应用中多重信号分类(MUSIC)方法是一种常见的方法,但当快拍数不足(低于稀疏度)时其性能将急剧恶化。Kim等人(2012)推导出一种修正的MUSIC谱,并将压缩重构方法和MUSIC算法结合提出压缩感知MUSIC算法(CS-MUSIC),能够有效克服快拍数不足的问题。该文将Kim等人的结论扩展到一般情形,并基于传统的MUSIC谱和CSMUSIC谱提出一种修正的MUSIC算法(MMUSIC)。仿真结果表明所提算法能够有效克服快拍数不足的问题,并且具有比CS-MUSIC算法和压缩感知贪婪算法更高的重构概率。(本文来源于《电子与信息学报》期刊2018年11期)
向量模型论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
近年来,热点话题层出不穷,不断点燃网络舆论。几乎每个热点话题都有铺天盖地的相关信息。有效的对话题演化进行分析有助于人们及时了解话题发展动态,掌握话题演化脉络,总结话题发展规律,为科学制定决策提供帮助。已有的相关研究分析较为粗糙且不够深入,主要存在如下叁个方面问题:(1)重在捕捉全局的主题语义信息,没有兼顾局部词汇语义信息,语义连贯性较差;(2)对话题发展过程中有显着影响事件的定位准确性较差;(3)不能有效厘清话题的演化发展脉络,无法高效的对话题的演化趋势进行直观展示。主题词向量模型能够有效解决或改善以上问题。本文研究了基于主题词向量模型的话题演化分析技术,主要研究成果如下:(1)研究了话题内新事件检测。传统的主题模型无法有效兼顾文档隐含的主题语义信息和局部词汇语义信息,实际应用中性能不够理想且波动较大。本文提出了基于主题词向量聚类的话题内新事件检测方法。首先,通过主题词向量模型对经预处理的文档进行训练来获取主题词向量,可以有效的兼顾全局的主题语义信息和局部词汇语义信息;然后,对获取的主题词向量进行K-means聚类来获取话题内的子话题分布;最后,基于各个子话题所包含文档时间戳的先后顺序,完成话题内新事件检测。实验结果表明,该方法较传统新事件检测方法取得了更好的性能。(2)研究了事件演化关系识别。传统的词语特征向量空间模型无法准确表示事件语义,且对于事件相似度的比较停留在词语级别。本文提出了基于主题词向量模型的事件演化关系识别方法。首先,通过主题词向量模型对文档进行训练来获取主题词向量;然后,利用事件对应的主题词向量构建事件向量;最后,通过事件向量计算事件相似度,完成事件演化关系识别。实验结果表明,较已有的相关研究,该方法提高了事件演化关系识别性能。(3)研究了话题演化图构建。传统话题演化图构建方法未能深入挖掘话题的主题语义信息和词汇语义信息,且存在需要事先指定文档聚类数目的局限。本文提出了基于事件向量聚类的话题演化图构建方法。首先,利用主题词向量生成事件向量;其次,对事件向量进行聚类,获取文档的类别分布;然后,根据文档的类别标签发现节点,并利用其对应的事件向量在节点间建立边;最后,选择节点代表性文档,并根据节点边构建话题演化图。实验结果表明,该方法能够生成比较清晰的话题演化图,较好地展示了话题演化脉络。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
向量模型论文参考文献
[1].马路佳,赖文,赵小兵.基于跨语言词向量模型的蒙汉查询词扩展方法研究[J].中文信息学报.2019
[2].郭磊.基于主题词向量模型的话题演化分析技术研究[D].华侨大学.2019
[3].赵浩新,俞敬松,林杰.基于笔画中文字向量模型设计与研究[J].中文信息学报.2019
[4].赖港明.基于词性标注和依存句法的词向量模型改进研究[D].华南理工大学.2019
[5].李万理,唐婧尧,薛云,胡晓晖,张涛.基于点互信息的全局词向量模型[J].山东大学学报(理学版).2019
[6].王勇,何养明,邹辉,黎春,陈荟西.WordNG-Vec:一种应用于CNN文本分类的词向量模型[J].小型微型计算机系统.2019
[7].李龙.基于多重支持向量模型的雷达目标识别器设计[J].现代导航.2019
[8].张青,韩立新,刘合兵.结合字词向量的主题向量模型[J].电子测量技术.2019
[9].孙毅,裘杭萍,康睿智.基于方差权重因子选词的SIF句向量模型[J].计算机工程.2019
[10].林云,胡强.多测量向量模型下的修正MUSIC算法[J].电子与信息学报.2018