导读:本文包含了未登录词论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:机器翻译,语义,词频,特征,神经,汉语,神经网络。
未登录词论文文献综述
方玉萍,万荣,方达[1](2019)在《中文文本未登录词识别的研究》一文中研究指出未登录词作为一类特殊词出现,在中文文本处理中常常带来识别歧义,未登录词的识别好坏往往会影响到文本处理系统的整体性能。未登录词识别方法各有千秋,但对于识别未登录词都没有最有效的方法,研究发现利用未登录各类别的特点和难点进行方法的组合使用,可以提高其歧义的处理能力。本文研究中文文本未登录词的识别,以期能在各文本处理中能减少歧义达到提高识别的正确率和召回率。(本文来源于《电脑知识与技术》期刊2019年20期)
哈斯高娃[2](2019)在《蒙汉神经机器翻译中的未登录词处理研究》一文中研究指出神经机器翻译是以编码器-解码器为基本框架的新型机器翻译模型,其在翻译任务中的表现优异。因此神经机器翻译已成为当前机器翻译研究热点。在神经机器翻译中为了降低计算时间和内存消耗,通常限制词汇表的大小。也就是把不在词汇表中的词表示成统一的符号参与神经网络翻译模型的训练。这样会导致有些句子因为某个词的缺失而失去完整的意义,最终会严重影响翻译结果的质量。这些用统一符号表示的词称为未登录词。本文针对蒙汉神经机器翻译的未登录词问题进行了如下研究:(1)在基于注意力的蒙汉神经机器翻译系统上,对未登录词问题采用了基于语义相似度的未登录词替换、基于语言模型的未登录词替换和基于蒙汉对齐词典的未登录词替换叁种方法,并做了未登录词处理实验和扩充语料实验,其中基于蒙汉对齐词典的未登录词处理方法的表现最好,BLEU和NIST值分别为0.6351和9.1686。(2)在Tensorflow平台上搭建了基于transformer的蒙汉神经机器翻译系统,并进行了基于词素的翻译实验,实验表明蒙文端进行部分切分,汉文端为词粒度的情况下评测结果最好,BLEU和NIST值分别为0.6841和9.5922。(3)在基于transformer的蒙汉神经机器翻译系统上,对未登录词问题采用了基于语义相似度的未登录词替换,基于语言模型的未登录词处理和基于蒙汉对齐词典的未登录词替换叁种方法,并做了未登录词处理实验和扩充语料实验,其中表现最好的是基于语义相似度的方法,BLEU和NIST值分别为0.7429和10.2044。(4)对比基于注意力的蒙汉神经机器翻译系统和基于transformer的蒙汉神经机器翻译系统,后者的翻译性能优于前者。经过未登录词处理后,最优的模型是使用基于语义相似度的未登录词处理方法改进的基于transformer的蒙汉神经机器翻译模型。(本文来源于《内蒙古师范大学》期刊2019-05-25)
王军[3](2018)在《基于词语相似度的未登录词元框架选择研究》一文中研究指出汉语框架网(CFN)作为一种词汇语义资源,可以广泛应用在阅读理解问答系统等中文信息处理研究领域,然而和其它语义类资源一样,需要面对词元覆盖率的问题。在对汉语文本进行基于框架语义学的语义分析时,词元覆盖率问题会导致遇到能够激起CFN框架语义场景、但暂未收录到已有框架下的目标词,这样的未登录词元阻碍了语义分析任务过程的正常进行。要提高汉语框架网的词元覆盖率,就需要通过丰富框架词元来扩充现有词元库的规模。本文以国家863计划项目的“语言问题求解和答案生成关键技术”课题为依托,针对高考语文阅读理解语义分析过程中的未登录词元问题,以未登录词元与框架词元的语义相似度为研究角度,利用目前常用的词语相似度计算方法,将未登录词元划分到与之语义场景最接近的框架之下,完成未登录词元的框架选择任务。本文的主要工作及研究成果如下:首先,针对未登录词元的框架选择任务,提出并验证了两种方法。(1)基于HowNet语义词典的未登录词元框架选择方法。依据HowNet的知识描述语言和义原层次体系结构,将未登录词元与框架词元按照“词语相似度-概念相似度-义原相似度”的转化过程进行相似度计算,按未登录词元与框架的相似值由高到低排序,确认未登录词元的框架选择范围,最终取得70.38%的准确率。(2)基于Word2Vec词向量模型的未登录词元框架选择方法。利用Word2Vec工具进行大规模语料训练得到词向量表,将未登录词元与框架词元向量化表示后,采用欧式距离和余弦相似度计算出相似度,按未登录词元与框架的相似值由高到低排序,确认未登录词元的框架选择范围,准确率最高达到81.45%。最后,基于以上两种未登录词元的框架选择方法,设计与实现了汉语框架网未登录词元框架选择原型系统,为解决未登录词元问题提供了自动化工具,可应用于CFN词元库规模的扩充。(本文来源于《山西大学》期刊2018-06-01)
曾浩,詹恩奇,郑建彬,汪阳[4](2019)在《基于扩展规则与统计特征的未登录词识别》一文中研究指出为提高各行业领域未登录词识别效果,提出一种基于扩展规则与统计特征的未登录词识别方法。分析行业领域未登录词构词特点,制定扩展规则,根据扩展规则对分词项进行扩展得到复合词,通过词频、互信息、邻接熵等统计特征判别复合词是否为未登录词。若为未登录词,则对其继续扩展和识别。六个行业领域和通用领域未登录词识别实验结果表明,提出的方法取得了较好的未登录词识别效果,具有较好的移植性。(本文来源于《计算机应用研究》期刊2019年09期)
韩冬,李军辉,熊德意,周国栋[5](2018)在《基于子字单元的神经机器翻译未登录词翻译分析》一文中研究指出神经机器翻译为机器翻译提供了一种全新的方法,在多对语言之间的翻译质量上,已超过了统计机器翻译,并逐渐成为当前机器翻译的主流方向。未登录词翻译是神经机器翻译的主要难点之一。为了消解未登录词,一种可行的方案是采用Byte Pair Encoding(BPE)方法。该方法在翻译前将原有的单词拆解为更小粒度的高频子字单元。该文主要探究BPE方法在中英神经机器翻译中的应用,分析BPE方法在多大程度上可以解决中英未登录词翻译缺失的问题。实验表明,与Baseline系统相比,BPE方法获得了1.02BLEU值的提升,对未登录词的翻译精准度达到了45%,与统计机器翻译系统翻译精准度相似。(本文来源于《中文信息学报》期刊2018年04期)
贾亚璐[6](2018)在《一种基于微博类短文本的未登录词识别和词义发现研究》一文中研究指出未登录词识别技术对提高文本自动分词和句法分析的准确性有很重要的意义。随着网络社交平台的不断发展,微博(WEIBO,MicroBlog)平台已经成为人们进行信息分享、传播以及获取的重要平台。基于微博类短文本的未登录词识别研究成为热点,而微博文本中包含大量不规范用语、网络流行语等,增加了未登录词识别的困难。本文针对微博类短文本的特点,提出了针对基于微博类短文本的未登录词识别和语义发现算法。论文提出了一种基于改进的FP-Growth(Frequent Pattern Growth Algorithm)未登录词识别算法(POS-FP),该算法考虑了词性对未登录词的识别影响。首先使用POS-FP算法获取频繁项集,再和N-grams模型相结合初步获取未登录词;然后利用改进的互信息、左右信息熵、上下文依赖性和开源验证的方法,对初步获取的未登录词进行过滤和验证。与传统方法相比,该算法在微博类短文本的未登录词识别率上有一定程度提高。论文提出了一种基于相似性计算的词义发现方法。首先构建基于微博语料的带词性的同义词词林(POS-Dic-Cilin),然后利用Word2vec技术分别生成未登录词和所有名词的词向量,利用构建的POS-Dic-Cilin对词向量进行修正。最后是通过相似性计算获取未登录词的词义集合来表示未登录词词义,并通过实验验证了方法的有效性。(本文来源于《北京工业大学》期刊2018-04-01)
瞿健菊,冯敏萱[7](2018)在《基于知识库的汉语未登录词语义预测》一文中研究指出该文基于知识库的语素构词知识,采用了分阶段的算法自动预测未登录词的语素构词知识,以此实现对未登录词的语义预测。基本思路是通过语素义组合或语素义类组合的匹配,先预测语义层面的知识,再确定相应语素项,最终获得未登录词多层面的语素构词知识。该算法简单、直观、合理,在首素性类、首素义类、首素义、尾素性类、尾素义类、尾素义、构词方式这七项预测内容全部正确的标准下,实验结果的预测正确率为62.32%,召回率为61.72%。(本文来源于《中文信息学报》期刊2018年01期)
汪龙庆,张超,宋晖,刘振宇[8](2017)在《基于未登录词识别的微博评价短语抽取方法》一文中研究指出由于微博内容话题分散,识别博文评论对象是微博情感分析研究的热点和难点。研究表明未登录词识别是导致评价短语识别率低的重要原因之一。针对这种情况,提出一种基于文本词序列的词频、凝聚度、左右自由度等统计特征学习未登录词识别模型的方法。实验结果表明,将自动识别的微博文本中的未登录词加入基于CRFs的评价短语识别算法后,显着地提高了评价短语识别的准确率和召回率。未登录词的学习算法直接利用评价短语识别的标注样本,具有较强的可行性。(本文来源于《计算机应用与软件》期刊2017年06期)
陈守钦[9](2017)在《中文短文本未登录词发现及情感分析方法研究》一文中研究指出随着互联网科技的蓬勃发展,微博微信等即时通讯工具随之出现,由于其具有简单易用,传播迅速等特点,日益成为大众日常重要的沟通交流工具,带有情感倾向的文本在网络上高速传播。因此,针对该类文本的情感分析对于产品口碑的跟踪以及社会舆情的监测等具有重要意义。新型社交媒介携带的信息相对简短,表达不规范,适应于传统长文本的分类方法不能机械的移植到短文本情感分类上。本文针对新浪微博、产品评论等短文本,以传统长文本情感分类方法为基础,探索未登录词及领域情感词的发现,基于深度信念网络(Deep Belief Network,DBN)对特征选择深度自适应学习以及基于Adaboost分类改进加强算法提高分类性能等方法弥补现有情感分析方法的不足。针对短文本特征密度低、非规范网络元素多等特点,本文主要从如下方面展开研究:(1)未登录词发现及基于规则的情感分类。该部分主要研究了基于概率统计及条件随机场进行未登录词自动发现,并利用互信息进行情感极性标注。同时利用哈工大句法分析与同义词林进行领域词发现及情感标注,最后基于改进扩展后的词典及判定规则进行情感倾向分类方法研究。(2)基于特征选择融合优化及增强的机器学习情感标注。该部分在实现基本机器学习分类方法的前提下,对比不同特征选择算法优缺点实现特征选择融合增强,引入支持向量机、逻辑回归等算法探究其对情感分类性能的影响,在实现上述方法的基础上引入Adaboost算法实现弱分类器性能的优化增强。(3)基于DBN的特征选择优化及情感标注。在DBN算法的基础上对候选特征集合进行自适应学习,运用包含上下文的语料资源利用Word2vec构建语义临近词预测模型分别实现篇章级别特征扩展以及同义词级别的特征扩展。最后对比不同方法验证特征提取质量以及分类方法的性能。本文通过对短文本情感分类方法的探究及改进,实现了未登录词的自动发现及情感词典优化扩展,能够有效的缓解文本内容简短、特征缺失等问题,并结合深度学习算法进一步提高了特征提取的质量,从而优化改进了情感分析方法的性能。(本文来源于《北京工业大学》期刊2017-06-01)
张红阳[10](2017)在《神经网络机器翻译中未登录词处理方法研究》一文中研究指出神经网络机器翻译(neural machine translation,NMT)是一种新的基于编码-解码网络框架的机器翻译模型,其在各种翻译任务中都表现出了远远优于传统方法的性能。由于GPU内存和计算时间的限制,NMT只能维持一个包含最频繁词的相对有限的词表,词表外的未登录词(out of vocabulary,OOV)通常被表示为一个符号<unk>。其中源端句子中出现的<unk>会增加翻译的歧义性,同时NMT本身也无法处理翻译结果中的<unk>,只能借助一个额外的后处理方法。本课题针对OOV所带来的问题,把NMT的翻译过程分为“预处理”,“模型中”,“后处理”叁个阶段,分别在这叁个阶段对未登录词的处理方法进行了研究。首先在“后处理”阶段,本文针对现有的NMT中OOV后处理方法的缺点,提出了一种基于上下文的信息的NMT未登录词后处理方法。该方法首先为<unk>构造了多个未登录候选词,为每一个候选词提取了多个角度的上下文特征,之后通过一个pairwise的排序学习模型选择出最适合的OOV替换翻译结果中的<unk>。实验结果表明我们的方法可以显着地提高翻译结果中的OOV召回率。其次在“预处理”阶段,本文针对NMT中OOV产生的歧义问题,尝试使用相似词和聚类信息2种不同粒度的语义单元对OOV进行表示。我们在预处理阶段使用语义表示对NMT的训练和测试语料中的OOV进行替换,使用替换后的语料分别进行NMT的训练和测试,并在测试完成后恢复之前替换的翻译结果。实验结果表明使用词类预处理OOV可以明显地提升翻译质量。最后在“模型中”阶段,本文提出了一种OOV的层次聚类词向量的方法。我们使用聚类方法为OOV建立一个层次的语义表示,并把它嵌入到了NMT的模型中。这种层次的结构不仅可以在源端为OOV消除歧义,而且能为目标端的<unk>利用NMT中的上下文信息选择翻译词。同时我们引入的聚类向量还能缓解OOV的稀疏问题。实验结果表明模型在中-英翻译任务上比Baseline提升了1.43到2.06个BLEU值。(本文来源于《哈尔滨工业大学》期刊2017-06-01)
未登录词论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
神经机器翻译是以编码器-解码器为基本框架的新型机器翻译模型,其在翻译任务中的表现优异。因此神经机器翻译已成为当前机器翻译研究热点。在神经机器翻译中为了降低计算时间和内存消耗,通常限制词汇表的大小。也就是把不在词汇表中的词表示成统一的符号参与神经网络翻译模型的训练。这样会导致有些句子因为某个词的缺失而失去完整的意义,最终会严重影响翻译结果的质量。这些用统一符号表示的词称为未登录词。本文针对蒙汉神经机器翻译的未登录词问题进行了如下研究:(1)在基于注意力的蒙汉神经机器翻译系统上,对未登录词问题采用了基于语义相似度的未登录词替换、基于语言模型的未登录词替换和基于蒙汉对齐词典的未登录词替换叁种方法,并做了未登录词处理实验和扩充语料实验,其中基于蒙汉对齐词典的未登录词处理方法的表现最好,BLEU和NIST值分别为0.6351和9.1686。(2)在Tensorflow平台上搭建了基于transformer的蒙汉神经机器翻译系统,并进行了基于词素的翻译实验,实验表明蒙文端进行部分切分,汉文端为词粒度的情况下评测结果最好,BLEU和NIST值分别为0.6841和9.5922。(3)在基于transformer的蒙汉神经机器翻译系统上,对未登录词问题采用了基于语义相似度的未登录词替换,基于语言模型的未登录词处理和基于蒙汉对齐词典的未登录词替换叁种方法,并做了未登录词处理实验和扩充语料实验,其中表现最好的是基于语义相似度的方法,BLEU和NIST值分别为0.7429和10.2044。(4)对比基于注意力的蒙汉神经机器翻译系统和基于transformer的蒙汉神经机器翻译系统,后者的翻译性能优于前者。经过未登录词处理后,最优的模型是使用基于语义相似度的未登录词处理方法改进的基于transformer的蒙汉神经机器翻译模型。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
未登录词论文参考文献
[1].方玉萍,万荣,方达.中文文本未登录词识别的研究[J].电脑知识与技术.2019
[2].哈斯高娃.蒙汉神经机器翻译中的未登录词处理研究[D].内蒙古师范大学.2019
[3].王军.基于词语相似度的未登录词元框架选择研究[D].山西大学.2018
[4].曾浩,詹恩奇,郑建彬,汪阳.基于扩展规则与统计特征的未登录词识别[J].计算机应用研究.2019
[5].韩冬,李军辉,熊德意,周国栋.基于子字单元的神经机器翻译未登录词翻译分析[J].中文信息学报.2018
[6].贾亚璐.一种基于微博类短文本的未登录词识别和词义发现研究[D].北京工业大学.2018
[7].瞿健菊,冯敏萱.基于知识库的汉语未登录词语义预测[J].中文信息学报.2018
[8].汪龙庆,张超,宋晖,刘振宇.基于未登录词识别的微博评价短语抽取方法[J].计算机应用与软件.2017
[9].陈守钦.中文短文本未登录词发现及情感分析方法研究[D].北京工业大学.2017
[10].张红阳.神经网络机器翻译中未登录词处理方法研究[D].哈尔滨工业大学.2017