导读:本文包含了文本表示论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:文本,机制,注意力,向量,特征,事件,卷积。
文本表示论文文献综述
王先传,刘宗田[1](2019)在《新闻文本中事件语义表示》一文中研究指出事件是比"概念"粒度更大的知识表示单元,更符合人类的认识过程.事件作为新闻文本的知识单元,结合新戴维森事件语义和6要素事件模型,给出了一个新的事件形式化表示方法;扩展不同的操作算子给出了修饰事件要素的模糊信息、对象、时态与环境的形式化表示方法;使用描述逻辑方法描述了事件对象要素中的概念,给出了新闻文本中事件关系形式化的表示方法.实例表明,该方法能够较好地表示新闻文本中的事件语义.(本文来源于《上海大学学报(自然科学版)》期刊2019年05期)
聂维民,陈永洲,马静[2](2019)在《融合多粒度信息的文本向量表示模型》一文中研究指出【目的】更加全面地提取文本语义特征,提高文本向量对文本语义的表示能力。【方法】通过卷积神经网络提取词粒度、主题粒度和字粒度文本特征向量,通过"融合门"机制将叁种特征向量融合得到最终的文本向量,并进行文本分类实验。【结果】该模型在搜狗语料库文本分类实验上的准确率为92.56%,查准率为92.33%,查全率为92.07%,F1值为92.20%,较基准模型Text-CNN分别提高2.40%,2.05%,1.77%,1.91%。【局限】词序关系范围较小,语料库规模较小。【结论】该模型可以更加全面地提取文本语义特征,得到的文本向量对文本语义表示能力更强。(本文来源于《数据分析与知识发现》期刊2019年09期)
聂维,刘小豫[3](2019)在《深度学习视域下的文本表示方法研究》一文中研究指出文本表示不仅是自然语言处理的基础工作,还是信息检索、文本分类、问答系统的关键。就传统文本而言,主要采取计数表示形式,此方法设定词和词之间是相互独立的,直接忽视了文本语义信息,而且在选择特征时,引进了一些人为影响因素,从而获取了高纬度与高稀疏文本特征,无法充分表示文本。这就需要进一步创新设计文本表示方法,据此,该文主要对深度学习视域下的文本表示方法进行了详细分析。(本文来源于《科技资讯》期刊2019年18期)
崔莹[4](2019)在《深度学习在文本表示及分类中的应用研究》一文中研究指出近年来,随着深度学习的快速发展,其已在多个应用领域开花结果,尤其在语音识别和图像处理领域接连取得重大突破,然而仍在某些领域处于起步阶段,如自然语言处理(NLP)领域,特别是对文本的表示及分类相关问题上的应用。自然语言处理任务中的文本分类技术是实现人机自由交互的关键技术,如何对文本内容进行提取和分类,从众多非结构化的文本中提取出有效的信息,成为了解决文本信息管理中的关键手段。本文首先从深度学习基本概念开始,对首要任务及主要模型等方面进行介绍;其次分析讨论深度学习在文本表示中的研究进展及应用策略;进而对基于深度学习的文本分类技术进行进一步介绍;最后,对深度学习在文本表示及分类中的应用难点进行展望。(本文来源于《电脑知识与技术》期刊2019年16期)
李腾飞[5](2019)在《文本分类中文本表示模型与深度学习算法研究》一文中研究指出随着互联网的飞速发展,以网络为载体的文本信息也呈现出爆炸式增长的趋势。这些海量数据依靠人工进行管理和分类会不仅会耗费大量人力和时间,同时也难以实现。所以,如何高效地组织和管理这些文本信息是自然语言处理领域的一大研究热点,这也促进了自动文本分类技术的长足发展。目前,在文本挖掘、信息过滤与检索等领域,自动文本分类技术已经得到了广泛的应用。自动文本分类是一个涉及到机器学习算法、优化理论以及自然语言处理等多个领域知识的技术。因此,许多因素会影响到自动文本分类的性能,例如:文本的预处理、文本表示模型的选择、特征降维算法、文本分类器的设计等。在众多的影响因素中,文本表示模型以及文本分类器的设计是自动文本分类领域的两大研究热点。本文首先讨论了文本分类的研究背景和意义,分析国内外研究动态和热点,阐明了文本分类各个流程的具体实现。在此基础上,本文主要在文本表示模型以及深度学习在文本分类中的应用两方面展开深入研究,并取得如下成果:(1)提出了一种基于神经网络语言模型的特征聚类算法:NNLM-FC。针对传统向量空间模型中词向量语义缺失、维度过高以及特征集合中存在大量同义词和近义词的问题,利用神经网络语言模型将特征词转化为低维的语义向量,使用K-means聚类算法将语义相似的特征词进行聚类,利用卡方统计算法计算每个特征词的卡方统计量,选择聚类簇中卡方统计量大的特征词用于文本表示,最后得到了基于神经网络语言模型的特征聚类算法(NNLM-FC)。在复旦大学语料库和网络爬虫数据集上使用朴素贝叶斯、支持向量机和K-近邻分类器,使用分类结果的正确率、_1F值作为度量标准,与常见的特征选择算法进行了全面的对比。实验结果证明本文提出的算法不仅能够有效的降低向量空间的维度,而且能提高文本分类的性能。(2)提出一种基于加权词向量的深度学习文本分类模型。针对传统深度学习模型不能很好区分词向量重要程度以及CNN模型丢弃了大量有用特征且不适合处理序列化文本的问题,首先提出一种新的特征权重计算方法(TDC),利用该算法对词向量进行加权处理,同时去除那些重要程度低的特征词,从而减小了深度学习输入矩阵的维度。接下来将CNN模型与LSTM模型结合起来,利用CNN模型提取文本中丰富的特征,结合LSTM模型处理序列数据的优势,使用加权后的词向量作为输入,最终得到了基于加权词向量的深度学习模型:W-CNN-LSTM。通过在Stanford Sentiment Treebank和Movie Reviews数据集上的实验证明了W-CNN-LSTM模型的分类性能优于传统的深度学习模型。(本文来源于《河南大学》期刊2019-06-01)
高梦园[6](2019)在《基于卷积神经网络的特征选择和特征表示文本分类研究》一文中研究指出移动通信经历了从1G到4G发展过程,目前5G正在蓬勃发展,互联网每时每刻都会产生包含文本、图片和影音等信息的海量数据,存储在云服务器、个人计算机或移动通信设备上。如何高效、快捷地获得有价值的信息是互联网用户最关心的问题,因此,对海量信息能进行智能自动分类处理、排除无价值或不健康信息的网络技术成为研究的热门领域。文本分类作为自然语言处理领域的研究热点之一,对优化网络环境、处理海量文本信息有重要意义。本文以提高文本分类准确率和缩短文本分类模型的训练时间为目标,主要研究内容如下:(1)本文首先对目前比较主流的分词工具进行性能测试,以分词结果的准确率和分词时间为判断依据,选用Jieba分词工具对文本进行分词。针对文档中的停用词种类繁多,且开源的停用词表各有千秋,本文重新整理了一套停用词表。为文本预处理奠定了良好的工作基础。(2)本文通过研究四种传统特征选择算法:词频(Document Frequency,DF)、卡方(?~2)检验(Chi-Square Test,CHI)、互信息(Mutual Information,MI)、信息增益(Information Grain,IG)。针对CHI特征选择算法的“低频词缺陷”,从词频和类离散度两个角度出发提出了改进方法,并在朴素贝叶斯分类器上进行实验。改进后的CHI-M特征提取算法分类平均准确率为87.49%,召回率为86.73%,较改进之前的平均分类准确率和召回率分别提升了4.88%和4.94%,验证了本文改进算法的有效性。(3)文本特征表示是文本分类任务中的重要环节。本文首先重点研究了基于概率模型的LDA主题向量模型和基于神经网络的word2vec词向量模型,并且对两个模型的重要参数进行训练,然后从语义表达和词义联合两个方面考虑,结合以上两种文本特征表示方法,设计了一种新的文本特征表示模型LDA-word。(4)为验证LDA-word文本特征表示模型的有效性,突破传统机器学习分类准确率提高的极限,本文通过深度学习中的卷积神经网络(Convolutional Neural Networks,CNN)实现文本分类。同时为加快模型收敛速度,在卷积层使用了ReLU激活函数。其次,采用Dropout策略减弱卷积神经网络模型的过拟合现象。最后在输出层引入Sigmoid函数,来提高模型输出的稳定性。(5)本文通过深度学习框架TensorFlow中的tensorboard可视化工具来监督叁种文本特征表示模型的训练过程,并分别使用LDA主题向量模型、word2vec词向量模型和LDA-word模型进行文本特征表示,然后输入CNN实现文本分类。实验结果表明,本文提出的LDA-word模型的分类结果在准确率、召回率上均有明显提升,并且通过该模型将训练语料库输入CNN之后的训练时间相较于LDA主题向量模型和word2vec词向量模型分别提高了0.71倍和1.56倍。(本文来源于《广西师范大学》期刊2019-06-01)
胡均毅[7](2019)在《文本的分层表示及情感分类方法研究》一文中研究指出随着互联网的快速发展,网上的信息也在短时间内发生了爆炸性的增长。其中,文本作为一种非结构化或半结构化的信息载体,成为了互联网内容的重要组成部分。如何更有效地挖掘和发现其中的有价值信息并加以合理利用一直是当前信息科技领域面临的一大挑战。本文主要关注文本的情感分类任务,其目的是按照文本整体情感倾向对文档进行分类,或将评论站点上的评论进行1-5星的评价。而分类的关键在于对文本进行良好的表示,并且识别文档中的积极、消极、中立情感以及它们的表达强度。然而,现有的模型通常忽略了文档的组成结构,且在文本表示的质量以及对情感内容的关注上存在不足。对此,本文从文本的通用表示和情感内容的关注两方面入手,探讨如何提高情感分类性能,主要工作和贡献如下:(1)本文提出了一种中心限制的分层文本表示方法以改进文本的通用表示。本文提出的中心限制分层注意力模型(Central Constraint Hierarchical Attention Network,CCHAN)利用双向GRU首先对单词进行编码并通过注意力机制加权获得句向量,再通过对句向量进行编码和加权获得文档表示。其中,我们设计使用的中心限制损失函数使得生成的同类别文档表示在向量表示空间中的聚合度更高。实验结果显示,分层表示能够提升模型大约35%的训练速度,而中心限制损失可以降低分类结果8%左右的均方根误差(Root-Mean-Square Error,RMSE),同时情感分类的准确率也证明了 CCHAN的有效性。(2)本文提出了一种基于情感内容关注的文本情感分类方法以识别和关注文本中富有情感信息的词句。在基于情感内容关注的分层注意力机制模型(Hier-archical Sentiment Attention Network,HSAN)中,本文设计了一种情感评价辅助网络实现了在上下文语境中对单词的情感信息做出评价。另外,我们设计了一种分段联合损失函数按不同阶段分别训练模型中的分类器网络和情感评价辅助网络,以便根据情感信息评分调整注意力权重分布。单词的情感评分和注意力分布可视化显示,HSAN能够识别文本中的情感内容并增加其对文本表示的贡献,最终获得了情感分类准确率上的提升。本文的实验在Yelp 2013、Yelp 2014、Yelp 2015和IMDB这4个真实公开的情感分类数据集上完成。实验结果表明,上述模型优于近期的其他优秀模型,能够较好地完成文本表示和情感分类任务。(本文来源于《中国科学技术大学》期刊2019-05-29)
徐若易[8](2019)在《基于注意力机制的文本表示研究》一文中研究指出文本表示是不同自然语言处理任务的基础,需要将一段由字和词组成的序列表示成计算机可以处理的数字信息。一个好的文本表示需要体现出文本自身的语法特征和语义特征,但是如何将语法和语义由数字精确地表示,一直是自然语言处理领域面临的最大挑战。近年来,深度学习的兴起使文本表示出现了更多的可能性。以注意力机制为基础的文本表示方法有着灵活的建模方式、良好的解释性、高效的计算能力等特征,而被研究者们所青睐。但是,现有的基于注意力机制的文本表示方法,大多存在两个问题:1.注意力机制方法是加权求和的方式,没有考虑词的相对位置关系,即缺少了文本结构信息;2.注意力机制有很多基本计算方法,且差异巨大,这会使模型设计更加繁琐。本文主要研究了基于注意力机制的文本表示方法,依据上述两个问题,工作内容可以概括成以下两点:(1)提出了基于注意力机制的多位置信息的文本表示方法,使用不同的屏蔽矩阵应用于注意力机制,提取了多种文本结构信息的文本表示;并设计融合机制,将多种文本表示整合为统一文本表示。这样能将词的相对位置信息引入注意力机制中,修正加权求和方式,解决注意力机制缺少文本结构信息的问题。具体地说,本文设计了远距离屏蔽矩阵、距离惩罚矩阵,提取了文本的局部信息,同时使用了前向、后向屏蔽矩阵,提取了文本的序列信息;另外,在融合机制中,设计了参数共享策略,使得待训练参数数量从平方量级降低到了线性量级。通过在情感分析任务和文本分类任务上对我们提出的基于注意力机制的多位置信息的文本表示方法进行测试,实验结果表明,基于注意力机制的多位置信息的文本表示方法不仅在时空复杂度上有优势,而且有更好的测试集正确率。(2)提出了注意力机制中参数可调的文本表示方法,从参数角度总结并比较了注意力机制的各种变体,寻找到了较优的注意力机制设计方法,给出了注意力机制设计的指导。本文提出了两种新的兼容函数:常数兼容函数、混合兼容函数。其中,混合兼容函数同时考虑了拼接和乘法的向量联合方式。本文在斯坦福情感分析数据集上,对注意力机制中参数可调的文本表示方法进行了兼容函数设计和多维方法的验证,实验结果表明,本文设计的混合兼容函数在注意力机制中提取信息的能力优于其他兼容函数,且多维方法对注意力机制均有所提升。(本文来源于《中国科学技术大学》期刊2019-05-29)
王晶[9](2019)在《基于深度学习的文本表示和分类研究》一文中研究指出文本表示是自然语言处理(Natural Language Process,NLP)领域的关键技术,文本表示的质量往往对现代基于深度学习的NLP系统产生至关重要的影响。传统的NLP系统多基于特征工程实现,需要专家定义特征并撰写特征抽取器,有效特征往往难以定义且实现复杂。深度学习技术的发展为NLP带来了重大技术突破,基于深度神经网络的方法可以从数据中自动学习文本的特征,不仅工程量极大地减少,往往分类效果也更具优势。随着神经网络的结构变得更深更复杂,情感分析、主题分类等文本分类任务的瓶颈得以不断突破。虽然加深神经网络的深度可以获得更强大的函数逼近和数据拟合能力,即表达能力,但是目前没有工作表明模型的表达能力与模型的语义鲁棒性是否存在相关性。此外,以词向量为代表的预训练语义表示模型往往可以提升下游NLP任务的表现,现有的对上下文无关词向量的迁移策略的研究仍然比较初步。由此,本文对基于神经网络的模型的语义表示鲁棒性和词的迁移学习策略进行深入研究,具体如下:文本语义表示能力与文本分类性能的相关性研究。本文从信息缺失和噪声冗余两个角度给出语义鲁棒性的定义,提出一种可靠的语义评价模型RAcc(Robust Accuracy),弥补了传统分类评价指标无法评估模型稳定性的缺陷。基于RAcc模型,本文重点研究深度神经网络模型的表示能力与分类性能的相关性,实验结论揭示了现有表示和分类模型的局限性,为文本分类等NLP问题的研究提供启示。词向量的迁移学习策略。从海量的通用语料中预训练词向量,并迁移到下游分类任务中可以提升系统的性能。现有的研究往往使用词向量随下游模型联合训练的微调策略,来使得预训练的词向量模型更好地适配下游任务。本文指出该策略并不能总是带来预期的性能提升,却可能极大地增加训练资源开销。对此,本文首先为该策略建立一种称为“3-signal”的理论模型,解释该策略理论上存在的局限性,而后提出两种更高效的迁移学习策略Scaling和Lin-trans。实验表明本文提出的方法在分类任务上不仅可以带来显着的性能提升,并且在RAcc评测下表现出更强的语义鲁棒性。(本文来源于《北京邮电大学》期刊2019-05-28)
张涛,王俊峰[10](2019)在《基于文本嵌入特征表示的恶意软件家族分类》一文中研究指出自动化、高效率和细粒度是恶意软件检测与分类领域目前面临的主要挑战.随着深度学习在图像处理、语音识别和自然语言处理等领域的成功应用,其在一定程度上缓解了传统分析方法在人力和时间成本上的巨大压力.因此本文提出一种自动、高效且细粒度的恶意软件分析方法-mal2vec,其将每个恶意软件看成是一个具有丰富行为语义信息的文本,文本的内容由恶意软件动态执行时的API序列构成,采用经典的神经概率模型Doc2Vec对文本集进行训练学习.实验结果表明,与Rieck~([1])等人的分类效果相比,本文方法得到的效果有明显提升.特别的,不同于其他深度学习的方法,本文方法能够抽取模型训练的中间结果进行显式表示,这种显式的中间结果表示具有可解释性,可以让我们从细粒度层面分析恶意软件家族的行为模式.(本文来源于《四川大学学报(自然科学版)》期刊2019年03期)
文本表示论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
【目的】更加全面地提取文本语义特征,提高文本向量对文本语义的表示能力。【方法】通过卷积神经网络提取词粒度、主题粒度和字粒度文本特征向量,通过"融合门"机制将叁种特征向量融合得到最终的文本向量,并进行文本分类实验。【结果】该模型在搜狗语料库文本分类实验上的准确率为92.56%,查准率为92.33%,查全率为92.07%,F1值为92.20%,较基准模型Text-CNN分别提高2.40%,2.05%,1.77%,1.91%。【局限】词序关系范围较小,语料库规模较小。【结论】该模型可以更加全面地提取文本语义特征,得到的文本向量对文本语义表示能力更强。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文本表示论文参考文献
[1].王先传,刘宗田.新闻文本中事件语义表示[J].上海大学学报(自然科学版).2019
[2].聂维民,陈永洲,马静.融合多粒度信息的文本向量表示模型[J].数据分析与知识发现.2019
[3].聂维,刘小豫.深度学习视域下的文本表示方法研究[J].科技资讯.2019
[4].崔莹.深度学习在文本表示及分类中的应用研究[J].电脑知识与技术.2019
[5].李腾飞.文本分类中文本表示模型与深度学习算法研究[D].河南大学.2019
[6].高梦园.基于卷积神经网络的特征选择和特征表示文本分类研究[D].广西师范大学.2019
[7].胡均毅.文本的分层表示及情感分类方法研究[D].中国科学技术大学.2019
[8].徐若易.基于注意力机制的文本表示研究[D].中国科学技术大学.2019
[9].王晶.基于深度学习的文本表示和分类研究[D].北京邮电大学.2019
[10].张涛,王俊峰.基于文本嵌入特征表示的恶意软件家族分类[J].四川大学学报(自然科学版).2019