导读:本文包含了文本层次模型论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:层次,文本,水印,模型,算法,邻居,舆情。
文本层次模型论文文献综述
王青[1](2018)在《基于强化学习的层次化注意力网络模型及文本情感分类研究》一文中研究指出随着社交平台和电商平台数量的急剧增加,用户在网络上发表意见、表达情感已经成为一种日常现象,因此海量的非结构化数据也随之产生。利用自然语言处理技术对非结构化文本数据进行分析,并挖掘其中所带有的情感倾向,可以为社会舆情监督、商家售后信息反馈和其他用户的决策提供有力的帮助。因此,文本情感分类研究具有非常重要的社会意义和商业价值。在自然语言处理任务中,对停用词的处理通常是使用人工维护的停用词表,并没有一个明确的停用词表适用于所有的情景。另外,文本情感分类任务可以在不同层面进行,例如:文档级、句子级、词或短语级。本文是在文档级处理情感分类任务,其中以深度学习为基础的层次化注意力网络模型(HAN)在过去几年中取得了较好的分类准确率。但是它本身也存在不足,即基于序列的双向门控循环单元(GRU)对文本结构的依赖非常强,而层次化的注意力网络模型(基于双向GRU)没有考虑文本的结构。因此本文提出了两种改进模型:(一)ID-HAN模型是将HAN模型的底层换为一个强化学习模型,对文档分词后一句话中的词是否保留进行自动学习,从而实现针对实验文本数据和实验目的的停用词自动处理。之后将保留的词汇利用单层长短期记忆网络(LSTM)构建句子向量表达,在接下来要进入的句子序列编码器层加入一个高速连接,使得底层的强化学习模型可以得到充分的训练。与人工去除停用词的LSTM-BiGRU模型和HAN模型相比,ID-HAN模型在实验数据集上有更高的准确率。(二)HS-HAN模型底层也为一个强化学习模型,可以自主的学习到英文句子的内部短语结构并进行调整。该模型通过一个两级的LSTM网络,抽取出带有结构信息的句向量,接下来输入到加入高速连接的句子序列编码层(与ID-HAN模型类似带有高速连接),得到整篇文本带有结构信息的向量表示。与当前文档级情感分类任务常用的HAN模型和Struc-ATT模型相比,HS-HAN模型在英文实验数据集上有更高的分类准确率。(本文来源于《华南理工大学》期刊2018-04-20)
古平,王春元[2](2017)在《结合邻居辅助策略的两阶段层次文本分类模型》一文中研究指出传统两阶段层次文本分类模型(THTC模型)是一种解决大规模层次文本分类问题的有效方法,但该模型的分类准确率仍然不是很高。为了缓解这个问题,提出了结合邻居辅助策略的两阶段层次文本分类模型(THTC-NA模型)。THTC-NA模型由搜索阶段和分类阶段组成。搜索阶段采用扁平策略从所有的叶子类别中选择与待分类文档最相关的k个类别作为候选类别集,这样可以大大减小分类阶段的搜索空间。分类阶段通过结合候选类别的祖先类别和兄弟类别的分类结果来帮助计算候选类别在分类阶段的结果。最后将搜索阶段的结果和分类阶段的结果融合起来共同决定待分类文档的目标类别。在数据集Newsgroups-18828上的实验表明,相对于THTC模型,THTCNA模型对提高层次文本分类准确率有很大的帮助。(本文来源于《计算机工程与应用》期刊2017年09期)
王春元[3](2016)在《基于邻居辅助策略的两阶段层次文本分类模型研究》一文中研究指出传统的文本分类方法在类别数目较少时取得了很好的分类效果。然而,随着类别数目越来越大,如LookSmart、ODP等都有成千上万的类别,如果还利用扁平化方式组织这些类别,那么为一个文档正确的指定其目标类别的难度就变得非常大。所以,实际应用中通常将这些类别组织成层次结构。基于层次结构,学者们引入了层次文本分类方法。比较常用的层次文本分类方法有Big-bang分类方法和Top-down分类方法。由于Big-bang分类方法的时间开销和空间开销较大以及Top-down分类方法“阻滞”现象的不可避免性,传统的层次文本分类方法并不能很好的应用到大规模层次文本分类中。而新近提出的两阶段层次文本分类模型(THTC模型)是一种解决大规模层次文本分类问题的有效方法。相对于传统层次文本分类方法,THTC模型在分类性能和时间效率上都有了显着提高,但是该模型在分类过程中仍然存在很多不足。因此,本文在THTC模型的基础上提出了基于邻居辅助策略的两阶段层次文本分类模型(THTC-NA模型)。本文的主要工作包括以下叁个方面:(1)系统的研究了层次文本分类中的方法和应用,并在THTC模型的基础上提出了THTC-NA模型。THTC-NA模型包含搜索和分类两个阶段,搜索阶段通过引入基于类别的搜索策略进行候选搜索,对原类别层次结构进行虚拟剪枝,以减小数据规模。并采用Top-down方法将候选类别组织成层次结构,这样可以保持该层次结构在原类别层次结构中的位置不变,从而可以不用对每一个待分类文档都训练一个特殊的分类器。(2)分类阶段利用类别层次结构中各个节点的邻居节点的分类结果辅助对该节点的分类判决,并针对邻居节点可靠性未知的问题引入了置信度。同时,以层次路径做全局搜索,避免了由于单一节点误判可能导致局部最优陷阱。在数据集Newsgroups-18828上的实验表明,邻居节点的分类结果对指定待分类文档的目标类别有很好的辅助作用。(3)针对THTC模型未能充分利用搜索阶段的信息的问题,THTC-NA模型提出一种新的分类判决方法。该方法将搜索阶段的结果和分类阶段的结果都融入到分类模型中,以加权累加的结果作为最后的分类判决。实验结果表明:融合两阶段的结果判定待分类文档的目标类别的方法在分类准确率和宏平均F1值上都要优于只使用分类阶段的结果判定文档的目标类别的方法。(本文来源于《重庆大学》期刊2016-04-01)
肖雪[4](2015)在《基于最大熵模型的中文文本层次分类方法》一文中研究指出针对文本信息海量增加的现状,快速、准确、全面地获取有用信息的大规模信息处理应用技术越来越受到关注。本文将中文文本分类的类别体系构建为层次结构,并把最大熵模型引入中文文本的层次分类,该模型用于得到未知事件分布的最大熵。实验证明,最大熵模型方法的层次分类性能在很多时候优于平面分类,是一种有效的中文文本分类方法。(本文来源于《计算机与网络》期刊2015年09期)
蒋娇[5](2014)在《独特的文本叙事模型——《坎特伯雷故事集》之叙事视角和层次分析》一文中研究指出英国文学家乔叟的《坎特伯雷故事集》在英国文学史上有着举足轻重的地位。而它在叙事结构上也有着独到之处,有着独特的叁层叙述结构,在叙事视角的转移,变化,重合。特殊的叙述结构使整个故事融合为一体,在整个结构上呈现出圆型的特点,和我国古代的章回体小说又在不同之处。通过这样的叙事视角和层次,潜在的表达了作者对当时社会及宗教教义等权威的主流价值观的怀疑和批判,呈现出作者思辨的睿智,高度浓缩的描述了芸芸众生的生活,使这部故事集具有一定的史学价值,有其独特的光辉。(本文来源于《金田》期刊2014年01期)
张浩[6](2013)在《基于向量空间模型的层次聚类算法在文本挖掘中的应用》一文中研究指出在传统聚类模型的基础上,提出一种基于向量空间模型的层次聚类算法,用于文本数据的挖掘。实验结果表明,基于向量空间模型的层次聚类算法从挖掘的准确率上更具有性能优势。(本文来源于《温州职业技术学院学报》期刊2013年01期)
李维仙[7](2011)在《基于ODRM层次模型的多重文本数字水印算法》一文中研究指出首先,提出开放式数字版权管理ODRM(Open Digital Rights Management)的概念,并以ODRM为基础,针对水印功能的需求提出一种新的数字水印层次模型。然后,利用ODRM层次模型实现了一种基于概率算法的多重文本数字水印(MTDW)算法,该算法具有较好的隐蔽性和安全性,同时针对攻击者对文本文件和水印信息的破坏,具有较好的检测和纠错提取性能。最后,通过概率算法理论和对攻击试验数据的分析,证明该算法的具有较高的可靠性。(本文来源于《煤炭技术》期刊2011年04期)
李文,苗夺谦,卫志华,王炜立[8](2010)在《基于阻塞先验知识的文本层次分类模型》一文中研究指出文本层次分类中阻塞现象是影响层次分类器性能的重要原因.针对这一问题,提出基于阻塞先验知识的文本层次分类模型.该模型包括两部分:首先对阻塞分布进行估计,提出"阻塞对"识别技术,重点在于获取严重的阻塞方向;其次,把分析出的阻塞先验知识融合到分类过程中,利用层次拓扑结构修正算法,引导阻塞文本"回归"正确分类路径.在中文语料TanCorp上的实验表明,该算法在没有额外增加分类器数目的前提下,能有效改善层次分类性能,是解决层次分类阻塞问题的一种方法.另外,与平面分类算法比较后,该算法更稳定.(本文来源于《模式识别与人工智能》期刊2010年04期)
丁兆云,贾焰,周斌[9](2008)在《基于文本数据的多维层次式舆情计算模型的研究与实现》一文中研究指出舆情是指一定时期内一定范围内的社会群体对某些社会想象和现实的主观反映,实时地计算舆情能够及时掌握舆情动态、积极引导社会舆论。基于文本数据,提出了一种多维层次式舆情计算模型——文本立方体模型。该模型能够从多维度、多层次上来计算舆情,同时对文本立方体模型进行了钻取与切片操作分析。最后建立了文本立方模型的原型系统,通过实验分析,验证了文本立方体模型的有效性与实际可行性。(本文来源于《第二十五届中国数据库学术会议论文集(一)》期刊2008-10-24)
张莉华[10](2008)在《基于层次模型的文本数字水印算法研究》一文中研究指出针对格式文档的特点,设计了新的文本数字水印算法。将信息嵌入到文本的冗余空间之中,不影响文本正常,同时兼具较高的隐蔽性。采用了优秀的加密和签名机制,有效地提高了水印的安全性和鲁棒性。(本文来源于《重庆科技学院学报(自然科学版)》期刊2008年02期)
文本层次模型论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
传统两阶段层次文本分类模型(THTC模型)是一种解决大规模层次文本分类问题的有效方法,但该模型的分类准确率仍然不是很高。为了缓解这个问题,提出了结合邻居辅助策略的两阶段层次文本分类模型(THTC-NA模型)。THTC-NA模型由搜索阶段和分类阶段组成。搜索阶段采用扁平策略从所有的叶子类别中选择与待分类文档最相关的k个类别作为候选类别集,这样可以大大减小分类阶段的搜索空间。分类阶段通过结合候选类别的祖先类别和兄弟类别的分类结果来帮助计算候选类别在分类阶段的结果。最后将搜索阶段的结果和分类阶段的结果融合起来共同决定待分类文档的目标类别。在数据集Newsgroups-18828上的实验表明,相对于THTC模型,THTCNA模型对提高层次文本分类准确率有很大的帮助。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文本层次模型论文参考文献
[1].王青.基于强化学习的层次化注意力网络模型及文本情感分类研究[D].华南理工大学.2018
[2].古平,王春元.结合邻居辅助策略的两阶段层次文本分类模型[J].计算机工程与应用.2017
[3].王春元.基于邻居辅助策略的两阶段层次文本分类模型研究[D].重庆大学.2016
[4].肖雪.基于最大熵模型的中文文本层次分类方法[J].计算机与网络.2015
[5].蒋娇.独特的文本叙事模型——《坎特伯雷故事集》之叙事视角和层次分析[J].金田.2014
[6].张浩.基于向量空间模型的层次聚类算法在文本挖掘中的应用[J].温州职业技术学院学报.2013
[7].李维仙.基于ODRM层次模型的多重文本数字水印算法[J].煤炭技术.2011
[8].李文,苗夺谦,卫志华,王炜立.基于阻塞先验知识的文本层次分类模型[J].模式识别与人工智能.2010
[9].丁兆云,贾焰,周斌.基于文本数据的多维层次式舆情计算模型的研究与实现[C].第二十五届中国数据库学术会议论文集(一).2008
[10].张莉华.基于层次模型的文本数字水印算法研究[J].重庆科技学院学报(自然科学版).2008