导读:本文包含了自动文摘系统论文开题报告文献综述、选题提纲参考文献,主要关键词:文摘,分词,评价,卷烟,主题,中文,句子。
自动文摘系统论文文献综述写法
万欣[1](2019)在《基于自动文摘的辅助文档撰写系统研究与实现》一文中研究指出大型文档撰写对于企业和用户来说都是极具挑战的问题。随着信息时代的到来,用户在写作中搜索素材的渠道越来越繁杂,信息的浏览、筛选、理解、整理保存也变得愈加困难。自动文摘技术是从一篇或多篇文档中提取其中心思想的技术,它能够帮助人们快速的阅读文档,提取文档中的重要信息和中心思想。在学术界,结合注意力机制的序列到序列架构模型被广泛的应用于生成式自动文摘问题,并取得了不错的成果,也有很多相关工作基于此架构做出了改进。但由于解码器端的误差在测试模型时会被不断放大,这一方法存在着错误累积的问题。本文提出采用双向解码器来对摘要进行解码,反向解码器的解码结果为前向解码器生成摘要提供了参考。通过在编码器和反向解码器端同时引用注意力机制,来生成更完善的摘要内容。同时,本文在反向解码器和前向解码器中都添加了 Pointer机制,解决了词汇表过大的问题。针对中文摘要数据集普遍规模不大的特点,本文提出不分词的技巧来大幅度提升摘要质量。实验结果表明,本文的工作能在中文数据集NLPCC 2017 TTNews和英文数据集CNN/Daily Mail上产生更高质量的摘要。本文同时实现了基于此自动文摘技术的辅助文档撰写系统,融合标签抽取、抽取式自动文摘、网页降噪等技术辅助撰写,帮助用户快速筛选阅读海量信息。系统提供了相关的文档导入、文档和素材管理、结构化标签管理以及文档模板定义功能。同时,支持多个用户共同完成一篇大型文档,阅读与摘要数据能够实时同步。系统采用Django框架和React组件式开发技术完整的集成了上述模型和功能。(本文来源于《北京邮电大学》期刊2019-05-20)
孙国超[2](2017)在《基于LDA主题模型的web文本自动文摘系统的研究与实现》一文中研究指出互联网时代的到来导致了 web信息爆炸式增长,人们对于快速获取web文本主旨信息的需求已非常迫切,因此,自动提取文本摘要的自动文摘算法和自动文摘软件成为了中文信息处理领域研究的热点问题。本文在分析总结现有自动文摘算法和软件存在的问题基础上,针对现有相似度算法和句子排序算法的主要问题,基于LDA主题模型,提出了一种新的相似度算法和LDA-TDTI句子排序算法,并结合进出口纺织原料质量安全风险监测系统开发了一套自动文摘系统。具体研究内容和成果介绍如下:(1)总结现有的相似度计算方法,比较各种相似度算法的优缺点,在此基础上,提出了一种新的相似度计算方法;该算法在潜在狄利克雷分布(LDA)的理论基础上,构建主题空间模型,将字、词、句子、文档、语料库表示成空间模型中的向量;通过实验验证,证明该算法在一定程度上起到降维作用,避免了外部字典的使用,消除了未登录词的语义问题。(2)分析总结了常见句子排序算法的优缺点,针对LDA模型存在的文档主题分布未被反应的问题,提出了 LDA-TDTI句子排序算法;LDA-TDTI算法将句子的主题分布和句子主题重要度间的相似度作为计算句子重要度的标准,相似度越高,表明句子越能代表文章主题;通过理论分析和实验验证,证明该算法提高了文摘的主题覆盖度,提升了文摘句的质量。(3)基于句子排序算法的研究成果,采用OO和UML技术,分析并设计实现了一套自动文摘系统。给出了系统的用例图、E-R图、架构设计、数据库物理结构、类图、应用界面、交互图等主要软件系统模型,阐述了主要模块的实现方案。系统能够较快地提取web文本的文摘,且文摘质量较高。将自动文摘系统应用到进出口纺织原料质量安全风险监测系统中,应用结果表明,该系统能自动提取web文本摘要,用户体验较好,与同种类型的系统相对比,提取的文摘句质量得到了明显的提高。(本文来源于《山东科技大学》期刊2017-04-01)
高东辉,路伟,张永刚,赵雷,王卓[3](2015)在《基于自动文摘的地震灾情信息分析处理系统研究与实现》一文中研究指出本文介绍了基于自动文摘技术的地震灾情信息分析处理系统的设计与实现,该系统利用信息融合技术实现对庞大离散的灾情信息的及时汇总、整理、分类,建立地震灾情信息语义向量空间模型,结合自然语言处理领域内的自动文摘技术及地震应急指挥的特点,及时有效地抽取最有价值的震情灾情反馈信息,自适应形成规范化灾情信息分析处理文档。对系统所涉及的多文档自动文摘等关键技术进行了分析和描述,最后通过模拟数据对系统性能进行了检验与评估,实验证明,本系统提出的文摘能够反映地震灾情信息的关键内容,可读性较好。(本文来源于《化工中间体》期刊2015年12期)
苏彬[4](2015)在《基于Word2Vec的自动文摘系统的设计与实现》一文中研究指出随着信息技术与互联网的高速发展,互联网上的信息量成倍增长,而且更新速度越来越快,如何高效地在海量的信息中获得有用的信息变得日益重要。文摘作为文本信息内容的概述,能够客观的概括出信息的主要内容,使人们能够通过简洁可读的文字高效获取所需要的信息。深度学习技术为自动文摘技术的进一步发展提供了帮助,Word2Vec有关训练词向量的特性也被研究者所关注。本文提出一种基于Word2Vec的自动文摘系统的设计与实现方法,主要研究工作如下:1)提出了一种基于词特征的主题词提取方法,该方法通过统计词频,分析词性及词语所在位置等词特征来进行词语权重计算,完成了主题词的抽取。2)提出一种基于Word2Vec的自动文摘生成方法,在确定主题词时加入了通过Word2Vec进行词语加权的过程,通过主题词对文本候选摘要句进行权重评估。3)提出一种对自动文摘抽取效果的评测方法,将实验语料原文和抽取的文摘文本分别通过建立索引、再输入关键词进行检索,并计算其召回率来评测算法性能。实验结果与分析显示了本文提出的方法在自动文摘效果方面有所改善。本文最后对存在的问题及以后的研究工作计划进行了说明。(本文来源于《河北科技大学》期刊2015-12-01)
徐宇婷[5](2014)在《基于排序主题模型的自动文摘及评价系统》一文中研究指出随着时代的发展与进步,计算机及互联网成为人们生活中必不可少的一部分,大量信息随着互联网技术的迅猛发展以电子文本的形式出现在人们面前。如何快速、准确地从大量无结构化的文本中获取人们需要的信息成为研究的热点和难点。人们越来越希望用简练的文字表达大量相关文本的主要内容,从而减少获取有用信息的时间。自动文摘技术就是解决这一问题的有效工具。主题模型在自动文摘中被广泛应用,通过得到的主题分布抽取原文中句子形成文摘,但文本集的主题分布之间是并列关系,因而在形成文摘时也没有相应的重要性排序。本文针对主题模型中得到的主题分布没有重要性排序这一问题,将排序算法与主题模型相结合,构建排序主题模型,进而有效地提高文摘质量。具体工作如下:1.基于特征选择的排序主题模型。本文采用的特征选择方法是特征相似度算法,根据主题分布计算主题间的最大压缩指数,以此去除冗余计算主题权重对主题进行排序,得到有序的主题分布来对文摘句进行抽取。在DUC2002数据集上进行对比实验,证明了特征相似度对提高摘要质量的有效性。2.基于互信息最大生成树的排序主题模型。采用互信息最大生成树算法,根据主题分布计算主题间的互信息,然后构建互信息最大生成树,通过计算权重对主题进行排序,得到有序的主题分布,进而指导文摘句抽取。在DUC2002数据集上进行实验,对算法进行验证,实验结果证明了互信息最大生成树算法对提高摘要质量的有效性。3.运用众包策略来对系统进行人工评价。考虑到人工评价的成本及平台推广,本文使用了微信公众平台对文摘进行评价。同时考虑到微信在大学生中应用较为广泛,因此本实验使用的数据集是大学英语四六级阅读,既有一定的应用性又利于微信这一平台的推广。(本文来源于《大连海事大学》期刊2014-06-04)
王强[6](2014)在《面向卷烟质量评价的自动文摘系统研究》一文中研究指出随着市场竞争的日益加剧,企业如果想在激烈的产品市场竞争中站得住脚绝非易事,但也并不是没有可能。企业需要做的就是牢牢把握质量,通过不断地提高产品的质量来满足消费者的期望,让消费者信赖。加入WTO后现代烟草企业的发展势头越来越猛,但是我国的烟草行业也面临着产品激烈的市场竞争和更加严峻的挑战,卷烟产品的质量已成为一个衡量烟草企业竞争力的重要因素。卷烟产品质量的好坏直接影响烟草企业的经济效益,更长远的来看它也决定了该企业未来发展的高度。正是因为如此,各大烟草企业将质量置于高度重视的地位。卷烟质量的优劣迄今仍是靠卷烟评吸专家的感官进行评估。因此,烟草企业在开发出一个新产品或者改进一个卷烟产品后会组织评吸人员对卷烟产品进行评吸测试,然后卷烟评吸人员会对卷烟产品进行质量评价以及描述反馈意见。而大量的质量评价文本需要人为的分析与整理,耗时比较长,而且容易出现差错,本文设计的面向卷烟质量评价的自动文摘系统正是解决这一难题的非常有效的工具。现代社会是一个信息爆炸的时代,信息过载问题已经成为一个显着的问题。传统的信息检索方法已经不能满足人们对获取巨大的信息的要求,摘要作为对原始文本信息的压缩可以减少信息量。人们可以利用计算机对这大量文本信息进行预处理,生成能够基本反映文章主要内容的摘要信息,然后只要阅读少量的摘要信息就可以做出大致的判断。读者如果对该文章有兴趣可以进一步阅览全文,如果想汇总某一文档的基本信息,就可以得到大致的摘要内容,这将大大地提高人们获取电子文本信息的效率。通过阅读较为准确的摘要信息,就可以轻松、快速地了解原文,而无须去通读全部文档,从而可以节省宝贵的时间和精力。自动文摘是情报科学和计算机语言学共同关注的课题,其本质是信息的浓缩和信息的挖掘。从理论上来讲,对自动文摘的研究将有助于探讨人们从中获取知识的认识模型,并且概括、理解自然语言文本,自动文摘也被认为是计算机实现自然语言理解的重要标志之一。从应用角度来讲,在因特网和文献电子化迅速发展的今天,自动文摘系统的使用将大幅度降低人为的编制摘要成本,缩短文摘的出版周期,为人们迅速、准确和廉价地获得所需要的信息提供方便。本文设计的面向卷烟质量评价的自动文摘系统采用自动摘录原文中句子生成摘录性摘要的方法。系统基于.NET框架开发实现,使用了SQL Server2005数据库。该系统直接利用计算机进行烟草领域文本信息摘要的自动生成,要实现的功能就是卷烟产品的质量描述评价文档经过统计分析、情感分析等给出文本信息的摘要句并按照一定的规范输出。本文对系统的各功能模块的具体实现做了详细介绍,主要包括五个模块。文本预处理模块对文本信息进行预处理,使文本按一定的规则规范化;分词模块,对文本信息进行中文分词,中文自动分词技术是自然语言处理领域一项很重要的基础工作;加载词库模块,使系统的分词词库越来越丰富,增加分词的准确度;词频统计分析模块,通过统计名词指标词与形容词性情感词,找到关键词,为提取摘要做准备;情感极性判断模块,通过对文本信息中关键词所属句子集合中的形容词的极性进行加权求和计算,得到各个关键指标词所拥有的情感极性;输出摘要模块,根据以上模块的分析,按照一定的规则得到摘要信息,从而实现对用户需求的功能。本文设计实现的面向卷烟质量评价的自动文摘系统,解决了用户的需求,可以极大的提高了烟厂测试分析人员的工作质量和效益,减少差错,减轻劳动强度,从而快速提高烟草企业的卷烟产品质量和整体管理水平,具备一定的实用性和推广价值。(本文来源于《中国海洋大学》期刊2014-05-08)
兰希[7](2014)在《基于篇章修辞结构的多文档自动文摘系统的设计与实现》一文中研究指出随着大数据时代的到来,人们花费在搜索上的时间越来越多。面对着成千上万同一主题下的网页,它们大部分都包含着相同的信息,然而又包含着少量不同的信息。因此,人们迫切地需要能提供更有力的信息浓缩和筛选的加工工具。多文档自动文摘可以将多篇同一主题下的文章进行汇总和压缩,提供给人们全面、简洁的信息。实验室前课题组设计并实现了一个基于语义的单文档自动文摘系统。但是单文档自动文摘已经难以满足人们对获取大量准确信息的迫切需要。因此,本文设计并实现了一个多文档自动文摘系统,主要有以下几方面的成果:1.设计并实现了一个基于篇章修辞结构的多文档自动文摘系统,系统地描述了不同层面上文本单元之间的相互关系,并且提出了多文档的修辞结构框架。同时,本文将句子中特征词的权重、句子的句型、句子的位置等句子的多特征信息与多文档修辞结构相结合,从而共同来衡量句子的重要性。2.本文采用了一种混合聚类算法HCA,对多文档进行主题的划分。以段落为基本单位,混合聚类算法HCA是将K-Means算法与层次聚类算法相结合,从而有效地解决了多文档主题数目不能确定的难题。实验结果表明,混合聚类算法比单一的聚类算法对主题划分的准确度更高。3.由于多文档自动文摘是从同一话题下的多篇文章中抽取句子,因此,会有语句不连贯和信息冗余等缺点。为保证文摘准确并且有较好的可读性,本文对已经抽取的文摘句进行了冗余处理和句子压缩,生成更易阅读的文摘。基于上述的工作,最后我们开发并实现了一个多文档自动文摘实验系统。从哈尔滨工业大学多文档语料库中选取了20篇不同话题的多文档文章,每个话题下有3至7篇不等的关于该话题的报道,在该系统上进行了测试。实验表明,该系统能够有效地抽取不同话题的多文档文摘,评测效果比较理想,并且本系统具有良好的可用性和可移植性。(本文来源于《厦门大学》期刊2014-05-01)
张瑞玲[8](2014)在《教学资源自动文摘系统的研究与设计》一文中研究指出随着教育信息化的迅速发展,网络成为获取教学资源越来越重要的途径,电子格式学习资源的数量也越来越庞大。然而,庞大的资料数目为学习者提供宽广选择范围的同时也降低了筛选效率。从海量信息中快速选择出所需资源变得越来越重要。自动文摘技术能够对文档内容进行压缩和筛选,提炼出原始文档的核心内容,帮助用户快速了解文章主要内容,进而对文章进行筛选。本文在现有自动文摘技术基本概念和方法的基础上,通过对国内外研究成果的分析梳理,对汉语特征词提取算法以及文章主题句抽取多种方法进行了分析研究。在关键词抽取和文摘句提取的算法选择方面,本文主要采用了基于词频的计算方法对文章进行关键词提取,并使用综合词权、位置、句型等多种特征的方法计算文章中每个句子的权重。最后,本文以思源网络教学平台为依托实现了一个实验性质的自动文摘系统,该系统能够生成效果较好的自动文摘。系统首先对获取的教学资源文档进行文本格式转换,提取出其中的纯文本内容以备后续分析使用。对于符合条件且需要生成自动文摘的文档资源,系统会对其篇章结构进行浅层分析。分词是自动文摘技术的重要前提,本文选用分词效果较好的中科院汉语分词系统,并使用人工语料库进行文章关键词和候选文摘句的提取。然后通过基于语义词典的语义相似度计算方法降低同义句造成的冗余,并根据预定义的简单关联词规则对所生成自动文摘进行连贯性处理,提高其可读性。系统最后能够实现关键词和自动文摘的双重呈现。(本文来源于《北京交通大学》期刊2014-03-01)
王强,丁香乾,王涛,周照艳[9](2013)在《面向卷烟质量评价的自动文摘系统设计》一文中研究指出基于.NET平台,结合SQL Server2005数据库,设计了一个针对日常卷烟产品质量反馈意见汇总的自动文摘系统。系统的运行可以极大提高烟厂分析人员的工作质量和效益,减少差错,减轻劳动强度,提高市场测试评价人员的工作效率。因此,面向卷烟质量评价的自动文摘系统,可以作为分析市场测试评价信息的有效工具,在实际中也得到了良好的应用。(本文来源于《微型机与应用》期刊2013年23期)
沈敏[10](2012)在《基于自动文摘与用户反馈的个性化搜索引擎系统的研究与设计》一文中研究指出在信息爆炸的今天,搜索引擎已经成为了一种从大量的数据信息中发现、推理知识的有效工具。但是,传统的搜索引擎系统存在着对于不同用户的同样查询会返回相同结果的弊端,而且用户也越来越迫切地希望系统能返回更高准确率的结果。所以,本文将自动文摘和用户反馈技术引入到传统的搜索引擎系统中,以此提高系统的精确率。本文通过分析传统搜索引擎MG(Managing Gigabytes)系统模型,研究并设计了一个相对完整的个性化搜索引擎系统。根据需求分析,本文把系统分为了文档处理模块、聚类模块、用户查询处理模块、用户分类模块、系统反馈模块、相似度计算模块、排序模块、结果显示模块以及系统评估模块。系统首先对用户进行聚类分析,提取用户的兴趣模型;然后根据用户反馈信息,在计算查询向量与文档向量的相似度时,调整个性化参数,使查询结果更加精确。同时还对文档的特征项约简算法进行了改进,首先对文档进行自动文摘处理,其次分析文档摘要提取特征项集,然后对特征项按照对文档类别的贡献度进行排序,最后在保证精确率的前提下以牺牲完备性来换取特征项的快速收敛。系统还结合了最小完美哈希函数与大内存存储技术,降低了倒排文档字典的存储空间并且提升了倒排文档索引的读取速度。最后通过建立最小堆数据结构对海量文档的排序进行了空间上的优化。通过理论分析和实验论证,相比MG搜索引擎系统而言,特征项约简算法改进后,时间效率有了一定地提高;倒排文档索引字典的存储空间节省了将近一半;文档排序算法改进后,降低了排序的空间复杂度;相似度计算算法改进后,对于个人的兴趣而言,使查询的个性化精确率有了一定地提升。(本文来源于《天津大学》期刊2012-12-01)
自动文摘系统论文开题报告范文
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
互联网时代的到来导致了 web信息爆炸式增长,人们对于快速获取web文本主旨信息的需求已非常迫切,因此,自动提取文本摘要的自动文摘算法和自动文摘软件成为了中文信息处理领域研究的热点问题。本文在分析总结现有自动文摘算法和软件存在的问题基础上,针对现有相似度算法和句子排序算法的主要问题,基于LDA主题模型,提出了一种新的相似度算法和LDA-TDTI句子排序算法,并结合进出口纺织原料质量安全风险监测系统开发了一套自动文摘系统。具体研究内容和成果介绍如下:(1)总结现有的相似度计算方法,比较各种相似度算法的优缺点,在此基础上,提出了一种新的相似度计算方法;该算法在潜在狄利克雷分布(LDA)的理论基础上,构建主题空间模型,将字、词、句子、文档、语料库表示成空间模型中的向量;通过实验验证,证明该算法在一定程度上起到降维作用,避免了外部字典的使用,消除了未登录词的语义问题。(2)分析总结了常见句子排序算法的优缺点,针对LDA模型存在的文档主题分布未被反应的问题,提出了 LDA-TDTI句子排序算法;LDA-TDTI算法将句子的主题分布和句子主题重要度间的相似度作为计算句子重要度的标准,相似度越高,表明句子越能代表文章主题;通过理论分析和实验验证,证明该算法提高了文摘的主题覆盖度,提升了文摘句的质量。(3)基于句子排序算法的研究成果,采用OO和UML技术,分析并设计实现了一套自动文摘系统。给出了系统的用例图、E-R图、架构设计、数据库物理结构、类图、应用界面、交互图等主要软件系统模型,阐述了主要模块的实现方案。系统能够较快地提取web文本的文摘,且文摘质量较高。将自动文摘系统应用到进出口纺织原料质量安全风险监测系统中,应用结果表明,该系统能自动提取web文本摘要,用户体验较好,与同种类型的系统相对比,提取的文摘句质量得到了明显的提高。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
自动文摘系统论文参考文献
[1].万欣.基于自动文摘的辅助文档撰写系统研究与实现[D].北京邮电大学.2019
[2].孙国超.基于LDA主题模型的web文本自动文摘系统的研究与实现[D].山东科技大学.2017
[3].高东辉,路伟,张永刚,赵雷,王卓.基于自动文摘的地震灾情信息分析处理系统研究与实现[J].化工中间体.2015
[4].苏彬.基于Word2Vec的自动文摘系统的设计与实现[D].河北科技大学.2015
[5].徐宇婷.基于排序主题模型的自动文摘及评价系统[D].大连海事大学.2014
[6].王强.面向卷烟质量评价的自动文摘系统研究[D].中国海洋大学.2014
[7].兰希.基于篇章修辞结构的多文档自动文摘系统的设计与实现[D].厦门大学.2014
[8].张瑞玲.教学资源自动文摘系统的研究与设计[D].北京交通大学.2014
[9].王强,丁香乾,王涛,周照艳.面向卷烟质量评价的自动文摘系统设计[J].微型机与应用.2013
[10].沈敏.基于自动文摘与用户反馈的个性化搜索引擎系统的研究与设计[D].天津大学.2012