导读:本文包含了多文档论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:文档,摘要,批量,文本,机器,语义,新闻。
多文档论文文献综述
黄志远[1](2019)在《网络新闻多文档摘要系统的研究与实现》一文中研究指出在网络中信息爆炸的大背景下,每一相同新闻主题中的信息存在着大量的冗余。不同编辑报道不同的新闻,会从成百上千种角度对新闻进行描述。这其中虽存在着不一样的重点信息,但同时也存在着大量的重复冗余。用户想要利用碎片时间在短时间内获取到新闻内容的精简信息已是难上加难。为了满足用户获取目标信息的需求,多文档自动摘要技术被越来越多的研究者们作为科研目标。所谓多文档摘要,即为在同一新闻主题下的多篇新闻文档中提取出该主题包含的关键信息,并去除大量冗余信息而组合成的内容摘要文档。通过阅读系统生成的新闻内容摘要文档可以让用户快捷而全面的了解到新闻关键信息,从而避免因冗余信息过多而浪费时间。同时若用户对某新闻或某主题产生兴趣,也可以对原版新闻内容进行详细阅读。本系统实现的主要需求模块包括新闻获取及预处理、新闻检索、摘要文档生成和数据分析报表。新闻获取及预处理模块主要是利用爬虫获取新闻数据并把数据处理为系统所需的格式。新闻检索模块可满足按照新闻内容、发布时间、渠道来源进行单项检索或复合检索的需求。摘要文档生成主要使用中科院NLPIR进行分词,而后基于语义词典进行语义去歧确定词语唯一词义,并根据网络新闻的特点对新词进行挖掘。接下来对词语、句子进行基于语义词典的相似度计算,便于后续进行基于密度对词语和句子的聚类。在聚类之后根据句子的内容丰富度、重要程度进行内容判定的评分,最后利用基于依存句法分析的句法识别评分方式将摘要句排序并输出摘要文档。数据分析报表模块使用D3交互式技术实现数据可视化,以折线图、扇形图的形式直观的展现出新闻热度走势以及新闻渠道来源,并结合摘要文本形成一份新闻主题报表。经以上四个模块的设计与实现,该系统基本能够生成包含主要新闻内容的单篇新闻摘要文档和新闻主题摘要文档,实现了条件检索以及相关新闻数据可视化。(本文来源于《辽宁大学》期刊2019-05-01)
张随远,薛源海,俞晓明,刘悦,程学旗[2](2019)在《多文档短摘要生成技术研究》一文中研究指出自动摘要技术用于将较长篇幅的文章压缩为一段较短的能概括原文中心内容的文本。多文档冗余度高,电子设备所展示的空间有限,成为摘要发展面临的挑战。本文提出融合图卷积特征的句子粗粒度排序方法。首先将句子之间的相似度矩阵视为拓扑关系图,对其进行图卷积计算得到图卷积特征。然后通过排序模型融合图卷积特征以及主流的抽取式多文档摘要技术对句子进行重要度排序,选取排名前四的句子作为摘要。最后提出基于Seq2seq框架的短摘要生成模型:①在Encoder部分采用基于卷积神经网络(CNN)的方法;②引入基于注意力的指针机制,并将主题向量融入其中。实验结果表明,在本文场景下,相较于循环神经网络(RNN),在Encoder部分基于CNN能够更好地进行并行化,在效果基本一致的前提下,显着提升效率。此外,相较于传统的基于抽取和压缩的模型,本文提出的模型在ROUGE指标以及可读性(信息度和流利度)方面均取得了显着的效果提升。(本文来源于《广西师范大学学报(自然科学版)》期刊2019年02期)
王凯祥,任明[3](2019)在《基于查询的新闻多文档自动摘要技术研究》一文中研究指出针对新闻文本领域,该文提出一种基于查询的自动文本摘要技术,更加有针对性地满足用户信息需求。根据句子的TF-IDF、与查询句的相似度等要素,计算句子权重,并根据句子指示的时间给定不同的时序权重系数,使得最近发生的新闻内容具有更高的权重,最后使用最大边界相关的方法选择摘要句。通过与基于TF-IDF、TextRank、LDA等六种方法的对比,该摘要方法 ROUGE评测指标上优于其他方法。从结合评测结果及摘要示例可以看出,该文提出的方法可以有效地从新闻文档集中摘取核心信息,满足用户查询内容的信息需求。(本文来源于《中文信息学报》期刊2019年04期)
张建民[4](2019)在《系列格式文件编制中基础信息的多文档多点位自动批量更新研究——以工程招标和政府采购相关系列格式文件编制为例》一文中研究指出针对招标代理机构在编制工程招标和政府采购相关系列格式文件中,基础信息更新普遍存在的效率低、容易遗漏出错等问题,笔者巧妙利用office(WPS)系统中的"粘贴链接"功能,实现了招标采购系列文件编制中项目基础信息的多文档、多点位自动、批量、防误、高效更新,经试用编辑效率大大提高,出错几率接近于零。(本文来源于《内江科技》期刊2019年03期)
刘佳铭[5](2018)在《基于Python的多文档合并系统的设计与实现》一文中研究指出为解决实际工作中文档合并的问题,以某事业单位社保缴纳数据为例,在充分分析Excel文档存储特点的基础上,提出通过Python及其函数库,高效准确的对实现表结构相同、记录数不确定的多Excel文件批量合并。并结合PYQT工具,开发界面友好的系统,对Excel文档的合并内容进行调整,去除指定标题行数。实例分析表明,该程序能迅速、准确的完成Excel的批量合并,并在指定路径导出数据,具有良好的实用性。(本文来源于《数码世界》期刊2018年12期)
杨志明,时迎成,王泳,潘昊杰,毛金涛[6](2018)在《基于BiDAF多文档重排序的阅读理解模型》一文中研究指出随着互联网的兴起和发展,数据规模急速增长,如何利用机器阅读理解技术对海量的非结构化数据进行解析,从而帮助用户快速、准确地查找到满意答案,是目前自然语言理解领域中的一个热门课题。该文通过对机器阅读理解中的深度神经网络模型进行研究,构建了RBiDAF模型。首先,通过对DuReader数据集进行数据探索,并对数据进行预处理,从中提取出有利于模型训练的特征。其次在BiDAF模型的基础上提出了基于多文档重排序的RBiDAF机器阅读理解模型,该模型在BiDAF模型四层网络框架的基础上添加了ParaRanking层。其中在ParaRanking层,该文提出了多特征融合的ParaRanking算法,此外在答案预测层,提出了基于先验知识的多答案交叉验证算法,进而对答案进行综合预测。在"2018机器阅读理解技术竞赛"的最终评测中,该模型表现出了不错的效果。(本文来源于《中文信息学报》期刊2018年11期)
唐晓波,翟夏普[7](2019)在《基于混合机器学习模型的多文档自动摘要》一文中研究指出[目的/意义]信息过载是当前社会面临的普遍性问题,如何从大量的信息中提取有价值的内容,已成为研究的一个重点,目前自动摘要技术成为解决此问题的一种途径。[方法/过程]为了解决多文档摘要信息不全面、冗余度高的问题,文章提出了针对中文文本的多文档自动摘要混合模型,并对该模型所包含的句子向量化、分类器分类、句群划分和句子重组四个部分做了详细说明。该混合模型在摘要提取的过程不仅考虑了句子的形式特征,还融合了句子的深层语义,最后采用基于改进的PageRank算法对摘要句进行重组。[结果/结论]当摘要句为30时,该模型的ROUGE-1得分平均值为0.2074,明显高于TextRank (0.0728)和基于聚类的算法(0.1074)。实验结果表明该模型在多主题的中文长文本上是有效的。[局限]由于中文语料的限制,本实验的数据量相对较小,模型的适应能力未在大数据集上验证。(本文来源于《情报理论与实践》期刊2019年02期)
侯兴龙,岳林[8](2018)在《基于MFC多文档模态参数辨识系统开发》一文中研究指出结构模态参数识别在振动机械分析中起着至关重要的作用。而传统做法是基于实验室在响应和激励已知的情况下识别模态参数。但在现实复杂的工作环境中,激励很难准确测得。运行模态分析方法弥补了这一不足。该方法无需激励响应,只需测得输出响应即可对机械结构参数识别。在MFC多文档多视图环境下,运用频域多参考点主分量分析方法开发了一套全新的机械结构模态参数识别系统,且与商业分析系统对比分析,实验验证了系统的有效性和正确性。(本文来源于《机械制造与自动化》期刊2018年04期)
韩晓冬[9](2018)在《舆情数据的多文档自动摘要系统的研究与实现》一文中研究指出在信息量爆炸的今天,人们想要依靠互联网来获取自己感兴趣的信息已经越来越难,即使在同一个主题下,也有着非常多的信息冗余,而舆情数据更是如此,在同一个主题下的新闻,有许多都是完全一样的信息,而想要从这些舆情文本中获取同一主题下的不同信息就变得越来越耗费时间、精力。多文档自动摘要技术可以很好的解决这一问题。通过多文档自动摘要技术,可以将重复信息去除,并将与主题相关的不同信息提取出来,生成摘要文本,节省用户挖掘感兴趣的信息的时间。本系统在研究了多文档自动摘要相关工作的基础上,提出一种利用基于语义词典的聚类方法来获取多文档自动摘要文本的方法。基于语义词典的方法的优势在于可以对中文语料中的词语深入到语义层面来分析处理。本系统主要内容包括:1、基于语义词典的新词相似度计算。由于在舆情领域中,常会出现新词,这些新词通常与主题相关,在一定程度上可以视为主题。但新词无法进行相似度计算,针对这一问题,本文提出一种基于语义词典的新词相似度计算方式,该方式通过解析新词构成,将新词与语义词典中的词语对应起来,利用语义词典中的词语代替新词进行相似度的计算。2、词语聚类分析与句子聚类分析。以词语作为特征项对句子建立空间向量,没有考虑到词语之间的词义关系,在量化句子时,不能准确的根据词语来量化句子,后续的句子聚类结果的准确度就无法保证。针对于此,本文先对词语聚类,将相似的词语聚类成词语概念,以词语概念作为句子特征向量的特征项,避免词语之间的关系对句子聚类的影响。对句子进行聚类分析阶段,利用词语概念作为句子特征向量的特征项,同时利用句子之间的余弦相似度,利用基于密度的聚类算法DBSCAN对句子进行聚类,形成句子簇。3、基于重要度评分的摘要句的抽取。根据句子所属主题、次主题、页面结构等因素,基于句子聚类结果,提出一种重要度评分方法。按照评分高低对句子簇排序,再对句子簇内部的句子进行重要度评分,选取每个句子簇中评分最高的句子作为摘要句,按照句子簇的顺序形成最终的多文档自动摘要文本。通过上述方法开发的基于舆情数据的多文档自动摘要系统,经过测试,基本可以满足用户对同一主题下不同信息进行提取。(本文来源于《辽宁大学》期刊2018-05-01)
由文浩[10](2018)在《基于互增强流形排序的多文档自动摘要方法研究》一文中研究指出随着互联网的兴起,网络中的数据量呈指数增长,人们的生活节奏加快,如何从海量数据中高效获取所需信息已经成为了现如今亟待解决的问题。自动摘要技术能够对文本信息进行融合、压缩,在保留文档重要内容的同时减少文本大小,该技术是解决这一问题、克服这一障碍的关键。本文以在线英文新闻为研究对象,以期为用户提供简洁、全面的摘要,提高用户获取信息的效率。本文使用的基于互增强流形排序的多文档自动摘要方法,通过句子、词语以及主题簇彼此之间的相互增强关系,提高句子提取的质量,减少冗余信息,并将该方法用于基于查询的提取多文档自动摘要模型中。本研究的主要内容和结论如下:(1)识别主题簇对数据预处理后得到词语集、句子集和簇集,通过给定的查询对数据对象间的关系进行聚类分析,将数据对象进行分类,使得同类集合对象之间的相似度较高,不同类集合之间的相似度较低,从而达到聚类的效果,并且将与给定查询相似度较高的集合确定为主题簇。(2)句子排序和控制冗余通过词语集、句子集和主题簇集内部之间相关性传播,词语集、句子集以及主题簇集之间彼此进行相互增强构建提取摘要模型。在词语集、句子集和主题簇集的每个集合内部构建一个加权图,其中每个数据顶点表示查询、词语、句子和主题簇。词语集、句子集以及主题簇集之间彼此进行相互增强,上述两个过程可以依次或组合进行,直至达到全局稳定状态,所有数据对象都获得排序分数。将得到的数据对象进行筛选,过滤掉冗余信息,提取分数较高的数据对象作为摘要句,生成摘要。质量评测进行全面的实验研究来验证这两种算法模型的有效性。用自动评测工具包ROUGE进行评测。ROUGE通过计算系统生成的摘要和人工参考摘要之间重迭的单位来衡量摘要内容的质量。本文中采用方法分析准确率和召回率比率,同时与其他摘要方法进行对比。实验结果表明,在TAC 2008A,TAC 2008B,TAC 2009A和TAC 2009B数据集上,本文研究的基于互增强流形排序的多文档自动摘要方法在提取摘要的质量方面略优于参加DUC/TAC比赛前叁的系统计算出的ROUGE值相当,并且通过误差检验,误差较小,可以把实验分析的结果作为结论,进一步说明了在自动摘要方法中整合词语级和主题簇信息的必要性。(本文来源于《西北农林科技大学》期刊2018-05-01)
多文档论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
自动摘要技术用于将较长篇幅的文章压缩为一段较短的能概括原文中心内容的文本。多文档冗余度高,电子设备所展示的空间有限,成为摘要发展面临的挑战。本文提出融合图卷积特征的句子粗粒度排序方法。首先将句子之间的相似度矩阵视为拓扑关系图,对其进行图卷积计算得到图卷积特征。然后通过排序模型融合图卷积特征以及主流的抽取式多文档摘要技术对句子进行重要度排序,选取排名前四的句子作为摘要。最后提出基于Seq2seq框架的短摘要生成模型:①在Encoder部分采用基于卷积神经网络(CNN)的方法;②引入基于注意力的指针机制,并将主题向量融入其中。实验结果表明,在本文场景下,相较于循环神经网络(RNN),在Encoder部分基于CNN能够更好地进行并行化,在效果基本一致的前提下,显着提升效率。此外,相较于传统的基于抽取和压缩的模型,本文提出的模型在ROUGE指标以及可读性(信息度和流利度)方面均取得了显着的效果提升。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
多文档论文参考文献
[1].黄志远.网络新闻多文档摘要系统的研究与实现[D].辽宁大学.2019
[2].张随远,薛源海,俞晓明,刘悦,程学旗.多文档短摘要生成技术研究[J].广西师范大学学报(自然科学版).2019
[3].王凯祥,任明.基于查询的新闻多文档自动摘要技术研究[J].中文信息学报.2019
[4].张建民.系列格式文件编制中基础信息的多文档多点位自动批量更新研究——以工程招标和政府采购相关系列格式文件编制为例[J].内江科技.2019
[5].刘佳铭.基于Python的多文档合并系统的设计与实现[J].数码世界.2018
[6].杨志明,时迎成,王泳,潘昊杰,毛金涛.基于BiDAF多文档重排序的阅读理解模型[J].中文信息学报.2018
[7].唐晓波,翟夏普.基于混合机器学习模型的多文档自动摘要[J].情报理论与实践.2019
[8].侯兴龙,岳林.基于MFC多文档模态参数辨识系统开发[J].机械制造与自动化.2018
[9].韩晓冬.舆情数据的多文档自动摘要系统的研究与实现[D].辽宁大学.2018
[10].由文浩.基于互增强流形排序的多文档自动摘要方法研究[D].西北农林科技大学.2018