导读:本文包含了答案抽取论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:问答,答案,语义,系统,神经网络,主题,注意力。
答案抽取论文文献综述
李洪吉[1](2019)在《答案抽取的机器学习实现》一文中研究指出本篇论文实现了简单的问答系统实现,从文本库中检索到与问题最相关的文档(可以是一个或者多个)。然后对文档中的候选答案句进行排序,抽取出最相关的候选答案句。最后,在最相关的候选答案句中抽取最精简的答案,这个答案可能是一个词或者几个词。(本文来源于《计算机产品与流通》期刊2019年10期)
王策,万福成,于洪志,马宁,吴甜甜[2](2019)在《基于Bi-LSTM和Max Pooling的答案句抽取技术》一文中研究指出针对传统问答系统答案抽取方式对答案片段的分词和上下文语义理解准确性的依赖严重,抽取过程耗费大量的人力和时间的问题,提出采用分步抽取答案的方法,先从答案片段中抽取包含答案的句子,再从提取的答案句中进行最终答案的抽取方式。在答案句抽取过程中使用Bi-LSTM(Bi-directional Long Short-Term Memory)和Max Pooling结合的方法构建答案句抽取模型。实验结果表明,在答案句的抽取中,该模型的MRR(Mean Average Precision)指数接近0. 75。(本文来源于《吉林大学学报(信息科学版)》期刊2019年04期)
张学武,刘广聪,蔡念[3](2019)在《基于Attention-biLSTM的候选答案句抽取》一文中研究指出本文将深度学习应用于答案抽取任务中,该任务不依赖于人工定义的特征或语言工具,基本框架是基于双向长短期记忆(biLSTM)模型构建问题和答案的词向量的嵌入,并通过余弦相似性计算它们的相似程度。我们进一步将这个基本模型扩展,将句内注意力机制与深度神经网络LSTM于答案抽取任务中,使用句内注意力机制尝试寻找问答对之间词的关系,从而寻找问题与答案之间的联系,减少人工特征,实现答案自动取。(本文来源于《福建电脑》期刊2019年04期)
朱龙霞[4](2018)在《面向中文问答系统问题分析与答案抽取方法研究》一文中研究指出随着互联网的飞速发展以及自然语言处理技术的兴起,问答系统进入了面向开放领域、基于自由文本数据的发展阶段。如何从海量信息中获取有用信息是学术界和工业界关注的一个热点。与传统的搜索引擎相比,问答系统允许用户以自然语言提问,并能更好地满足用户对快速、高效、准确获取信息的需求。本文从问题分析和答案抽取两方面对问答系统进行进一步分析。在问题分析方面,本文从长文本和短文本以及数据的序列性叁个角度提出了基于在线隐式狄利克雷分布(Extended Latent Dirichlet Allocation,Extended LDA)和增量短文本主题模型(Incremental Biterm Topic Model,IBTM)的动态主题模型—CTM主题模型。该模型不仅可以捕获用户问题文本中的语义信息,还可以捕获滑动窗口中的词对信息,并能对实时数据进行分类和用户意图分析。由于中文分词工具产生的误差和中文语法的灵活性,传统的从中文文本中提取关键词的方法并不能完整捕获用户所提问题中的主题焦点。本文从基于词性特征组合和同义词词库两个方面对前面提出的动态模型进行改进。实验证明本文所提出的两个改进方法有助于挖掘用户问题中的主题焦点。在答案抽取方面,现阶段本文所研究的答案抽取与答案选择和答案排序问题是类似的,为了保持上下文一致性,本文仍以答案抽取来表示答案选择和答案排序。针对目前基于神经网络的答案抽取模型没有充分考虑问题和答案之间的关系等问题,本文提出了基于双向长短时记忆神经网络(Bi-directional Long Short Term Memory Network,Bi-LSTM)的答案抽取模型。该模型直接用Bi-LSTM对问题的表示向量学习,通过利用卷积神经网络(Convolutional Neural Network,CNN)进一步提取问题特征,然后利用注意力机制对答案的表示向量与问题最终表示向量的相关性进行加权。该模型有效地提取了问题与答案之间的关系。经实验验证本文所提出的基于Bi-LSTM的答案抽取模型在基于搜索引擎中的问答数据集上取得了良好的实验效果。(本文来源于《河北科技大学》期刊2018-12-01)
熊雪[5](2018)在《面向问答社区的抽取式答案融合研究》一文中研究指出问答社区为用户提供了一个可以自由提问和回答的平台,充分利用人机交互带来了大量的问题和答案,形成了亟待开发的大规模用户生成内容数据集。但这些问答对同时也存在两个主要问题:1)CQA体现人们自然状态的语言习惯,不同用户提供的答案之间冗余性较高;2)可能每个用户提供的答案都具有一定正确性,但不能同时覆盖问题的所有方面。CQA中含有大量观点描述型问题,这类问题的答案的特点是排他性较弱。因此,通过答案融合方法将对于同一问题多个包含不同答案的问答对重新整合是十分必要的。为了给用户返回简洁且全面的答案,本文将答案融合拆分为答案选择和句子匹配两个模块,主要研究内容包含以下四方面:(1)本文第二章将答案选择视为一个分类问题,利用有监督的方法从传统机器学习方法入手提取问题句答案句的词法特征、句法特征以及浅层语义信息训练分类器。(2)本文第叁章将答案选择视为一个排序问题,利用神经网络训练词语与句子的向量表示,挖掘问题句答案句的深层语义特征、逻辑特征,在CNN和LSTM模型上进行对比实验,尝试不同的句子编码结构。将注意力机制融入答案选择任务。本文实现了句内注意力机制和层迭两种方式的答案选择模型,注意力机制能够合理分配句子编码过程中不同词语的权重从而得到更加准确的句子向量表示。实验结果表明基于层迭注意力机制和LSTM的答案选择模型取得了最优的实验结果。(3)本文第四章处理句子匹配任务时首先从不同特征出发计算句子相似度,并对并对多个特征进行加权融合以改进句子匹配算法。其次利用神经网络构建句子匹配模型,建立相似度矩阵实现基于句间注意力机制和LSTM的模型。接着从词与词、词与句子两个角度的实现基于语义对齐的和LSTM的匹配模型进一步提升了准确率。(4)本文第五章设计并实现了一个答案融合系统。该系统能够对用户输入的问题检索相关问题与答案,综合多文档抽取出能够回答检索问题的具体答案。并对答案做相似性比较,最终将答案融合结果返回给用户。(本文来源于《哈尔滨工业大学》期刊2018-06-01)
张宁[6](2018)在《面向数值问题的答案抽取与生成》一文中研究指出数值作为信息最直观的表达类型之一,能够有效地反映信息的含义。随着大数据和人工智能时代的到来,人们迫切希望用更加智能的方式从互联网中获取数值信息。问答系统能够为用户提供自然的交互体验和精准的信息内容,已受到学术界和产业界广泛关注。本文面向数值问答系统的构建,重点研究数值类问题的答案抽取和生成。可以把研究工作分成两大部分:1、通过数值信息抽取来构建候选答案库,2、根据具体的数值问题从答案中抽取或生成答案。通过数值信息抽取来构建候选答案库部分是指从web中抽取数值信息,并存放在答案库中,为后续的问答提供答案。完整的数值信息要素包含有数字,数字的量化对象,如:主体及其属性,以及时空约束条件。本文提出一种基于数值模板结合条件随机场的数值信息抽取方法,该方法利用数值相关知识来制定数值信息抽取模板,对文本模式匹配,并使用条件随机场修补模板的局限性。实验结果的准确率、召回率和F值分别为0.847、0.665和0.745。根据具体的数值问题从答案库中抽取或生成答案部分是指通过分析数值问题,从上述构建的候选答案库中选择或生成答案。在答案选择部分采用一种知识和tfidf算法相结合的答案选择方法,该方法将问题分析中的核心词映射到知识中,并利用tfidf算法在数值答案库中检索答案。在实验中,前叁个答案的正确率分别为0.66,0.6,0.52。在答案生成部分通过引入外部知识和相对数值,并建立求解公式,进而生成答案。(本文来源于《沈阳航空航天大学》期刊2018-03-05)
郭勃[7](2018)在《自动问答系统中问题文本分类、答案抽取技术研究》一文中研究指出客服服务作为各个企业和公司产品售后服务和公司业务咨询服务的重要组成部分,有着广泛的应用。随着互联网的快速发展,各种依靠网络的即时通讯软件极大地方便了人们的日常生活,微信作为如今用户最多的通讯软件,用户群体广大且微信公众号提供了二次开发的接口,因此基于微信构建客服系统在开发成本,推广成本,用户体验上具有较大的优势。微信客服系统中的自动问答功能是一个十分重要的模块,一方面减轻了客服人员的工作量,另一方面使用户得到更加快捷有效的客服服务。自动问答系统可以很好的应用到客服系统中去,提升客服系统的服务质量和效率。论文基于微信客服系统的自动问答模块,具体研究了其中两个重要的技术,一个是问题文本分类技术,另外一个是答案抽取技术。本文的整体内容安排按照如下顺序所述:本文首先对微信客服系统的整体构架进行了介绍,对其如何工作,运行的相关步骤进行了说明。并且对主要研究的问答模型进行了细致的说明,介绍了微信客服系统中问答模块中的问题分析模块,候选答案检索模块和答案抽取模块。上述功能模块都在系统中进行了相应的实现。接着本文对问题分析模块中的问题文本分类技术和答案抽取技术进行了详细阐述。在问题文本分类中,传统机器学习方法存在的问题如深层句法语法特征的提取困难,特征稀疏等问题,使用深度学习的方法可以自动提取文本特征但是需要相对较多的训练数据,而浅层线性模型具有较强的记忆能力。因此本文结合组合的深度模型与线性模型提出了改进的问题分类模型。在答案抽取模块中,本文将其同样看作一个分类问题,针对传统机器学习方法特征提取的相关问题,提出了改进模型,首先利用深度神经网络框架提取原始文本特征,然后提取文本浅层句法特征,将其输入到普通神经网络,最后分别得到了问题答案文本的特征,构建问答匹配框架,完成答案抽取模块的功能。本文通过与现有不同方法的对比实验证明了本文的文本分类方法和答案抽取方法的有效性,并展示了实验的结果。最后本文实现了基于微信的客服系统,将所研究的问题分类技术和答案抽取技术应用到了系统的自动问答模块,使得整个客服系统更加高效,智能。(本文来源于《昆明理工大学》期刊2018-03-01)
王素格,李书鸣,陈鑫,穆婉青,乔霈[8](2018)在《面向高考阅读理解观点类问题的答案抽取方法》一文中研究指出为了克服高考阅读理解观点类问题中仅仅利用关键词进行答案句抽取的不足,通过对单篇文章建立LDA(latent dirichlet allocation)模型,计算阅读材料中每一句话与问题的主题分布相似度.利用SVM(support vector machine)分类器,对主题分布相似度高的句子进行分类,用于获取具有观点特征的候选观点句,最后将其与问题观点进行相似度计算并排序,选取排名前α个句子作为题目的答案句.该方法在标注好的高考观点类问题的答案句识别中,总体正确率达到了47.8%,并能将答案句的排序提前.实验结果表明,散文阅读理解题中采用多主题方法比单主题时具有更好的效果.(本文来源于《郑州大学学报(理学版)》期刊2018年01期)
俞霖霖[9](2017)在《面向百度百科的候选答案句抽取研究》一文中研究指出相比于传统的搜索引擎,问答系统能够更全面的分析用户问题、更精确的定位用户所查询的文档以及答案,因此问答系统也成了目前自然语言处理领域中的研究热点之一,并且也是尚未完美解决的问题之一,而其核心问题就是如何定位文档以及答案。答案的定位会根据不同的文档形式有着不同的技术方案和研究方向,而处在大数据时代的今天,以前的结构化、半结构化文档已无法涵盖问答的各种方面,因此,针对自然语言形式文档的答案定位技术应运而生,本文的研究重点就是如何在自然语言形式的文档之中进行答案句的抽取。本文主要研究了叁类答案抽取技术:基于语义匹配的候选答案句抽取方法、基于支持向量机的候选答案句抽取方法和基于深度学习的候选答案句抽取方法。此外,我们还提出了使用多种方法进行融合的方法。基于语义匹配的答案句抽取研究已提出多年,而本文除了使用词共现的方法来计算答案与问句的相似程度,还使用了基于词相似度的句子相似度衡量方法,而中文词语相似度的衡量又分为基于词向量的相似度衡量方法和基于知网词典的相似度衡量方法。基于人工提取特征的机器学习方法需要人为分析问句与答案句之间的关系,寻找有用的特征,例如词共现比例、句子长度差异、关键词是否一致等等,然后利用支持向量机来训练一个分类器,来给出问句与每个答案句之间的分值,用于最后的答案选择。实验结果表明,特征的抽取对于最终答案抽取的效果有着至关重要的影响。深度学习方法能够自动学习特征,这避免了特征工程带来的巨大工作量。在本文中,我们使用了多种深度学习网络结构进行了实验,实验结果表明,带attention的GRU模型能够更好的学习到句子的表示,从而得到最优的实验结果。最后,我们将多方法进行融合,组合了之前的实验内容,对多种模型进行融合处理,使其发挥各自的功能,简单模型处理简单问题、复杂模型处理复杂模型,以达到最优的实验效果。(本文来源于《哈尔滨工业大学》期刊2017-06-01)
刘姝林[10](2017)在《基于框架语义的高考语文阅读理解答案句抽取》一文中研究指出目前存在于互联网的海量知识大多是以文本形式呈现,计算机对文本知识的表示与深度理解在一定程度上代表着智能信息处理的水平。问答系统在一定程度上可以验证计算机对文本知识理解的能力。阅读理解问答一直以来被看作是问答系统的重要组成部分,尤其在问题分析以及答案句抽取方面受到诸多研究机构的青睐。本文依托国家863计划,针对高考语文科技文阅读理解问答题,提出借助框架语义匹配、框架语义关系、篇章框架语义视图抽取答案候选句,在排序时引入流形排序模型,通过答案句之间的框架语义句子相关度将排序分数进行迭代传播,最终选取分数较高的Top-4作为答案句。文章的主要研究内容及成果如下:一是在答案候选句抽取时引用了汉语框架语义知识。利用框架语义抽取答案候选句,一方面由于框架网络包含了比其它词典更为详细的“句法-语义”信息;另一方面,框架语义关系针对的不是相邻句子之间的关系,而是阅读材料中所有句子所揭示的语义场景之间的关系。二是答案候选句排序时利用了流形排序模型。该模型是一种半监督全局排序算法。在该模型中又充分利用了答案候选句之间的框架语义相关性,将排序分数进行迭代传播,直到全局稳定状态,最终所有的节点都得到了合理的排序分数。实验表明,定位问句出处补全或者扩展了问句的语义场景,答案候选句抽取方法很大程度上提高了答案句的召回率,流形排序模型极大地提高了答案句的准确率。本文主要内容分为叁部分,首先介绍的是本文所研究的高考阅读理解问答的相关概述,包括任务与难点;其次,详细介绍汉语框架语义网,以及在此基础上,提出的句子框架语义相关度计算方法和篇章框架语义视图的构建方法;最后将这些方法应用于真实高考语文阅读理解问答语料上,并进行了评估与分析。(本文来源于《山西大学》期刊2017-06-01)
答案抽取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
针对传统问答系统答案抽取方式对答案片段的分词和上下文语义理解准确性的依赖严重,抽取过程耗费大量的人力和时间的问题,提出采用分步抽取答案的方法,先从答案片段中抽取包含答案的句子,再从提取的答案句中进行最终答案的抽取方式。在答案句抽取过程中使用Bi-LSTM(Bi-directional Long Short-Term Memory)和Max Pooling结合的方法构建答案句抽取模型。实验结果表明,在答案句的抽取中,该模型的MRR(Mean Average Precision)指数接近0. 75。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
答案抽取论文参考文献
[1].李洪吉.答案抽取的机器学习实现[J].计算机产品与流通.2019
[2].王策,万福成,于洪志,马宁,吴甜甜.基于Bi-LSTM和MaxPooling的答案句抽取技术[J].吉林大学学报(信息科学版).2019
[3].张学武,刘广聪,蔡念.基于Attention-biLSTM的候选答案句抽取[J].福建电脑.2019
[4].朱龙霞.面向中文问答系统问题分析与答案抽取方法研究[D].河北科技大学.2018
[5].熊雪.面向问答社区的抽取式答案融合研究[D].哈尔滨工业大学.2018
[6].张宁.面向数值问题的答案抽取与生成[D].沈阳航空航天大学.2018
[7].郭勃.自动问答系统中问题文本分类、答案抽取技术研究[D].昆明理工大学.2018
[8].王素格,李书鸣,陈鑫,穆婉青,乔霈.面向高考阅读理解观点类问题的答案抽取方法[J].郑州大学学报(理学版).2018
[9].俞霖霖.面向百度百科的候选答案句抽取研究[D].哈尔滨工业大学.2017
[10].刘姝林.基于框架语义的高考语文阅读理解答案句抽取[D].山西大学.2017