导读:本文包含了问答式检索系统论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:问答,系统,模型,问句,语义,多相,社区。
问答式检索系统论文文献综述
马龙轩[1](2019)在《检索式问答系统中语义关系的计算与评价》一文中研究指出智能问答系统是当前自然语言处理研究中的难点和热点。基于深度学习的端到端问答系统使用自然语言句子作为输入,无需词法句法处理就可以自动提取句子间的语义特征,并在候选答案中挑选出符合问题要求的正确答案。理解自然语言句子之间的语义关系是问答系统中最困难的环节,也是目前自然语言处理任务所面临的核心问题。本课题研究端到端的检索式问答系统中如何计算和评价自然语言句子之间的语义关系,如何将计算过程与评价过程结合起来,提高检索的效率。本课题的创新点如下:一是针对以往问答模型中单向分配权重的缺陷设计了一种双向权重分配机制,在计算问题的表达时动态地加入答案的影响;二是针对以往问答系统只对词进行特征强化的缺陷设计了句子层面的特征强化机制;叁是设计了同时在多个角度对句子和词的特征进行强化的算法和模型;四是设计了一种新的只针对词的特征强化算法并将特征分层次添加到网络中。多个公开数据集的实验结果表明,本课题的四项创新分别提高了基准模型的性能,达到了目前最好的准确率水平。针对创新点撰写的四篇论文分别被国际会议发表或录用。(本文来源于《北京邮电大学》期刊2019-05-31)
李湘识[2](2019)在《基于检索和答案生成混合的问答系统设计与实现》一文中研究指出随着信息技术的飞速发展和互联网的普及,每个人都可以方便地从互联网上获取海量的信息。然而海量的数据也带来了信息爆炸和信息过载的巨大挑战,使得人们陷入了海量数据的汪洋之中,信息的精确定位变得越来越困难。搜索引擎的出现,一定程度上缓解了这些挑战带来的问题。然而,传统的搜索引擎没有挖掘查询更深层次的语义信息,且用户仍需以人工遍历的方式定位信息,费时且费力。问答系统的出现,为信息的精确定位提供了一种全新的解决方案。通过问答系统,用户能以自然语言的方式表达自己的信息需求,系统将直接返回精确、简洁的答案。当前,问答系统常用的模型主要为基于检索的模型和基于答案生成的模型。基于检索的模型有匹配模型简单、答案在语料库中、可解释性强等优点;但由于语料库大小的限制,导致能回答的问题具有局限性,对问题的语义信息挖掘不足。基于答案生成的模型可以通过挖掘问题的深层语义生成答案,答案可以不受语料库的规模限制,但模型的可解释性不强,且倾向于生成通用的、单调的答案,无法保证答案的合理性和一致性。对于问答系统而言,由于语料库数据形式的不同,需要采用的技术也不相同。而在大多数情况下,语料库数据形式又以自由文本和问题答案对数据的获取最为常见。因此,本文针对两种不同的数据形式,设计了两套不同的问答系统。此外,基于检索模型和答案生成模型各自存在的问题,本文提出了基于检索和答案生成的混合模型,以结合两者的优势。因此,本文主要贡献为:1.面对实际的应用需求,基于开源搜索引擎Solr及Learn to rank排序模型,以问题搜答案的方式,设计并实现了一套面向自由文本的基于检索的问答系统;2.为结合检索模型和答案生成模型两者的优势,基于检索模型和Seq2Seq模型,设计并实现了一套面向问题答案对的基于检索和答案生成相混合的问答系统,检索模型先对语料库中的问题答案对建立索引,然后以问题搜问题的方式,检索得到最相似的问题,并将相似问题的答案作为原问题的答案,并通过基于Seq2Seq的重排序模型对所有的候选答案进行升序重排序,并以得分最低的答案作为检索模型的答案;当检索模型的答案的得分低于置信阈值时,直接返回该答案,否则,由Seq2Seq模型直接生成答案;3.通过在自建数据集、InsuranceQA数据集和UbuntuDialogCorpus数据集上进行实验,分别验证了两套系统的合理性和有效性。(本文来源于《浙江大学》期刊2019-03-28)
张越,杨沐昀,郑德权,赵铁军,李生[3](2019)在《面向问答系统的信息检索自动评价方法》一文中研究指出对问答系统中的信息检索模块进行自动评价是开发问答系统中不可或缺的一环。采用传统的检索评价指标,就需要为每个问题标注正确的候选答案。为了避免这种代价,本文提出一种问答系统中的信息检索模块进行自动评价方法。该方法使用候选文档与问题本身以及问题参考答案间的信息,利用机器学习方法去拟合MAP。在实验中,本文发现使用GBDT模型拟合MAP值最好,斯皮尔曼等级相关系数达到了0.87。(本文来源于《智能计算机与应用》期刊2019年02期)
仇瑜,程力,Daniyal,Alghazzawi[4](2019)在《特定领域问答系统中基于语义检索的非事实型问题研究》一文中研究指出面向财税领域非事实型问题,提出基于语义检索的方法来抽取答案。首先使用领域知识库对问题及领域文档进行语义标注,引入语义相似度特征提高法规及案例的检索准确率;其次使用排序学习算法融合领域文本的多种特征对法规检索结果优化;最后使用法规特征对案例检索结果进行筛选,并从相似案例中抽取相应答案。在真实数据集上的测试结果表明,该方法在准确率和效率上比基准方法有显着提升。(本文来源于《北京大学学报(自然科学版)》期刊2019年01期)
夏远远,王宇[5](2018)在《基于HNC理论的社区问答系统问句检索模型构建》一文中研究指出社区问答系统作为一种知识组织形式,在其基础上的问句检索可以帮助用户快速地从海量问答资源中找到问题的答案,同时避免用户重复提交已解决的问题造成系统冗余。考虑到翻译模型容易受翻译概率准确性的影响,在翻译噪声严重的情况下无法准确获取词汇语义信息。利用社区问答系统中问题的标记信息,构建高质量的训练语料集,同时在翻译模型基础上结合概念层次网络(HNC)理论的词语语义知识,提出了一种新的基于HNC语义修正的问句检索模型。在真实的数据集上的实验结果表明,HNC理论词语语义知识的对翻译概率准确性的修正有了显着效果,同时提出的问句检索模型可以很好地识别问答系统中相似的问句对,在检索结果上优于当前使用最广泛的模型。(本文来源于《计算机应用与软件》期刊2018年08期)
张力[6](2018)在《社区问答系统中答案排序和问题检索算法研究与应用》一文中研究指出社区问答(Community Question Answering,CQA)系统是一种较高级别的信息检索系统。与搜索引擎不同,CQA系统中存在大量由社区成员长期维护的问题和答案,信息质量较高;CQA系统返回的信息通常更符合用户的真实需求,而搜引擎通常返回若干相关网页。目前,利用CQA系统知识获取已经成为一个研究热点,但如何高效的从CQA系统中检索信息仍是一个研究难点。本文的研究内容主要围绕CQA系统的答案排序和问题检索任务,工作分为以下叁个方面:1)提出了改进主题模型。传统的LDA主题模型未考虑到垃圾主题和相似主题的存在,影响主题相似度计算的准确率,第叁章提出了垃圾主题过滤算法和主题相似度检测算法用于移除垃圾主题和检测相似主题,以构造语义关系更强的主题向量。在中文语料库上的实验结果验证了改进主题模型能够提升文本分类的准确率,第叁章还将改进主题模型应用到CQA系统中,在SemEval问答数据集上的实验结果一方面确定了答案排序和问题检索任务的最优特征组合,另一方面验证了改进主题模型同样能够提升答案分类的准确率。2)提出了一种针对CQA系统的信息增强方法。第四章利用原始问题、相似问题和答案叁者的关系,构造答案与原始问题的标注数据集,作为额外的训练集融入到原始数据集中,额外数据集是对原始数据集的信息增强,在CQA系统两个子任务上的实验结果验证了信息增强方法的高效性。第四章还探索了五种神经网络对答案排序和问题检索任务的建模方法和应用效果,发现BiLSTM网络和Attention网络整体上具有较高的答案分类准确率和MRR值,实验发现数据清洗对神经网络影响较大,在大多数场景中数据清洗都是必要的,但对某些场景(如小规模数据集,BiLSTM网络等)数据清洗会降低网络的性能。3)设计了 CQA系统的实现流程图。首先分析了系统存在的问题,然后介绍了设计中涉及的关键技术,最后分模块阐述CQA系统中各个问题的解决方案。各问题与解决方案可以概括为:针对海量知识库的信息抽取计算复杂度较高的问题,提出了一种两阶段文本排序方法;针对内容实时更新和外部请求重合度较高的问题,使用Spark流式计算引擎进行实时内部答案排序和信息更新,并将预先计算的部分文本特征和热门问题缓存,使用LRU算法发现、更新热门问题。该流程设计的目的是将提出的上述方法应用到实际场景中,通过将其与大数据组件结合,综合提高问题和答案分类的准确率,缩短系统响应时间。(本文来源于《中国科学技术大学》期刊2018-05-01)
吴炳林[7](2018)在《基于中文深度智能问答系统的证据检索和评分算法研究》一文中研究指出伴随着知识管理及智能化深度分析等技术的深入研究,基于知识层面的深度智能问答系统已成为人工智能发展不可缺少的一部分。深度智能问答系统主要采用Deep QA框架结构和知识图谱推理相结合的方法,通过级联协作流程处理问题,在系统框架扩展和智能推理分析方面有很大程度的提升。证据检索和评分算法的优劣对系统准确率起关键作用。本文通过深入研究分析,阐明了基于中文深度智能问答系统的证据检索和评分算法存在的若干问题:一是目前中文深度问答系统缺欠基于句法结构和语义分析的证据评分算法;二是已有算法流程中缺少高效的证据段落生成策略以及词条预处理流程;叁是现有证据检索和评分模块欠缺更优的基于段落评分池的合并算法。因此,优化和创新证据检索和评分算法是提高中文深度智能问答系统性能的重要问题之一。针对现有证据检索和评分算法中的存在的问题,本文提出了一种新型适用于中文深度智能问答系统的证据检索和评分算法体系。首先,加入了基于自由文档的证据段落生成方法和词条预处理策略;然后,对基于词条频率和词条顺序的两种证据评分算法进行了改进,提出了新的基于卷积树核函数的句法结构评分算法以及基于语言表示模型和卷积神经网络的语义分析评分算法;最后,通过对基于段落评分池的合并算法的分析,提出了基于PCA和K均值的两种新型评分池合并算法。实验表明,改进后的证据检索和评分算法,完善了系统算法体系和缩减了级联流程误差,有效地提高了整个系统的准确率。(本文来源于《郑州大学》期刊2018-05-01)
夏远远[8](2018)在《社区问答系统问句检索方法研究》一文中研究指出Web2.0的一个显着特征是互联网内容的提供者由之前的管理者变成了全体互联网用户。每天有不计其数的用户生成内容(User Generated Content,UGC)被提交的互联网当中,这在一方面充实网络内容的同时,另一方面也使得网络上充斥着大量的噪声,给希望尽快从网络当中获取信息知识的用户造成一定的困难。基于用户生成内容的社区问答系统的出现解决了这样的问题,它依靠全体社区用户的参与来解决同样来自社区用户提出的问题,这种社区用户协作的形式,成为互联网的一种重要的知识来源。经过一段时间的发展,社区问答系统积累了大量的用户已解决问题,如何在问答社区中检索已解决问题答案来回答用户新提交的问题,成为问答系统研究的一个重要课题,这就是问句检索。问句检索一方面可以帮助用户快速获取问题的答案,另一方面也能够减轻重复问题的提交给问答系统带来的系统冗余的问题。本文首先提出了一种在翻译模型基础上的问句检索模型,解决了翻译模型在背景语料集质量不高的情况下的问句检索性能易受翻译噪声影响的问题。为了获得高质量的翻译模型训练语料,一方面利用社区问答系统的社区属性收集具有比较高相似度的平行问句资源作为背景语料,这主要是借助问句的分类标签和用户标记的相似问题,另一方面利用HNC提供的词汇语义知识修正易出现偏差的翻译概率。在以上工作的基础上构建了一种融合HNC词汇语义知识的问句检索模型,实验结果证明了本文提出模型的检索效果优于当前使用效果较好的模型。在HNC理论提供的词汇语义基础上,本文提出了一种融合语用、语法和语义叁个层次相似度的问句检索模型,从句子整体计算检索问句与候选问句之间的相似度关系,在语义层面上的相似度计算使用了第叁章提出的方法。在语用层面的相似度计算上,使用哈工大问句分类体系对问句进行问句语用类型的识别,进而计算句子的语用相似度。在语法相似度计算上,利用HNC句类分析结果中的句类表达式,通过比较问句句类表达式的结构,获得问句间的句法相似度关系。在语义相似度计算上,利用问句句类表达式的语义块组成,计算问句间的语义相似度关系。最后综合以上叁部分相似度计算的结果,提出一种新的问句检索模型,在真实数据集上的实验验证了该模型的检索效果优于之前的检索模型。(本文来源于《大连理工大学》期刊2018-04-01)
白菊,何聚厚[9](2017)在《应用于问答系统的Lucene相似度检索算法改进》一文中研究指出Lucene在文本检索和搜索领域有着广泛的应用,相似度评分算法是其搜索引擎的核心部分之一。而在问答系统中,也要用到检索功能,相似度评分算法也是其核心部分之一。那么能否对Lucene的相似度评分算法进行改进,使其在问答系统的领域也能得到很好的应用。针对上述提出的问题,结合问答系统中问句简短、包含信息量少的特点,引入外部词典对查找的关键词进行扩展,分析检索词项的语义相似度以及将词项位置关系的特征应用到Lucene中。在Lucene的基础上,对其语义相似度算法进行改进,提出了一种新的语义相似度评分算法。该算法考虑了词项位置关系和语义理解,能够更好地应用于问答系统。实验结果表面,提出的相似度算法能有效地提高自动问答系统的回答准确率。(本文来源于《计算机技术与发展》期刊2017年11期)
李姣[10](2017)在《基于问答库的检索式问答系统研究与实现》一文中研究指出Web2.0时代已历十余年。随着互联网的高速发展和移动终端的迅速普及,由用户主导产生的信息日益膨胀。如此规模庞大的信息导致用户信息过载,从而倒逼搜索引擎技术的快速发展,使用户能够快速准确地获取所需信息。以关键词匹配和网页链接为基础的搜索方法已趋于成熟,但多数情况下由于用户选择关键词不当,导致检索结果不理想;或因搜索引擎不能过滤大量的网页,导致用户得不到准确的答案。相比之下,问答系统以自然语言作为输入,不依赖于用户对关键词的选择,并直接返回最相关答案内容,它提高了用户检索满意度并节约了用户获取答案的时间。本文在此背景下对基于问答库的检索式问答系统展开研究,主要研究工作包括以下叁个方面:(1)对基于依存关系的文本相似度算法进行研究和分析,并提出一种基于依存关系选择与加权的文本相似度算法,实验结果表明该方法在不同的数据集上,其准确率均具有较大优势。(2)本文结合基于向量空间模型(VectorSpaceModel,VSM)、依存关系和卷积神经网络(ConvolutionalNeuralNetwork,CNN)的文本相似度特征,通过RankSVM排序模型,提出了一种基于多相似性特征融合的问答检索模型,实验结果表明该问答检索模型具有较高的F1值和准确率。(3)通过对问答检索模型的实现,本文基于从天涯问答社区爬取的问答数据,使用SAE(SinaAppEngine)和微信公众号实现了一个检索式问答系统。(本文来源于《西北大学》期刊2017-06-01)
问答式检索系统论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着信息技术的飞速发展和互联网的普及,每个人都可以方便地从互联网上获取海量的信息。然而海量的数据也带来了信息爆炸和信息过载的巨大挑战,使得人们陷入了海量数据的汪洋之中,信息的精确定位变得越来越困难。搜索引擎的出现,一定程度上缓解了这些挑战带来的问题。然而,传统的搜索引擎没有挖掘查询更深层次的语义信息,且用户仍需以人工遍历的方式定位信息,费时且费力。问答系统的出现,为信息的精确定位提供了一种全新的解决方案。通过问答系统,用户能以自然语言的方式表达自己的信息需求,系统将直接返回精确、简洁的答案。当前,问答系统常用的模型主要为基于检索的模型和基于答案生成的模型。基于检索的模型有匹配模型简单、答案在语料库中、可解释性强等优点;但由于语料库大小的限制,导致能回答的问题具有局限性,对问题的语义信息挖掘不足。基于答案生成的模型可以通过挖掘问题的深层语义生成答案,答案可以不受语料库的规模限制,但模型的可解释性不强,且倾向于生成通用的、单调的答案,无法保证答案的合理性和一致性。对于问答系统而言,由于语料库数据形式的不同,需要采用的技术也不相同。而在大多数情况下,语料库数据形式又以自由文本和问题答案对数据的获取最为常见。因此,本文针对两种不同的数据形式,设计了两套不同的问答系统。此外,基于检索模型和答案生成模型各自存在的问题,本文提出了基于检索和答案生成的混合模型,以结合两者的优势。因此,本文主要贡献为:1.面对实际的应用需求,基于开源搜索引擎Solr及Learn to rank排序模型,以问题搜答案的方式,设计并实现了一套面向自由文本的基于检索的问答系统;2.为结合检索模型和答案生成模型两者的优势,基于检索模型和Seq2Seq模型,设计并实现了一套面向问题答案对的基于检索和答案生成相混合的问答系统,检索模型先对语料库中的问题答案对建立索引,然后以问题搜问题的方式,检索得到最相似的问题,并将相似问题的答案作为原问题的答案,并通过基于Seq2Seq的重排序模型对所有的候选答案进行升序重排序,并以得分最低的答案作为检索模型的答案;当检索模型的答案的得分低于置信阈值时,直接返回该答案,否则,由Seq2Seq模型直接生成答案;3.通过在自建数据集、InsuranceQA数据集和UbuntuDialogCorpus数据集上进行实验,分别验证了两套系统的合理性和有效性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
问答式检索系统论文参考文献
[1].马龙轩.检索式问答系统中语义关系的计算与评价[D].北京邮电大学.2019
[2].李湘识.基于检索和答案生成混合的问答系统设计与实现[D].浙江大学.2019
[3].张越,杨沐昀,郑德权,赵铁军,李生.面向问答系统的信息检索自动评价方法[J].智能计算机与应用.2019
[4].仇瑜,程力,Daniyal,Alghazzawi.特定领域问答系统中基于语义检索的非事实型问题研究[J].北京大学学报(自然科学版).2019
[5].夏远远,王宇.基于HNC理论的社区问答系统问句检索模型构建[J].计算机应用与软件.2018
[6].张力.社区问答系统中答案排序和问题检索算法研究与应用[D].中国科学技术大学.2018
[7].吴炳林.基于中文深度智能问答系统的证据检索和评分算法研究[D].郑州大学.2018
[8].夏远远.社区问答系统问句检索方法研究[D].大连理工大学.2018
[9].白菊,何聚厚.应用于问答系统的Lucene相似度检索算法改进[J].计算机技术与发展.2017
[10].李姣.基于问答库的检索式问答系统研究与实现[D].西北大学.2017