并行查询处理论文_徐哲,刘亮,秦小麟,秦伟萌

导读:本文包含了并行查询处理论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:空间,分布式,算法,索引,模型,关系,数据。

并行查询处理论文文献综述

徐哲,刘亮,秦小麟,秦伟萌[1](2019)在《带关系属性的空间关键词并行查询处理算法》一文中研究指出移动互联网、物联网的快速发展产生了大量带关系属性的空间文本对象数据。面向网页文本数据的搜索引擎仅支持文本关键词查询,无法处理包含地理位置信息、文本信息、关系属性的混合数据。现有面向空间关键字的查询处理技术未将关系属性作为过滤条件,且是基于单机实现的,无法满足查询性能的要求。为解决上述问题,提出了一种新颖的将关系属性、空间和关键字3种属性映射成文本数据的Baseline算法(Baseline Algorithm of Distributed Keywords and Location-aware with Relational Attributes Query,BADKLRQ),利用分布式倒排文本索引对转换后的文本数据进行并行索引。针对带关系属性、空间和关键字的查询请求,将查询请求转换成映射空间中的多个文本关键字,对转换后的文本数据进行查询,并提出基于Baseline算法的改进算法MGDKLRQ,以改进空间属性转换成文本关键字的算法。实验结果表明,在索引时间和查询时间上,BADKLRQ算法比现有算法提升了10%~15%,MGDKLRQ算法比现有算法提升了20%~30%。(本文来源于《计算机科学》期刊2019年S1期)

Amina,Belhassena(啊米娜)[2](2018)在《轨迹数据上的并行查询处理》一文中研究指出近年来,来自档案、文件、媒体、传感器数据、社交媒体、商业应用、公共网络、数据存储、机器日志数据等诸多领域的大数据前所未有的增长。大量的数据让现有的处理、存储、分析和管理过程面临很大挑战。因此,近年来对于大数据的计算和分析研究广泛展开。地理信息系统GIS利用了全球定位系统GPS工具和传感技术收集了大量的位置数据来描述物体的运动情况,即物体的运动轨迹。一条轨迹即为一串位置点的有序序列,每个位置点被命名为兴趣点,包含了该位置的经纬度、地址名称以及其他描述性信息。为了处理和分析这些数据,应用轨迹数据库(TJDBs)去管理轨迹数据,并从中挖掘出知识来支持决策。同时,轨迹的描述性信息和位置点上的路径也在TJDBs中得到管理,因此,轨迹的查询处理也带来了重大的研究挑战,此外,TJDBs存在大量的物体的移动数据,这就需要对轨迹进行高效的查询处理来支持轨迹中知识提取和轨迹模式匹配。这需要多次的计算和更新的方法去处理。因此,这部分研究在工业界和学术界都是一个丞待解决的问题。对于这种需求,当前还没有相关课题研究与用户生活相关的特殊查询问题。本文针对轨迹领域中的这些挑战,提出了有效的方法,均衡的轨迹数据管理索引,和高效率的查询算法。本文通过使用基于分布式系统的新定量方法加速计算,在实验部分进行了全面的实证分析和详尽的方法评估,这些成果也为未来的研究方向奠定了基础。和以往的方法相比,本文的实验结果保证了提出索引和方法的效率和性能。全文共分五章,结构如下:第1章介绍了本文的主要研究内容和研究目标。重点讨论了相似性度量、空间查询处理类型、以及较大轨迹数据库上TJDBs轨迹数据处理定义和方法。此外,介绍了这些机制在轨迹索引和查询问题中的应用。本章是对本文工作的结构支撑。第2章介绍了并行轨迹数据管理和处理的分布式索引(DTR树)。本章重点讨论使用分布式平台将大型轨迹数据管理转换为成一组索引集合,其中每个索引位于集群中的不同机器中。索引应用了数据存储和数据维护方法。此外,提出一个处理轨迹top-k查询的有效算法。top-k查询是基于距离阈值和一组关键字信息,以找到包含指定的活动关键词的最佳的轨迹序列。为了优化查询算法,提出了一种有效的遍历索引的剪枝方法。第3章重点研究了频繁路径的查询处理方法,在此方法中,位于集群中不同机器中的索引存储了地理位置对象及其频繁活动文本。因此,本章的目的是处理包括活动在内的每个轨迹对象的分布式数据挖掘算法(Apriori算法)。数据挖掘算法被应用于计算那些存储在R-树划分的叶子节点上的运动物体及兴趣点POI,并通过支持度来选择频繁轨迹和活动,以及构建强关联规则计算它们的置信度。这些结果存储在海量的挖掘倒排表中(MIL),本章利用可追踪性方法对其进行优化,以减少其数量。最后,为了处理所提出的查询,提出了一个高效的并行查询处理算法。算法由两个步骤组成:第一步通过遍历相应的分离索引,有效地访问搜索空间,第二步目标是用优化的MIL列表同步地选择最佳轨迹。第4章提出了基于活动和距离搜索的轨迹skyline查询方法。它旨在利用两个有效函数处理这两个维度上的查询。第一个函数使用活动查询和包含在轨迹对象中的活动之间的相似性度量来评估多频繁活动的检索。第二个函数分析了轨迹活动对象和查询的位置之间的地理位置检索。为了处理轨迹查询,基于函数和分布式索引Dm TR树及上文提到的倒排文件结构,我们提出了一种有效的并行算法。此外,为了处理在数据集存储期间引起的不完整活动数据问题。在本章中,我们建议修改这两个函数来解决问题。此外,还开发了一种高效的并行轨迹算法来采用不完整的活动问题以及skyline查询。(本文来源于《哈尔滨工业大学》期刊2018-06-01)

陈洁,褚龙现,夏栋梁[3](2017)在《一种支持并行处理的矢量数据存储与查询方法》一文中研究指出为了提高海量空间矢量数据的存储和拓扑关系查询效率,提出一种矢量数据的分布式存储与索引方法。设计了基于HBase的空间数据存储模型和索引构建方案,采用Spark计算框架实现了网格空间索引的并行构建算法,利用索引完成了空间拓扑关系的分布式查询。最后在Hadoop集群上统计了相同数据集的拓扑包含查询时间,结果表明提出的并行存储与查询方法可行性好,比直接查询HBase算法快4~5倍。(本文来源于《电子设计工程》期刊2017年10期)

高延太[4](2017)在《基于并行处理大数据图查询研究》一文中研究指出随着互联网的飞速发展,我们逐渐进入一个数据为王的时代,不仅数据量变得十分巨大而且数据变得日益复杂,如何从这些多而杂的数据中查找出有用的数据已经成为一个非常迫在眉睫需要优化的问题。与此同时,在数据存储方式上分布式云存储已经成为一种常用的解决方案,于是问题就转变为基于分布式存储的数据查询。对于大规模分布式存储的数据进行按需查询,一种常用的有力的工具是图,图数据结构在具有引用关系的数据上具有很强的优势,因此针对大数据的查询就可以转化为图查询算法问题。在图查询算法中,有一大类问题就是在数据图中查询给定两个节点,回答这两个节点是不是可达的,也就是图的可达查询问题。在实际应用中,图的可达查询问题应用范围广泛,有很重要的研究意义。传统的针对图的可达查询问题的解决方法,要么限定在基于树的图查询,要么有的是针对特定的图数据库系统,这些算法大多数普遍采用索引的方法,但是在处理分布式大数据图的时候在准确性和性能上有很大的缺陷。针对这些问题,本文提出了基于Hadoop分布式计算平台下的MapReduce编程模型的并行可达图查询算法,并提出了一个基于六度可达查询的索引用来解决局部查询上的可达查询问题。通过这些算法,致力于优化分布式大图的可达查询问题,并采用多个实际应用中的数据集,从多个指标和角度,进行了多次实验评估,验证了算法的准确性和高效性。(本文来源于《华北电力大学(北京)》期刊2017-03-01)

郑亮[5](2016)在《基于并行处理的空间查询技术研究》一文中研究指出随着空间数据的快速增长,人们获取的数据越来越丰富,数据的形式也更加复杂多样化。而空间查询是空间数据库支持的基本操作,在许多重要的领域有着广泛地应用,其中包括推荐系统、图像检索和模式识别等等。然而由于空间查询需要大量的空间计算操作,传统的串行处理方法在面对海量数据查询时会出现瓶颈。因此,如何对这些空间数据进行合理组织,并进行高效地查询正变得越来越重要。针对上述问题,本文提出了基于Master-Worker模式的Hilbert R树并行空间查询算法。首先,对空间数据集进行预处理,并对预处理后的数据集进行Hilbert编码。然后,对编码后的空间数据集进行并行排序和划分,将划分好的数据集发送到各主机节点中,最大化利用集群资源,自底向上并行构建空间索引结构,接着对各主机节点中构建的空间索引结构进行合并。最后,为了支持范围查询和最近邻查询,在上述构建的索引结构基础上引入基准搜索算法,并提出了新的基于Hilbert R树搜索的改进算法。此改进算法利用Hilbert编码方法和Hilbert R树特性来剪枝搜索空间,大幅减少数据访问的次数。本文通过实验验证了方法的可行性,并对比了空间查询算法中基准算法和改进算法的性能。实验表明改进算法在真实数据集上能有效地解决大规模空间查询问题,并表现出良好的效能。(本文来源于《南京邮电大学》期刊2016-11-18)

魏炜,王意洁,王媛,马行空[6](2015)在《一种弹性可扩展的并行n-of-N Skyline查询处理算法》一文中研究指出n-of-N Skyline查询关注于大小为N的滑动窗口上最近任意n(n≤N)个数据对象的Skyline查询结果,为用户的Skyline查询提供了高度的灵活性.在当前大数据的新环境下,数据流呈现出以下2个特征:1)数据流实时大规模高速到达;2)数据流工作负载的急剧变化性.这对n-of-N Skyline查询的实时性以及自适应扩展提出了更高的要求.而目前针对n-of-N Skyline查询相关的研究都是关注于单机环境下的集中式查询算法,难以同时满足当前新环境下查询的实时性与自适应扩展需求.为此,提出了一种弹性并行查询模型EPM,并且基于EPM模型提出了一种弹性可扩展的并行n-of-N Skyline查询算法(elastic parallel n-of-N Skylline,EPnNS).实验证明,该算法在并行节点数增加1倍时,查询效率提升接近70%,而且在应对不同程度的负载变化时,该算法具有较好的自适应调整性能.(本文来源于《计算机研究与发展》期刊2015年S2期)

魏炜[7](2015)在《数据流的分布并行n-of-N Skyline查询处理技术研究》一文中研究指出数据流作为一种新的数据存在形式,广泛应用于诸如金融数据分析、传感器网络、记忆位置的服务等现实应用中。数据流查询处理已经成为当前大数据环境下数据库研究领域的一个热点问题。伴随着分布式计算环境的兴起,分布并行化已经成为当前数据流研究领域的一个重要的发展趋势,实现流处理的分布并行化不仅能够满足用户日益增长的查询实时性需求,还能够克服单机集中式查询处理方法所遇到的计算能力不足等问题。数据流n-of-N Skyline查询是一种新型的数据流Skyline查询。其查询形式相对于一般数据流Skyline查询更加复杂,对计算节点性能要求更高。而且当数据流工作负载变化过大时,现有的单机集中式查询方法因计算能力限制难以提供更高的查询效率与灵活性。因此,针对数据流n-of-N Skyline查询,对其进行并行化处理研究具有很重要现实意义。针对已有的单机集中式n-of-N Skyline查询算法无法满足更高的查询实时性的问题,提出了一种适用于n-of-N Skyline查询的并行查询模型nNPM,并基于此模型提出了一种分布并行n-of-N Skyline查询算法PnNS。在PnNS算法中,每个并行计算节点只需维护局部滑动子窗口数据信息,而且并行计算节点之间不需要进行交互通信就可完成计算任务,结果输出在下一级节点实现。实验结果表明,当数据流工作负载较大时,相比于传统单机集中式查询算法,PnNS算法的查询效率随着并行度的增加接近于线性增长;当滑动窗口规模、数据维度等发生改变时,PnNS算法依然能够保持较好的并行查询处理性能。针对并行n-of-N Skyline查询过程中由于并行计算节点性能的差异而引起的负载不均衡问题,提出了一种基于滑动窗口调整的动态负载均衡算法LBA。该算法采用一种基于簇的子窗口划分策略,并且通过划分反馈模块实时调整并行计算节点维护的子窗口大小,进而达到在并行计算节点之间调整负载的目的。实验结果表明,LBA算法能够有效改善并行计算节点之间的负载均衡性,使节点处理延迟标准偏差下降36%;当滑动窗口大小、并行计算节点个数、数据维度发生改变时,LBA算法依然能够使分布并行n-of-N Skyline查询的并行计算节点间保持较好的负载均衡性。针对并行n-of-N Skyline查询过程中系统整体负载过大或过小所造成的查询计算节点资源供应不足或过剩问题,提出了一种弹性可扩展的并行查询模型EPM,并基于该模型提出了一种弹性节点资源配置算法ENPA。在ENPA算法所采用的弹性协议中,将数据流工作负载抖动性以及计算节点自身处理延迟考虑在内,综合整体负载状况进行并行计算节点群的扩展或收缩。实验结果表明,ENPA能够弹性地对并行计算节点规模进行调整以匹配实时工作负载,保证系统高性价比。(本文来源于《国防科学技术大学》期刊2015-10-01)

李传文,谷峪,张统,于戈[8](2015)在《PMkSK:一种空间关键字移动近邻查询并行处理方法》一文中研究指出为了提高空间关键字移动k近邻查询处理效率,提出关键字影响集的概念,并设计了一种基于关键字影响集的空间关键字移动近邻查询并行处理方法.该方法包含一种并行查询算法和一种并行验证算法.首先,采用并行查询算法计算近邻结果;然后,确定查询区域,并在区域内查找包含的关键字影响集;最后,在查询者移动时不断通过并行验证算法验证影响集,以实现空间关键字移动近邻查询处理.实验结果表明:这2种算法的时间复杂度分别为O((log D+k)/k)和O(logk),均为现有对应算法的O(1/k),其中D为空间对象数目.在多核系统上,这2种算法的运行时间均比现有算法低一个数量级.基于影响集的并行查询处理方法避免了基于安全区域的移动k近邻查询处理方法中更新代价和更新频率难以同时取得最优的固有缺点,可以高效地处理关键字移动k近邻查询.(本文来源于《东南大学学报(自然科学版)》期刊2015年05期)

赵宇亮[9](2015)在《基于副本选择的大数据实时查询处理并行调度》一文中研究指出Cloudera Impala是一个开源的大数据实时查询系统。Impala使用HDFS作为底层存储管理器。HDFS会对文件进行分块,并为每个块创建多个副本。数据多副本可提高系统的容错性能,并能提供负载均衡。然而,数据多副本条件下的查询处理并行调度将变得更加复杂。Impala的并行调度包括两步:副本选择和执行节点选择。在副本选择的过程中,Impala未考虑通信代价和集群负载,可能延长响应时间。针对现有的查询处理并行调度方法存在未考虑数据多副本的问题,本文提出了基于副本选择的大数据实时查询处理并行调度方法。该方法将所有查询分为单表查询和多表查询两类:若是单表查询,则首先根据数据分布构造流网络,然后使用SRPushRelabelBinary算法选择副本,最后选择执行节点;若是多表查询,则结合代价模型搜索近似最优调度策略。本文定义查询处理的代价为从查询开始处理时刻到预估所有连接操作完成时刻的时间间隔。其包括读磁盘操作的执行时间、选择操作的执行时间、网络传输的时间和连接操作的执行时间。该代价模型综合考虑通信的代价、并行执行和集群的负载。本文利用Maxdiff(V, A)直方图估计中间结果,以提高代价模型的准确度。将本文提出的查询处理并行调度方法集成到Impala2.0系统,并在TPC-DS数据集上进行了实验,结果表明,集成后的Impala系统的查询响应时间比原Impala系统减少了10%~30%。(本文来源于《浙江大学》期刊2015-01-23)

杨光[10](2014)在《大规模RDF数据并行查询处理系统》一文中研究指出RDF(Resource Description Framework)数据模型的提出是为了对网络对象进行建模,作为语义网发展的一部分。这种数据模型被很多领域使用,如维基百科,政府机构以及生物信息等。RDF数据集的量级正在成倍增长。现在,RDF数据集数量已经突破十亿个叁元组并继续增长着。爆炸式的RDF数据对现有分析以及处理数据的方式提出了严重的挑战。由于现有查询引擎在查询处理方面的缺陷,设计一种高效的RDF数据处理系统成为人们亟待解决的问题。大规模RDF数据并行查询处理系统(TripleParallel),提出了一种高效处理十亿级别RDF数据的技术。这种技术根据RDF数据的特性,采用图数据结构对RDF数据进行抽象并用图方式表示。为了提高SPARQL(SPARQL Protocol and RDF QueryLanguage)语句的查询处理速度,TripleParallel采用基于块粒度下的并行处理模型。针对查询计划生成,采用选择度估计的方式确定查询图中每个变量以及绑定模式的选择度。然后采用执行结构覆盖查询图的方式,确定查询计划的执行顺序。在块粒度处理方式中,建立并行处理模型,以块为单位,采用数据提取与数据操作分开的方式,并采用流水线处理的方式连接两个过程之间的操作。在提高并行度的同时,加强了预取数据与计算的重迭,缩减了整体查询的执行时间。在块内部处理方面,TripleParallel提出了并行处理连接方式。针对不同的数据操作,采取了进一步的优化,提升了处理速度。TripleParallel在块粒度处理和块内部处理的表现,使得在查询处理方面的相较于TripleBit查询时间减少了25%。一方面发挥了查询处理的优势,并减少了从生成计划到执行计划的时间,提高了整个处理过程的紧凑程度;另一方面采用了流水线方式进行处理,并从块粒度和块内部两个方面进行加速,实现了处理器的负载平衡,提高了在不同粒度间的并发执行效率。(本文来源于《华中科技大学》期刊2014-05-01)

并行查询处理论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

近年来,来自档案、文件、媒体、传感器数据、社交媒体、商业应用、公共网络、数据存储、机器日志数据等诸多领域的大数据前所未有的增长。大量的数据让现有的处理、存储、分析和管理过程面临很大挑战。因此,近年来对于大数据的计算和分析研究广泛展开。地理信息系统GIS利用了全球定位系统GPS工具和传感技术收集了大量的位置数据来描述物体的运动情况,即物体的运动轨迹。一条轨迹即为一串位置点的有序序列,每个位置点被命名为兴趣点,包含了该位置的经纬度、地址名称以及其他描述性信息。为了处理和分析这些数据,应用轨迹数据库(TJDBs)去管理轨迹数据,并从中挖掘出知识来支持决策。同时,轨迹的描述性信息和位置点上的路径也在TJDBs中得到管理,因此,轨迹的查询处理也带来了重大的研究挑战,此外,TJDBs存在大量的物体的移动数据,这就需要对轨迹进行高效的查询处理来支持轨迹中知识提取和轨迹模式匹配。这需要多次的计算和更新的方法去处理。因此,这部分研究在工业界和学术界都是一个丞待解决的问题。对于这种需求,当前还没有相关课题研究与用户生活相关的特殊查询问题。本文针对轨迹领域中的这些挑战,提出了有效的方法,均衡的轨迹数据管理索引,和高效率的查询算法。本文通过使用基于分布式系统的新定量方法加速计算,在实验部分进行了全面的实证分析和详尽的方法评估,这些成果也为未来的研究方向奠定了基础。和以往的方法相比,本文的实验结果保证了提出索引和方法的效率和性能。全文共分五章,结构如下:第1章介绍了本文的主要研究内容和研究目标。重点讨论了相似性度量、空间查询处理类型、以及较大轨迹数据库上TJDBs轨迹数据处理定义和方法。此外,介绍了这些机制在轨迹索引和查询问题中的应用。本章是对本文工作的结构支撑。第2章介绍了并行轨迹数据管理和处理的分布式索引(DTR树)。本章重点讨论使用分布式平台将大型轨迹数据管理转换为成一组索引集合,其中每个索引位于集群中的不同机器中。索引应用了数据存储和数据维护方法。此外,提出一个处理轨迹top-k查询的有效算法。top-k查询是基于距离阈值和一组关键字信息,以找到包含指定的活动关键词的最佳的轨迹序列。为了优化查询算法,提出了一种有效的遍历索引的剪枝方法。第3章重点研究了频繁路径的查询处理方法,在此方法中,位于集群中不同机器中的索引存储了地理位置对象及其频繁活动文本。因此,本章的目的是处理包括活动在内的每个轨迹对象的分布式数据挖掘算法(Apriori算法)。数据挖掘算法被应用于计算那些存储在R-树划分的叶子节点上的运动物体及兴趣点POI,并通过支持度来选择频繁轨迹和活动,以及构建强关联规则计算它们的置信度。这些结果存储在海量的挖掘倒排表中(MIL),本章利用可追踪性方法对其进行优化,以减少其数量。最后,为了处理所提出的查询,提出了一个高效的并行查询处理算法。算法由两个步骤组成:第一步通过遍历相应的分离索引,有效地访问搜索空间,第二步目标是用优化的MIL列表同步地选择最佳轨迹。第4章提出了基于活动和距离搜索的轨迹skyline查询方法。它旨在利用两个有效函数处理这两个维度上的查询。第一个函数使用活动查询和包含在轨迹对象中的活动之间的相似性度量来评估多频繁活动的检索。第二个函数分析了轨迹活动对象和查询的位置之间的地理位置检索。为了处理轨迹查询,基于函数和分布式索引Dm TR树及上文提到的倒排文件结构,我们提出了一种有效的并行算法。此外,为了处理在数据集存储期间引起的不完整活动数据问题。在本章中,我们建议修改这两个函数来解决问题。此外,还开发了一种高效的并行轨迹算法来采用不完整的活动问题以及skyline查询。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

并行查询处理论文参考文献

[1].徐哲,刘亮,秦小麟,秦伟萌.带关系属性的空间关键词并行查询处理算法[J].计算机科学.2019

[2].Amina,Belhassena(啊米娜).轨迹数据上的并行查询处理[D].哈尔滨工业大学.2018

[3].陈洁,褚龙现,夏栋梁.一种支持并行处理的矢量数据存储与查询方法[J].电子设计工程.2017

[4].高延太.基于并行处理大数据图查询研究[D].华北电力大学(北京).2017

[5].郑亮.基于并行处理的空间查询技术研究[D].南京邮电大学.2016

[6].魏炜,王意洁,王媛,马行空.一种弹性可扩展的并行n-of-NSkyline查询处理算法[J].计算机研究与发展.2015

[7].魏炜.数据流的分布并行n-of-NSkyline查询处理技术研究[D].国防科学技术大学.2015

[8].李传文,谷峪,张统,于戈.PMkSK:一种空间关键字移动近邻查询并行处理方法[J].东南大学学报(自然科学版).2015

[9].赵宇亮.基于副本选择的大数据实时查询处理并行调度[D].浙江大学.2015

[10].杨光.大规模RDF数据并行查询处理系统[D].华中科技大学.2014

论文知识图

数据流的通用分布并行查询处理...3关联矩阵存储结构图—种基于代价模...并行查询处理Figure2-7Paralle...并行数据库系统-图3 SN结构并行计算机客户端应用程序的运行结果查询内部的并行处理过程

标签:;  ;  ;  ;  ;  ;  ;  

并行查询处理论文_徐哲,刘亮,秦小麟,秦伟萌
下载Doc文档

猜你喜欢