导读:本文包含了分布式并行数据库论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:分布式,数据库,算法,数据,直方图,增量,过滤器。
分布式并行数据库论文文献综述
徐石磊,魏星,江红,钱卫宁,周傲英[1](2018)在《分布式数据库系统中的并行分组聚合实现》一文中研究指出伴随着新型互联网应用中对数据统计、分析需求的增大,分组、聚合已经成为数据分析应用中出现频率最多的请求之一.本文就类OLAP(on-line transaction processing)应用中常见的Aggregation、GroupBy原理进行了分析.针对一般事务型数据库采用排序分组的缺点,提出了两种Hash分组聚合的具体实现方案,并提出一种利用统计信息动态决策Hash桶数、Hash分组聚合方案的策略.根据分布式数据库多副本的特点,本文又提出了一种Hash分组聚合节点级的并行方案.最后,在开源数据库OceanBase进行了具体的实现.通过实验证明,本文提出的利用统计信息动态决策Hash分组聚合方案相比排序分组具有极大的效率提升.(本文来源于《华东师范大学学报(自然科学版)》期刊2018年05期)
茅潇潇[2](2018)在《分布式数据库并行连接查询的实现及优化》一文中研究指出在信息化时代,随着数据规模和用户规模的不断扩大,传统的集中式数据库已经难以满足互联网应用的需求。基于水平扩展的分布式数据库系统能够突破集中式数据库单节点的性能瓶颈问题,以其良好的存储能力和计算能力受到了学术界和工业界的关注。但是与此同时,分布式架构的特点使得分布式数据库中的连接查询操作更为复杂和具有挑战性。本文利用并行查询处理技术,实现并优化了分布式数据库中的并行连接查询,主要贡献包括以下叁点:1.本文详细分析了传统将数据集中在一个节点进行连接查询处理的执行流程,从集中式处理节点的性能瓶颈问题、内存资源消耗、阻塞算子特点和网络传输代价等方面总结了影响连接查询响应时间的因素,并在此基础上归纳并明确了分布式数据库中提高连接查询效率的思路。2.对于大规模数据的连接查询,本文基于Ocean Base设计并实现了一套并行连接查询执行框架。该框架通过同时由多个计算节点并行执行连接查询任务和基于流水线式数据传输的并行哈希连接算法,将独立并行、水平并行与流水线并行结合,减少了连接查询的响应时间,并采用可靠的容错与重试策略提高了并行连接查询执行流程的可用性。在此基础上,本文提出了数据预读取、数据预探测和设计高效缓冲区等多项优化技术进一步加快了连接操作的并行执行效率,减弱了并发场景下的短板效应,提高了系统整体的资源利用率。3.在并行连接查询执行过程中,本文提出并设计了基于布隆过滤器的数据传输优化策略。在哈希连接中引入了布隆过滤器选择算子及动态数据传输算子,通过构造布隆过滤器过滤掉右表中无需参与连接的数据,以少量的计算代价节省了大量的跨节点网络传输开销,降低了连接操作的查询时延。综上所述,本文基于分布式数据库提出了一个高效的并行连接查询解决方案,并进一步给出了若干优化策略,提升了分布式环境下的连接查询执行效率,最后通过一系列实验证明了该方案的可行性与高效性。同时,本文提出的并行连接查询执行框架也为其他分布式数据库中的连接查询优化提供了思路和参考,具有一定的借鉴意义。(本文来源于《华东师范大学》期刊2018-05-01)
高锦涛,李战怀,杜洪涛,刘文洁[3](2019)在《分布式数据库下基于剪枝的并行合并连接策略》一文中研究指出排序合并连接是数据库系统一种重要的连接实现方式,比哈希连接有更广泛的应用.分布式环境下,数据分片、分布存储,面对昂贵的网络代价,进行高效排序合并连接的挑战巨大.传统策略首先针对连接数据进行排序,然后基于排好序的数据执行合并连接.这两部分操作均基于原始数据进行操作,通常情况下,原始连接数据存在无用数据块,这些数据块无需连接,但会增加额外开销,包括网络开销.随着数据量的增多,出现无用数据块的概率增大,额外开销随之增多.传统策略没有预先处理这些无用数据块.针对这个问题,提出一种分布式环境下基于剪枝的并行排序合并连接策略(parallel sort-merge join based on prune,简称Pr_PSMJ).其特点是,连接发生之前高效完成对连接对象无用数据块的剪枝处理,提高整体连接效率.基本思想是,根据连接对象对应的连接分区数据统计信息,构造一种双边邻接表(bilateral adjacency list,简称BAL),用来对连接数据中无用数据块进行剪枝,并保证最终连接结果的正确性;剪枝完成后,利用BAL计算出各个最佳本地连接执行点,并指导分区数据的迁移,使数据移动量最小;在连接阶段,由于BAL保证本地连接执行节点的独立性,因此能够轻松并行执行整个连接过程,并在每个连接点本地利用多核环境完成局部并行排序合并连接;最后,将局部结果合并成最终结果.由于Pr_PSMJ中的高效剪枝策略是在连接执行之前完成的,因此几乎适合任何合并连接操作,并且对于其他连接策略也有借鉴作用.给出了基于Pr_PSMJ的算法的正确性、效率性以及适应性分析,并且给出实验验证,证明了在分布式大数据量排序合并连接情况下,Pr_PSMJ相对于其他策略能够有效减少网络开销,并提高连接效率.(本文来源于《软件学报》期刊2019年11期)
王阳,钟勇,周渭博,杨观赐[4](2018)在《云数据库中等宽直方图的分布式并行构造方法》一文中研究指出直方图能够直观描述数据分布,在数据库查询优化中起着重要作用。然而在分布式云数据库场景中,现有直方图构建方法存在并行资源利用率低,网络传输量较高的问题。针对该问题,基于关系型云数据库提出一种等宽直方图的分布式并行构造方法。首先,根据集群中分布式存储的数据无关性,基于master-slave架构在直方图任务开始前由集群中请求发起节点对经RPC(remote procedure call)协议获取到的多个工作节点最值数据比较得到数据表在整个集群的全局最大值、最小值;然后,考虑到算法运行过程中数据传输量的优化,集群中工作节点对本地数据扫描、排序,划分至依据全局最值信息构建的直方图桶内,实现聚合子直方图的并行构建以提高集群计算资源利用率;最后,请求发起节点对并行构建的多个子直方图中边界值相等的桶频率值聚合得到全局直方图。算法利用分布式思想实现了关系型云数据库中直方图的构建,将计算任务划分成多个子任务并行执行,子直方图信息代替数据分片的传输大幅优化了网络带宽的负载。算法已应用于关系型云数据库内核以优化SQL语句执行路径的初始扫描开销、数据选择率等关键参数。人工合成数据与评分数据的实验结果证明,算法运行过程中的网络传输量与数据库表中元组个数无关,且具有良好的可拓展性。(本文来源于《工程科学与技术》期刊2018年02期)
张静波[5](2018)在《以并行遗传与蚁群算法为核心的分布式数据库优化》一文中研究指出信息化时代背景下,大数据的出现使得分布式数据库得到了广泛应用,在分布式数据库查询中,不仅要求查询结果的准确性,还要求较高的查询效率。如何通过科学合理的算法,促进数据查询效率的优化,是本文研究的关键。结合遗传算法和蚁群算法的基本原理,提出了一种基于并行遗传-最大最小蚁群算法(PGA-MMAS),并对其进行了仿真实验。结果表明,该算法检索效率较遗传算法和蚁群算法更高,能够显着提升分布式数据库查询效率。(本文来源于《通讯世界》期刊2018年01期)
柳陆[6](2016)在《分布式内存数据库数据并行快速加载与索引技术》一文中研究指出随着互联网行业的高速发展,以及“大数据”、“云计算”等概念的普及,数据的爆炸性增长在大容量、多样性和高增速方面,全面考验着现代企业的数据处理能力。对于已经成熟的传统数据库技术来说,计算机网络技术的快速发展以及行业应用的扩展需求使得传统数据库技术在很多使用场景下受到了很多新的挑战。在这个形势下,分布式数据库和内存数据库的概念应运而生。分布式数据库相对于传统集中式的数据库具有良好的灵活性与可扩展性、在处理海量数据时在性能上和可靠性上有着更大的优势。而内存数据库则是将要处理的数据存储在内存而不是磁盘中,因此其读写性能要比磁盘访问高出几个数量级,从而极大地提高性能。将分布式和内存访问结合在一起的分布式内存数据库可以兼顾可扩展性和高速访问两个特点,在当前形势下为用户提供更多的功能。相比于磁盘来说,内存是很宝贵的资源,因此在大部分场景下分布式内存数据库在生产业务中主要扮演的是计算平台的角色,并不作为存储数据的主数据库,其数据很多还是存储在传统磁盘数据库中。如何将存储在传统磁盘数据库中的海量结构化数据快速加载到内存中是分布式内存数据库首先要解决的问题。针对这个问题,本论文提供了一个将存储在磁盘型数据库中的结构化数据快速加载到分布式内存数据库系统中的解决方案。首先针对原有的结构化数据提供了一套新式的快速索引模型,能够实现数据的高效存储和快速查询。然后通过分布式系统的方式把原始的结构化数据建立成内存数据索引并加载到分布式内存数据库存储引擎中。除此之外,该解决方案能够支持用户喜好数据的数据过滤,并提供增量数据更新功能。论文的主要研究工作包含以下几点:1、设计出一种针对内存数据库的内存数据索引模型,实现数据的高效存储和快速查询。该索引模型基于列式数据存储,可以对原有数据进行压缩并提供快速的查询效率。2、根据内存数据索引模型,设计分布式内存数据库数据并行快速加载方案,将存储在外部数据库中的传统结构化数据加载到分布式内存数据库引擎中。该方案能根据用户喜好对数据进行过滤,然后创建内存数据索引,然后根据一定策略将数据加载到分布式内存数据库引擎中。3、在数据全量加载的基础上设计数据增量加载策略,根据一定的策略进行数据的增量加载,保持分布式内存数据库系统与外部数据库中的数据同步。4、采用分布式架构进行海量结构化数据的并行读取,可以提高数据处理速度、缓解节点负载压力和提高节点安全性,提高数据加载的速度和稳定性。(本文来源于《电子科技大学》期刊2016-03-28)
张小龙[7](2016)在《分布式并行空间数据库研究》一文中研究指出由于空间数据的海量性、复杂性,导致数据越来越难以集中管理。文章利用开源软件QGIS结合Oracle数据库,设计了一个分布式并行空间数据引擎,实现了空间数据的分布式存储和高效的并行访问。(本文来源于《信息通信》期刊2016年03期)
林基明,班文娇,王俊义,童记超[8](2016)在《基于并行遗传-最大最小蚁群算法的分布式数据库查询优化》一文中研究指出针对分布式数据库中关系及其分片多副本、多站点存储的特性会增加查询搜索空间及时间复杂度,从而降低查询执行计划(QEP)搜索效率的问题,提出一种基于分片分配选择器(FSS)设计准则的并行遗传-最大最小蚁群算法(PGA-MMAS)。首先,结合实际的企业分布式信息管理系统设计FSS,启发式选择较优关系副本,以减少查询连接代价并缩小PGA-MMAS的搜索空间;然后结合遗传算法(GA)收敛较快的优势,对最终连接关系进行编码和并行遗传操作,得到一组相对较优的QEP,并将其转化为并行最大最小蚁群算法(MMAS)的初始信息素分布,从而使其更快速地搜索到全局最优QEP;最后分别在不同关系数情况下对算法进行仿真实验,结果表明,基于FSS的PGA-MMAS搜索最优QEP的效率高于原GA以及基于FFS的GA、MMAS和GA-MMAS;经实际工程应用验证,所提算法搜索出的高质量QEP可以提高分布式数据库多关系查询效率。(本文来源于《计算机应用》期刊2016年03期)
范娟娟,海洋,高明星,王丰[9](2014)在《基于分布式存储与并行计算架构的历史数据库分析解决方案》一文中研究指出铁路运输管理信息系统保存接近20年的铁路货票、确报、货车追踪等历史信息,数据量非常大,超过30 TB。在实际使用中,针对历史数据的查询次数比较密集,分析维度多,条件组合多,速度要求高。现有服务器加SAN存储的传统架构,其带宽瓶颈不适合历史数据库的分析性能要求,因此提出一种基于分布式存储与并行计算架构的新方法,用以解决历史数据库的性能瓶颈问题,并通过实际测试数据,证明分布式存储与并行计算架构对历史数据库查询速度的提升。(本文来源于《中国铁路》期刊2014年07期)
顾攀,刘心松,陈小辉,邱元杰,左朝树[10](2006)在《分布式并行数据库系统中任务分配算法的设计》一文中研究指出在分析传统任务分配算法的基础上,设计了一种改进的混合启动自适应任务分配算法。该算法根据系统总体负载变化自适应地选择启动策略,考虑任务对资源的需求和系统中的数据分布,有效地选择节点进行探询,使任务分配的开销最小化。在分布式并行数据库系统DPSQL中的使用表明,该算法比传统算法提供更高的任务执行效率和更好的系统稳定性。(本文来源于《电子科技大学学报》期刊2006年06期)
分布式并行数据库论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
在信息化时代,随着数据规模和用户规模的不断扩大,传统的集中式数据库已经难以满足互联网应用的需求。基于水平扩展的分布式数据库系统能够突破集中式数据库单节点的性能瓶颈问题,以其良好的存储能力和计算能力受到了学术界和工业界的关注。但是与此同时,分布式架构的特点使得分布式数据库中的连接查询操作更为复杂和具有挑战性。本文利用并行查询处理技术,实现并优化了分布式数据库中的并行连接查询,主要贡献包括以下叁点:1.本文详细分析了传统将数据集中在一个节点进行连接查询处理的执行流程,从集中式处理节点的性能瓶颈问题、内存资源消耗、阻塞算子特点和网络传输代价等方面总结了影响连接查询响应时间的因素,并在此基础上归纳并明确了分布式数据库中提高连接查询效率的思路。2.对于大规模数据的连接查询,本文基于Ocean Base设计并实现了一套并行连接查询执行框架。该框架通过同时由多个计算节点并行执行连接查询任务和基于流水线式数据传输的并行哈希连接算法,将独立并行、水平并行与流水线并行结合,减少了连接查询的响应时间,并采用可靠的容错与重试策略提高了并行连接查询执行流程的可用性。在此基础上,本文提出了数据预读取、数据预探测和设计高效缓冲区等多项优化技术进一步加快了连接操作的并行执行效率,减弱了并发场景下的短板效应,提高了系统整体的资源利用率。3.在并行连接查询执行过程中,本文提出并设计了基于布隆过滤器的数据传输优化策略。在哈希连接中引入了布隆过滤器选择算子及动态数据传输算子,通过构造布隆过滤器过滤掉右表中无需参与连接的数据,以少量的计算代价节省了大量的跨节点网络传输开销,降低了连接操作的查询时延。综上所述,本文基于分布式数据库提出了一个高效的并行连接查询解决方案,并进一步给出了若干优化策略,提升了分布式环境下的连接查询执行效率,最后通过一系列实验证明了该方案的可行性与高效性。同时,本文提出的并行连接查询执行框架也为其他分布式数据库中的连接查询优化提供了思路和参考,具有一定的借鉴意义。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
分布式并行数据库论文参考文献
[1].徐石磊,魏星,江红,钱卫宁,周傲英.分布式数据库系统中的并行分组聚合实现[J].华东师范大学学报(自然科学版).2018
[2].茅潇潇.分布式数据库并行连接查询的实现及优化[D].华东师范大学.2018
[3].高锦涛,李战怀,杜洪涛,刘文洁.分布式数据库下基于剪枝的并行合并连接策略[J].软件学报.2019
[4].王阳,钟勇,周渭博,杨观赐.云数据库中等宽直方图的分布式并行构造方法[J].工程科学与技术.2018
[5].张静波.以并行遗传与蚁群算法为核心的分布式数据库优化[J].通讯世界.2018
[6].柳陆.分布式内存数据库数据并行快速加载与索引技术[D].电子科技大学.2016
[7].张小龙.分布式并行空间数据库研究[J].信息通信.2016
[8].林基明,班文娇,王俊义,童记超.基于并行遗传-最大最小蚁群算法的分布式数据库查询优化[J].计算机应用.2016
[9].范娟娟,海洋,高明星,王丰.基于分布式存储与并行计算架构的历史数据库分析解决方案[J].中国铁路.2014
[10].顾攀,刘心松,陈小辉,邱元杰,左朝树.分布式并行数据库系统中任务分配算法的设计[J].电子科技大学学报.2006