数据划分策略论文-陈诗雅,刘梦赤

数据划分策略论文-陈诗雅,刘梦赤

导读:本文包含了数据划分策略论文开题报告文献综述及选题提纲参考文献,主要关键词:信息网模型,数据划分,大对象分割,负载阈值

数据划分策略论文文献综述

陈诗雅,刘梦赤[1](2018)在《基于信息网模型的动态数据划分策略》一文中研究指出为了满足大规模数据管理与查询的需要,设计并开发了基于信息网模型INM(Information Networking Model)的分布式并行数据库管理系统。分布式环境下数据的划分方式将影响系统的可扩展性和查询分析效率。根据信息网模型的数据结构和查询特性,设计一种轻量级的数据动态划分方法。该方法结合数据的水平分割和垂直分割,以INM对象为单位,未存储过的数据对象直接划分到当前操作节点,并记录数据对象的存储位置,否则根据数据对象的历史位置信息将其划分到不同的存储节点。同时,单个INM对象可能由于其包含的关联对象增多到一定程度成为大对象,而对系统的性能造成影响,因此将此类大对象分割成多个小对象,并按照一定的策略划分到不同节点进行存储。集群中的每个处理节点被赋予一个负载阈值。随着数据量的增加,如果超过负载阈值则增加新的机器,保证系统的可扩展性和各个处理节点数据量的均衡。实验结果证明,该方法能够保障系统良好的可扩展性,同时提高数据的查询分析效率。(本文来源于《计算机应用与软件》期刊2018年11期)

陈欢欢[2](2018)在《异构多核架构下基于负载感知的数据划分策略的研究》一文中研究指出数据划分是异构多核处理器中CPU-GPU异构计算的主要协同并行计算模式,不同的处理器对不同的数据进行相同的操作。程序把将要处理的数据读入内存后,CPU和GPU都能获取数据并计算,计算完成后,CPU直接取得内存中的结果并呈现给用户,该过程中计算环节存在影响完成任务时间的可变因素,CPU与GPU之间的数据分配策略直接影响任务完成的时间,最佳的策略必须保证负载不均最小,使得CPU、GPU尽可能同时完成任务,避免一个处理器等待另一个处理器完成计算的情况。异构系统的负载均衡问题由来已久,提出的策略大都针对任务间或数据间没有依赖关系的研究,采用的实验平台基本都是配有独立GPU的系统或者多个计算节点的系统,使用新编程模型编写的CPU-GPU协同并行计算的程序在具有新异构架构特性的异构多核处理器上的性能研究尚未深入。处理器的负载与程序在处理器上的性能成正比是任务调度策略或负载均衡策略遵循的基本原则,最新异构架构中各处理器间存在激烈的资源竞争,程序在处理器上的运行速度不断变化,且处理器的性能随着负载的变化也不是恒定的,编程模型与异构的新特性所带来的CPU-GPU多种粒度的协作使得在二者之间的数据划分有了新的特点。针对以上问题,本文针对程序处理小数据量或多次运行的情况提出了静态数据划分策略(Naive Static Data Partitioning,NSDP),针对大数据量提出了基于负载感知的动态数据划分策略(Workload-Aware Data Partitioning,WADP)。NSDP是一种线下训练策略,通过一次或者多次的运行程序获取应用程序在不同处理器上的执行速度,然后根据执行速度对数据在处理器间划分。WADP是一种线上运行时分配策略,无需完整地运行一次程序,在运行过程中测定不同处理器的速度,决定后续数据的划分,该策略修正了基于前期采样策略与数据共享策略的缺点,避免前期采样带来的开销及处理器速度随负载变化造成的预测失误,避免数据共享策略分配未考虑处理器速度的问题。本文使用精确到周期的gem5-gpu异构多核模拟器的全系统模式作为实验环境,运行了支持最新CPU-GPU异构架构特性的基准测试程序Chai,验证本文所提出的两种数据划分策略。7个支持数据划分的程序中,NSDP策略能全部预测出4个协同并行计算友好的程序的接近最佳的划分比例。与GPU处理全部数据相比,WADP策略比前期采样策略、数据共享策略获得更高的加速比。(本文来源于《北京工业大学》期刊2018-05-01)

陈诚[3](2017)在《Spark Streaming平台数据划分与放置策略研究》一文中研究指出Spark Streaming是大数据流式计算的最新进展,是建立在Spark引擎上的批量流式数据计算平台。它将流式计算看作一连串短小的Map/Reduce型的批处理作业,以获得较高的数据吞吐量和近实时的数据处理效率。数据划分和数据放置是Spark Streaming的两个核心工作阶段。数据划分将流式数据按照时间序列划分为数据块;数据放置则选择计算节点将划分的数据块放置于计算节点,为最终的数据处理做好准备。现有的Spark Streaming中数据划分与数据放置分别采用的是静态数据划分策略和随机数据放置策略。静态数据划分无法适应流式数据负载动态波动的特征,导致系统计算能力无法合理充分利用;随机数据放置策略则无法适应批次数据处理作业在节点间获得的计算能力非对称的场景,降低了流式数据在各计算节点间并行处理的效率。针对上述问题,本文提了面向Spark Streaming平台的动态数据划分策略与动态加权数据放置策略。其中,数据划分策略采用近似一维搜索法动态寻求流式数据负载波动情况下的最优数据划分间隔,以确保得到较好的数据批量处理性能;动态加权数据放置策略则依据节点的实际计算能力,为节点动态分配数据放置权重,使数据分布与作业在节点间所获得计算能力匹配。本文的主要贡献包括:1)面向Spark Streaming平台的动态数据划分策略DDPS。提出以近似一维搜索法构建动态数据划分模型,通过该模型分析数据划分间隔改变前后批次数据的处理情况,以反馈调节方式不断修正数据划分间隔,直至收敛于优化的数据划分间隔,使流式数据批量处理获得相对较好的运行性能。2)面向Spark Streaming平台的动态加权数据放置策略DWDPS。依据历史任务执行信息,以节点为粒度,构建了节点计算能力的评估模型;并依据节点的相对计算能力设置节点数据放置权重;最终依据数据放置权重和节点的数据块保有量选择数据放置的目标节点,从而保障节点的计算能力与数据规模相匹配,提升流式数据的处理效率。3)原型系统实现及性能评测与分析。基于开源的Spark Streaming平台对动态数据划分策略与加权数据放置策略进行实现,并使用流式负载进行性能评测。测试结果表明,动态数据划分策略与静态数据划分等策略相比,批次数据的平均响应时间最大减少27.73%;动态加权数据放置策略与随机数据放置等策略相比,在存在资源竞争条件下批次数据平均处理时间最大减少23.5%。(本文来源于《北京工业大学》期刊2017-05-01)

张炫[4](2017)在《基于混合内存的系统级数据划分策略研究》一文中研究指出为了解决日益增长的主存能耗问题,以及满足越来越高的主存容量需求,一种新型存储技术相变存储器(PCM,Phase Phase-Chage Memory)应运而生。PCM具有字节可寻址,高存储密度和低能耗的诸多优势,成为了动态随机存取存储器(DRAM,Dynamic Random Access Memory)的有力的替代技术。但是由于PCM的读写不对称性以及有限的写入寿命,PCM目前尚无法完全取代DRAM主存的位置。于是,同时使用两种存储技术的混合内存架构,是当前主要的研究方向。对于将DRAM和PCM作为同级主存的混合内存架构来说,面临的最大挑战就是如何划分数据。页面划分策略会直接影响到系统的平均访存时间和PCM材料的寿命。目前,对于这种混合内存架构页面划分策略的研究,普遍采用先对页面进行简单划分,当页面表现出不符合预期的读写时,再将页面通过迁移的方式迁至不同的存储器中,来实现对读写操作分布的控制。基于迁移的划分策略没有考虑迁移操作本身的高成本以及迁移操作带来的额外写操作,这些迁移操作在很大程度上延长到了系统的平均访存时间并带来了额外的能量开销。首先,本文介绍了混合内存页面划分策略的研究背景、研究意义以及国内外研究现状,并介绍了所涉及的混合架构及仿真器的相关技术。其次,本文详细分析了现有混合内存划分策略的优点和缺点,并根据现有划分策略具有问题,提出了基于虚拟页访存行为的混合内存页面划分策略(Virtual Page Behavior based Page Management Policy for Hybrid Main Memory,VPBM)。通过模拟器在云端获取页面的访存行为数据,根据页面的访存行为数据来预测虚拟页的访存行为,对页面直接进行划分。因为相同进程虚拟页访存行为在多次运行中是相似的,通过历史的访存行为数据来分配页面,可以避免程序运行过程中进行页面迁移,提升系统效率和降低访存能耗,延长PCM寿命。然后,本文针对多核多进程并发的环境下VBPM获取访存行为难度几何倍数升高的问题,提出了一种通过单进程访存行为预测多进程环境下访存行为自适应划分策略。通过对页面访问频率的预测,来决定多进程环境下页面划分与抢占的策略。在仿真器获取的访存行为数据足够多的前提下,根据页面已访问次数和预期访问次数的差值,可以计算出访问的偏差情况,根据预期访问频率计算后的结果与竞争页面预期频率的比较结果,来决定页面的最终位置。这种自适应划分策略有效降低了多任务并发时模拟器仿真成本,提高了系统的整体效率。最后,本文对所做工作与重要贡献做出了总结,并对未来的工作方向做出了展望和规划。(本文来源于《杭州电子科技大学》期刊2017-03-01)

杜国杰,牛玉刚[5](2016)在《基于区域划分的可移动中继节点数据收集策略》一文中研究指出针对WSN中利用可移动中继节点进行数据收集的问题,提出了一种基于区域划分的数据收集策略。该策略首先利用CPSA算法选择网络中的中心节点,以减少可移动中继节点经过的止点数。然后利用CPPA分区算法对监测区域进行分区,引入代价函数,通过迭代计算得到最优分区结果,使网络在满足时延要求的前提下,最小化可移动中继节点移动距离,并使各分区内可移动中继节点负载均衡。实验结果表明,该策略可最小化可移动中继节点移动距离,且可保证可移动中继节点负载均衡。(本文来源于《计算机科学》期刊2016年10期)

陈磊[6](2016)在《Weka期货数据挖掘中连续属性划分策略研究》一文中研究指出数据挖掘过程中的数据预处理是一项很重要的工作。分析了现有分类算法J48直接处理原始期货数据时出现的分类准确率和预测准确率低等弊端。针对期货数据的连续性和时序性特征,在Weka数据挖掘平台下,提出一种面向期货数据的连续属性划分策略,其主要思想是对连续属性采用不同的分段标识方法,从中找出一种最适合期货数据特征的划分机制,进而在有效降低数据过度拟合的前提下,较大提高J48算法的分类准确率和预测准确率。(本文来源于《软件导刊》期刊2016年06期)

卜祥亮[7](2015)在《基于并行计算的林地落界数据划分策略研究》一文中研究指出林地是我国重要的自然资源,是森林生态系统保持稳定的重要基础。林地落界数据是林地分布现状的体现,记录着林地的时空变化,其可为林地资源的保护与规划提供重要的数据依据。为了充分掌握林地分布情况,国家开展了全国林地“一张图”的建设,使得每块林地都有了标记,其是林业有史以来数据最全面的一张图,可广泛应用于森林防火、病虫害防治、林地规划等方面,推进林地管理走向精准化。全国林地“一张图”总揽全国林地资源格局,共有林地落界小班6800多万条。面对如此大规模的林地落界数据,传统的管理手段已经不能满足需求,而并行计算是解决这种计算密集型与数据密集型问题有效手段。并行计算的前提是对林地落界数据进行数据划分,但对空间数据划分策略的研究却比较少,现有的空间数据划分方法存在各种各样的问题,不能满足海量林地落界数据的划分要求。数据划分粒度缺少定量化的研究,而数据划分粒度过粗或过细都会影响查询效率。本文针对这些这些问题,提出了基于并行计算的林地落界数据划分策略研究,对林地落界数据的划分方法与划分粒度进行研究。最后构建林地落界数据并行查询系统,使用辽宁省林地落界数据进行并行查询实验,验证了数据划分粒度模型的正确性并得出以查询效率最优为前提的最佳划分粒度。本文的研究内容主要如下所示:(1)林地落界数据并行查询分析。通过分析林地落界数据特点及查询应用特点,并行计算的特点以及并行计算的适用场景,构建林地落界数据并行查询模型。(2)林地落界数据划分粒度模型。通过分析并行计算时间的构成及执行过程中的各部分的时间消耗,构建数据划分粒度与并行执行时间的关系模型,模型描述了数据划分粒度与并行执行时间的相互关系。(3)数据划分方法研究。通过分析已有的数据划分方法的不足,提出适用于海量林地落界数据划分的基于动态网格与Hilbert空间填充曲线的数据划分方法,该方法能够按照需求对空间数据进行快速划分,满足数据划分的静态负载均衡原则。(4)实验与性能分析。为了进行并行查询实验,本文构建了林地落界数据的并行查询系统,分析并行查询测试流程,确定测试记录的时间。实验分为属性查询与空间查询实验,根据实验结果分析表明,数据划分与查询时间的关系满足本文提出的数据划分粒度模型,通过多次实验得出了林地落界数据的最佳划分粒度。本文的创新点如下:(1)提出适用于海量空间数据划分的划分方法,数据划分方法结合动态网格与Hilbert空间填充曲线,划分方法既兼顾划分数据的空间聚集性又兼顾算法执行效率,并能使得划分数据块数据量保持一致。(2)对数据划分粒度进行定量化研究。对数据划分原理、数据划分粒度与并行计算执行时间进行分析,通过并行查询实验,定量化得出林地落界数据的最佳划分粒度。(本文来源于《北京林业大学》期刊2015-04-01)

陈凤娇,符海东,吴刚,顾进广[8](2014)在《基于启发式策略的海量语义数据流划分算法研究》一文中研究指出海量语义数据的剧烈增长对大数据分布式存储带来了巨大的挑战.分布式存储的核心技术是图划分,论文介绍了基于图数据流划分的模型和分区启发函数策略,给出了针对RDF文件的图数据流划分算法和实现过程.实验对几个真实RDF数据集进行划分,并与METIS(一种多层次的图划分算法)方法和哈希分区方法做了实验数据对比,验证了图数据流划分算法的有效性.(本文来源于《系统工程理论与实践》期刊2014年S1期)

彭延超[9](2012)在《分布式并行计算环境下GML空间数据的划分策略及算法研究》一文中研究指出GML具有简单性、半结构化、互操作性、开放性、通用性、灵活性等特点,因而在诸多领域得到了广泛应用。随着地理信息领域求解问题的不断拓展,所遇到的问题也越来越复杂,规模越来越大,传统GIS的空间数据存储与空间分析算法的效率优化和性能提升无法满足海量数据的存储与空间运算需求。利用分布式并行计算平台可以很好地解决这一问题。分布式并行系统的优劣很大程度取决于数据划分策略的好坏,而目前空间数据的划分方法没有考虑空间关联关系。因此针对一种适合GML空间数据的综合考虑负载平衡、邻近程度、面积平衡及空间关联关系的空间数据划分方法,本文取得了以下研究成果:第一,研究分析了基于Hilbert空间排列码的空间数据划分和基于K-平均聚类算法的空间数据划分两种算法的缺点。前者在保持各结点的空间数据所占范围平衡性上表现不佳,而后者则由于初始质心的不确定性导致划分结果不稳定。第二,结合Hilbert空间排列码和K-平均聚类算法,并综合考虑对象的空间关联关系提出一种新的GML数据划分算法。该算法考虑了各结点负载平衡、对象的邻近程度、面积平衡及对象间的空间关联关系。最后,根据提出的GML空间数据划分算法,分析设计了GML分布式存储系统,完成了基于Hadoop平台的分布式并行GML存储系统的数据划分模块。通过系统验证了数据划分算法的负载平衡性,并与Oracle Spatial和基于K-平均聚类的空间数据划分算法的并行加速比做了比较分析,与Hilbert码划分算法做了等分区域查询效率对比。结果表明,本划分算法拥有良好的负载平衡性和优秀的并行查询效率。(本文来源于《江西理工大学》期刊2012-06-01)

胡悦,童维勤,龚治勋[10](2012)在《多层快速多极子算法并行实现的数据划分策略》一文中研究指出虽然多层快速多极子算法在解决大尺度电磁散射问题中表现出了很好的效率,但是,当未知量达到千万时,由于复杂的结构和计算该算法很难再保持高效的计算能力。为了解决负载均衡引起的性能瓶颈问题,提出多层快速多极子算法基于八叉树的多层结构并行数据划分策略。该方法包括根据树结构中分布层和共享层不同特征的单独处理,也包括解决数据冲突的转移层的处理方法和为了减少分布存储系统中的通信时间而在分布层引入的冗余技术。实验结果表明多层快速多极子算法并行计算的开销明显减少,并且能够获得比较高的并行效率。(本文来源于《计算机应用与软件》期刊2012年02期)

数据划分策略论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

数据划分是异构多核处理器中CPU-GPU异构计算的主要协同并行计算模式,不同的处理器对不同的数据进行相同的操作。程序把将要处理的数据读入内存后,CPU和GPU都能获取数据并计算,计算完成后,CPU直接取得内存中的结果并呈现给用户,该过程中计算环节存在影响完成任务时间的可变因素,CPU与GPU之间的数据分配策略直接影响任务完成的时间,最佳的策略必须保证负载不均最小,使得CPU、GPU尽可能同时完成任务,避免一个处理器等待另一个处理器完成计算的情况。异构系统的负载均衡问题由来已久,提出的策略大都针对任务间或数据间没有依赖关系的研究,采用的实验平台基本都是配有独立GPU的系统或者多个计算节点的系统,使用新编程模型编写的CPU-GPU协同并行计算的程序在具有新异构架构特性的异构多核处理器上的性能研究尚未深入。处理器的负载与程序在处理器上的性能成正比是任务调度策略或负载均衡策略遵循的基本原则,最新异构架构中各处理器间存在激烈的资源竞争,程序在处理器上的运行速度不断变化,且处理器的性能随着负载的变化也不是恒定的,编程模型与异构的新特性所带来的CPU-GPU多种粒度的协作使得在二者之间的数据划分有了新的特点。针对以上问题,本文针对程序处理小数据量或多次运行的情况提出了静态数据划分策略(Naive Static Data Partitioning,NSDP),针对大数据量提出了基于负载感知的动态数据划分策略(Workload-Aware Data Partitioning,WADP)。NSDP是一种线下训练策略,通过一次或者多次的运行程序获取应用程序在不同处理器上的执行速度,然后根据执行速度对数据在处理器间划分。WADP是一种线上运行时分配策略,无需完整地运行一次程序,在运行过程中测定不同处理器的速度,决定后续数据的划分,该策略修正了基于前期采样策略与数据共享策略的缺点,避免前期采样带来的开销及处理器速度随负载变化造成的预测失误,避免数据共享策略分配未考虑处理器速度的问题。本文使用精确到周期的gem5-gpu异构多核模拟器的全系统模式作为实验环境,运行了支持最新CPU-GPU异构架构特性的基准测试程序Chai,验证本文所提出的两种数据划分策略。7个支持数据划分的程序中,NSDP策略能全部预测出4个协同并行计算友好的程序的接近最佳的划分比例。与GPU处理全部数据相比,WADP策略比前期采样策略、数据共享策略获得更高的加速比。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

数据划分策略论文参考文献

[1].陈诗雅,刘梦赤.基于信息网模型的动态数据划分策略[J].计算机应用与软件.2018

[2].陈欢欢.异构多核架构下基于负载感知的数据划分策略的研究[D].北京工业大学.2018

[3].陈诚.SparkStreaming平台数据划分与放置策略研究[D].北京工业大学.2017

[4].张炫.基于混合内存的系统级数据划分策略研究[D].杭州电子科技大学.2017

[5].杜国杰,牛玉刚.基于区域划分的可移动中继节点数据收集策略[J].计算机科学.2016

[6].陈磊.Weka期货数据挖掘中连续属性划分策略研究[J].软件导刊.2016

[7].卜祥亮.基于并行计算的林地落界数据划分策略研究[D].北京林业大学.2015

[8].陈凤娇,符海东,吴刚,顾进广.基于启发式策略的海量语义数据流划分算法研究[J].系统工程理论与实践.2014

[9].彭延超.分布式并行计算环境下GML空间数据的划分策略及算法研究[D].江西理工大学.2012

[10].胡悦,童维勤,龚治勋.多层快速多极子算法并行实现的数据划分策略[J].计算机应用与软件.2012

标签:;  ;  ;  ;  

数据划分策略论文-陈诗雅,刘梦赤
下载Doc文档

猜你喜欢