副本优化论文-杨莲,郭良君,马磊,王圣芳

副本优化论文-杨莲,郭良君,马磊,王圣芳

导读:本文包含了副本优化论文开题报告文献综述及选题提纲参考文献,主要关键词:hadoop分布式文件系统,云存储,动态副本,策略

副本优化论文文献综述

杨莲,郭良君,马磊,王圣芳[1](2019)在《大数据环境下hadoop分布式文件系统分散式动态副本存储优化策略研究》一文中研究指出在不影响hadoop分布式文件系统分散式存储结构的前提下,结合动态副本存储和伽罗华有限域理论对范德蒙码的计算方法和计算模式进行整体优化,降低了编译码的时间代价和计算的内存压力,节约了hadoop分布式文件系统约35%的存储开销,提高了hadoop分布式文件系统节点负载均衡能力和译码恢复效率。这种算法更适合于医疗专业文书的处理,解决临床科研需求和数据供给2个方面的问题。既能节省了存储容量,可以容纳与日俱增且越发复杂化的医疗数据,又能降低硬件服务器成本,为医院节省资金开销,更能快速查询获取数据池中的有效数据,让这些躺着的数据变成活的,充分发挥他们的临床使用价值和科研价值。这一套完整的、系统的优化方案,为未来hadoop分布式文件系统的发展提供了一条有效途径。(本文来源于《中国医院统计》期刊2019年01期)

周飞菲[2](2019)在《树形数据网格中实现副本放置的一种优化算法》一文中研究指出针对树形数据网格这种分布式分层数据网格模型,提出了一种最佳副本放置算法,其中的副本数量k可以由用户指定。算法实现由2个阶段构成.在阶段1,对二叉树的全部节点以反向广度优先顺序被访问,且基于对象i的一个副本是否被放置在一个节点上,以自底向上的方式计算出包含读取成本和存储成本的总复制成本;在阶段2,基于一个递归过程,把由在阶段1计算得到的读取成本和存储成本作为输入,采取自上而下的过程放置副本,以使总复制成本最小化。理论分析和仿真实验结果表明,最佳副本放置算法不仅有较低的时间复杂度,而且在归一化放置成本、有效网络利用和本地访问百分比性能指标方面都优于目前几种典型的副本放置算法。(本文来源于《电子测量与仪器学报》期刊2019年02期)

梁胜昔[3](2018)在《云环境下大数据存储副本策略的优化研究》一文中研究指出大数据时代的到来给人类带来机遇,也带来挑战。云存储为大数据提供了理想的存储解决方案。可用性和性能是用户使用云存储的重要考量。云存储中的副本技术不仅能维持系统较高的可用性,同时还能整体提升系统的性能。动态副本技术相比较于静态副本技术更能满足云存储复杂环境下的数据访问需求。副本因子动态调整策略以及副本放置问题是副本技术的研究重点,也是本文的主要研究内容。本文针对副本因子动态调整问题,在分析现有Hadoop分布式文件系统静态副本机制不足的基础上,结合时间局部性原理对文件的访问热度进行预测,对不同热度的文件动态地采取不同的调整策略,具体通过筛选和调整两个阶段来完成,在提升访问性能的同时避免存储资源的浪费。实验结果表明改进的副本因子调整策略可以降低系统作业平均响应时间,能够有效地提升数据访问的性能。本文针对副本放置问题,分析了已有副本放置策略在异构环境下所存在的局限性,结合统计学知识对集群中节点的异构特性进行定量评价,在遵循给定副本放置基本原则的前提下,根据节点综合性能评价值的不同来进行合理的副本放置。实验结果表明改进的副本放置策略在确保系统整体可用性的前提之下能使副本分布更加趋于合理和均衡,同时有利于提高Map任务本地化比例,进而提升MapReduce的执行效率。(本文来源于《南京邮电大学》期刊2018-11-14)

王鑫,王人福,覃琴,蒋华[4](2018)在《云存储副本优化选择策略》一文中研究指出为了提高云计算环境中系统的整体数据调度效率,对云存储系统中的副本选择问题进行研究,提出一种基于蚁群觅食原理的云存储副本优化选择策略。该策略利用蚁群算法在解决优化问题上的优势,将自然环境中蚁群的觅食过程与云存储中的副本选择过程相结合;再充分应用信息素的动态变化规律以及高斯概率分布特性优化副本的选择方式,得出一组副本资源的最优解,从而为数据请求响应合适的副本。在OptorSim仿真平台上对该算法进行实现,实验结果表明该算法具有不错的表现,如在平均作业用时这一性能指标上相比原始蚁群算法提升了18.7%,从而在一定程度上减少了副本选择过程的时间消耗,降低了网络负载。(本文来源于《计算机科学》期刊2018年10期)

黄冬梅,杜艳玲,贺琪,随宏运,李瑶[5](2018)在《基于多属性最优化的海洋监测数据副本布局策略》一文中研究指出数据的完整性和可靠性是保证其能被高效访问的关键,尤其是在云存储环境中,数据副本策略是影响系统性能和保障数据可用性的核心。从数据副本布局的角度,提出了基于多属性最优化的数据副本布局策略(Data Replica Layout Strategy based on Multiple Attribute Optimization,MAO-DRLS)。该策略根据数据的访问热度和存储节点的关键属性特点,为每个数据设置动态的副本数,并选择合适的节点对副本进行布局。实验表明,MAO-DRLS策略能够有效地提升数据副本的利用率,缩短系统的响应时间。(本文来源于《计算机科学》期刊2018年06期)

宗平,梁胜昔[6](2018)在《HDFS动态副本因子的优化研究》一文中研究指出针对云环境中分布式文件系统(HDFS)静态副本机制存在的不足,提出一种改进的动态副本因子调整策略。该策略包含待调整副本因子文件筛选和文件副本因子动态调整两个部分,首先结合数据访问的时间局部性原理,根据文件访问热度定量描述获得待调整副本因子文件集合,通过设定两个不同长度的决策时间区间,针对不同访问热度以及不同决策时间区间内的文件分别采取不同的副本因子调整措施,做到性能和存储代价的有效折中。通过搭建分布式的实验环境验证动态副本因子调整策略的有效性,实验结果表明,随着文件访问热度的增加,改进策略可以有效降低系统作业平均响应时间,提升云环境下数据服务的性能。(本文来源于《计算机技术与发展》期刊2018年07期)

陈功[7](2018)在《HDFS的副本放置与缓存优化研究》一文中研究指出随着互联网技术的高速发展及互联网应用的快速增加,使得网络上数据量呈爆炸式增长,大规模数据存储、访问随之成为大数据领域的研究热点。当前,Hadoop分布式文件系统HDFS因高效、稳定的存储能力在大数据领域中被广泛应用。然而,HDFS仍有很多不足之处,需要不断进行改进和完善。首先,HDFS设计时并没有考虑数据节点上磁盘存储异构性,其底层存储只支持单一存储介质,导致HDFS集群不能很好的利用RAM盘(Random-Access Memory Disk)、固态硬盘(Solid State Drives,SSD)等高效存储设备来提高系统的I/O性能和吞吐量。其次,HDFS不能区分热数据,导致存放热数据的节点成为集群性能的一个瓶颈。最后,当HDFS集群存在海量小文件,并且这些小文件中存在大量热数据时,HDFS没有一个很好的缓存策略解决小文件缓存问题,这导致访问小文件时需不断的与硬盘交互,大大降低了客户端频繁访问小文件的效率。为了缓解上述问题,本文研究了HDFS文件副本放置和缓存机制,并进行了针对性的改进。本文主要工作如下:(1)针对HDFS不能高效利用RAM盘和SSD的问题,本文根据数据节点存储异构性,提出了基于热度感知的混合HDFS副本自适应移动策略(HPAMP)。HPAMP在文件副本初始放置时,基于文件大小将副本放置在高效的存储设备(RAM盘、SSD)中;在集群闲暇时,HPAMP采用灰度预测算法预测文件热度,将机械硬盘(Hard Disk Drive,HDD)中热的文件副本移动到RAM盘或SSD中,将RAM盘或SSD中冷的文件副本移动到HDD中。此外,HPAMP中文件副本的移动数量能够根据RAM盘或SSD空间利用率自适应进行调整。实验结果显示,在TeraGen基准测试,HDFS默认策略(DP)、轮询选择策略(RRP)、Tier意识策略(TAP)的运行时间分别是HPAMP的3.4倍,1.89倍和1.68倍;在Sort基准测试中,HPAMP相对DP、RRP和TAP在运行时间上分别能减少46.2%、29.2%和21.3%。(2)针对HDFS海量小文件中存在着大量的热数据,且频繁访问这些热数据效率低下的问题,本文提出了基于ARC替换算法的HDFS小文件缓存管理方法。该方法考虑将这类热文件进行缓存处理,对于缓存替换算法,本文实现了基于Java语言的ARC(Adjustable Replacement Cache)缓存替换算法。ARC算法能准确预测出将会被频繁访问的小文件并将其加入到缓存中,并且通过ARC算法可以动态置换缓存中的数据。缓存管理的实现极大降低了HDFS中热点小文件频繁访问磁盘的次数,提高了集群的访问效率。实验结果显示,与先进先出(FIFO)、最近最少使用(LRU)和最近最不经常使用(LFU)算法相比:在缓存命中率方面,ARC算法最高;在数据访问效率方面,ARC在访问时间上分别降低14.2%、6.1%和3.0%。(本文来源于《杭州电子科技大学》期刊2018-03-01)

李君,侯孟书[8](2019)在《基于萤火虫优化的副本放置方法》一文中研究指出针对现有副本放置策略中存在的副本访问开销大的问题,提出一种基于离散型萤火虫优化的副本放置算法。考虑副本放置对用户访问性能的影响,对其建立数学模型,计算萤火虫位置的适应度函数,并朝着荧光素值最大即最优值移动,进而得到合适的副本放置节点。通过仿真实验评估提出的方法,并与基于蚁群算法的副本放置策略进行比较。实验结果证明该算法能够选择合适的副本放置节点,具有较好的收敛性,并有效降低了存储系统的副本访问开销。(本文来源于《计算机应用研究》期刊2019年02期)

罗四维,侯孟书,牛新征,吕孟婕[9](2017)在《基于免疫优化策略的副本放置算法》一文中研究指出副本放置问题在云计算环境分布式存储系统中是一个关键问题。针对现有副本放置算法存在的数据副本访问开销较大,节点负载不均衡的问题,提出了一种基于免疫优化策略的副本放置算法。通过计算节点的亲和度,并借助免疫优化系统特有的克隆选择和免疫记忆机制,对副本节点的评价和选择更加合理。基于Matlab的仿真实验证实该算法能够降低分布式存储系统的副本访问开销,均衡节点负载。(本文来源于《电子科技大学学报》期刊2017年05期)

黄向东[10](2017)在《分布式存储系统数据分区与副本一致性形式化建模与优化》一文中研究指出随着大数据应用的普及,分布式存储系统在工业界被广泛开发和使用。这些分布式系统往往采用较复杂的数据分区、多副本等机制,并在系统性能等方面进行了权衡设计,用于保证集群的可用性和数据可靠性。因此在实际应用中,这些系统往往需要用户根据业务需求进行大量的性能优化工作。在不了解系统原理的前提下,用户往往难以解释系统的运转情况、分析问题原因、进而优化系统配置。而分布式存储系统复杂的系统实现则加大了用户对系统理解的难度。本文从分布式存储系统的运行日志入手,提出分布式存储系统的着色Petri网建模框架以及基于着色Petri网模型的系统优化方法。论文主要内容及贡献如下:·针对分布式系统日志事件关系复杂、现有日志挖掘算法得到模型可读性差、规模大、弹性差等问题,提出了基于系统运行日志的“日志挖掘-模型转换”两阶段建模框架。第一阶段提出了“本地-全局”日志挖掘方法,通过对系统日志按照节点进行逐个挖掘,简化了事件关系,并使得模型清晰可读;通过分析模型之间的关系,将多节点间的模型进行了组合,最终自动生成正确描述分布式存储系统的基本网模型,解决了模型从无到有的问题。第二阶段提出了通过折迭、对称化的操作将基本网模型转换为着色Petri网模型的方法,并在此过程中提出了模型与真实系统的适配问题,解决了模型从有到优的问题。·针对采用一致性哈希的分布式存储系统中数据分区不均衡的问题,提出了采用着色Petri网可达状态概率描述数据分区的方法,在此基础上提出用于评估数据分区优劣的不平衡系数,并通过最优化模型和动态规划算法分别解决了集群初始化时和集群扩展节点时的数据分区优化问题。·针对分布式存储系统中副本一致性优化问题,采用着色Petri网的轨迹分析和排队理论对副本一致性的产生原因进行分析、度量,并提出通过调整排队顺序、改变队列并行度、改变法团参数设置等改进数据为中心和用户为中心的副本一致性的方法。(本文来源于《清华大学》期刊2017-06-01)

副本优化论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

针对树形数据网格这种分布式分层数据网格模型,提出了一种最佳副本放置算法,其中的副本数量k可以由用户指定。算法实现由2个阶段构成.在阶段1,对二叉树的全部节点以反向广度优先顺序被访问,且基于对象i的一个副本是否被放置在一个节点上,以自底向上的方式计算出包含读取成本和存储成本的总复制成本;在阶段2,基于一个递归过程,把由在阶段1计算得到的读取成本和存储成本作为输入,采取自上而下的过程放置副本,以使总复制成本最小化。理论分析和仿真实验结果表明,最佳副本放置算法不仅有较低的时间复杂度,而且在归一化放置成本、有效网络利用和本地访问百分比性能指标方面都优于目前几种典型的副本放置算法。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

副本优化论文参考文献

[1].杨莲,郭良君,马磊,王圣芳.大数据环境下hadoop分布式文件系统分散式动态副本存储优化策略研究[J].中国医院统计.2019

[2].周飞菲.树形数据网格中实现副本放置的一种优化算法[J].电子测量与仪器学报.2019

[3].梁胜昔.云环境下大数据存储副本策略的优化研究[D].南京邮电大学.2018

[4].王鑫,王人福,覃琴,蒋华.云存储副本优化选择策略[J].计算机科学.2018

[5].黄冬梅,杜艳玲,贺琪,随宏运,李瑶.基于多属性最优化的海洋监测数据副本布局策略[J].计算机科学.2018

[6].宗平,梁胜昔.HDFS动态副本因子的优化研究[J].计算机技术与发展.2018

[7].陈功.HDFS的副本放置与缓存优化研究[D].杭州电子科技大学.2018

[8].李君,侯孟书.基于萤火虫优化的副本放置方法[J].计算机应用研究.2019

[9].罗四维,侯孟书,牛新征,吕孟婕.基于免疫优化策略的副本放置算法[J].电子科技大学学报.2017

[10].黄向东.分布式存储系统数据分区与副本一致性形式化建模与优化[D].清华大学.2017

标签:;  ;  ;  ;  

副本优化论文-杨莲,郭良君,马磊,王圣芳
下载Doc文档

猜你喜欢