分布式文件系统论文开题报告文献综述

分布式文件系统论文开题报告文献综述

导读:本文包含了分布式文件系统论文开题报告文献综述、选题提纲参考文献,主要关键词:分布式,文件系统,缓存,数据,智能,关联性,数据管理。

分布式文件系统论文文献综述写法

李晓炀[1](2019)在《基于Alluxio+Docker的分布式文件系统设计及应用》一文中研究指出本文针对用户访问数据的管理及性能,提出了基于Alluxio+Docker的分布式文件系统。通过对Alluxio、Docker的整合应用,提供高效、灵活、可扩展的分布式文件系统,通过该系统改善气象生态系统的性能,提供更健壮和强大的基础架构。(本文来源于《电子技术与软件工程》期刊2019年21期)

陈友旭[2](2019)在《分布式文件系统中元数据管理优化》一文中研究指出随着信息时代互联网技术的快速发展和数据时代的到来,数据量呈指数型增长,数据存储技术对众多应用服务的影响日益加深。分布式文件系统因其具备高可靠性和高扩展性,并且支持文件共享存储和完善的并发访问控制功能,在存储系统中发挥着至关重要的作用。分布式文件系统通常包含元数据服务器、数据服务器和客户端叁个部分。元数据是用来描述文件系统和文件特征的系统数据,例如文件类型、文件大小、访问权限和数据索引信息等。用户在访问文件数据之前需要访问文件的元数据以获得文件的基本属性信息和数据的索引信息。在分布式文件系统中,超过50%的文件操作都是针对文件元数据的操作,因此分布式文件系统中元数据的存取性能至关重要。本文从分布式文件系统元数据预取机制、元数据服务器集群负载均衡策略和元数据管理方案叁个方面,对现有分布式文件系统元数据存取流程和管理方案进行分析并加以优化,以提升分布式文件系统中元数据的存取性能。本文的主要研究内容和贡献如下所述。(1)基于数据关联性的元数据预取机制在众多应用场景中,工作负载的局部性特征引起多个文件同时被一起访问,即文件间存在访问关联性。如果分布式文件系统事先感知文件间的关联关系,则可以通过预取技术提前将关联文件的元数据从元数据服务器端预取到客户端。因此通过引入元数据预取技术可以减少系统中元数据I/O的数目,同时减轻元数据服务器的负载压力和缩短元数据请求的处理流程。但是现有的元数据预取策略主要采用离线的方式从文件历史访问记录中探索一起被频繁访问的文件集合,具有很强的限制性并且难以根据系统负载特征动态调整关联关系。为了解决现有预取技术中存在的问题,本文从一个全新的角度考量文件间的关联关系,并提出了一种基于数据关联性的元数据预取机制SMeta。SMeta通过轻量级的模式匹配算法来探索文件数据中存在的关联关系,并复用元数据扩展属性空间存储关联关系,以避免引入额外的元数据同步操作和修改系统接口。此外SMeta还引入了高效的客户端动态反馈机制以提高预取的准确度。本章基于Ceph实现了一套原型系统,并利用元数据操作密集型的基准测试程序和真实的工作负载进行性能评估。实验结果表明,相比于Ceph,SMeta可将系统中元数据请求数目减少58.5-87.8%,并达到其10.5倍元数据存取吞吐量和2.75倍客户端线性扩展性能。相较于基于存取关联性的预取方案,SMeta可进一步提升元数据存取性能。(2)元数据服务器集群负载均衡策略在元数据服务器集群中需要引入负载均衡机制以保证集群负载分布的均衡性,同时提升集群整体资源利用率和元数据服务的并发性能。但是现有的元数据服务器集群负载均衡策略只考虑元数据服务进程逻辑层面的负载均衡,难以根据元数据服务器集群架构动态调整均衡方案。同时仅基于系统负载的时间局部性的均衡决策方案过于单一,难以根据系统负载特征动态调整决策方案。此外采用两阶段提交的阻塞式元数据迁移操作使得迁移消息过多,并且因锁竞争问题进一步阻塞客户端元数据请求,从而影响系统元数据存取性能。为了解决现有负载均衡策略中存在的问题,本文基于元数据服务器集群两层架构提出了一种新型负载均衡策略,并实现了一套原型系统Fim。Fim通过引入节点内IPC通信方案加速节点内消息传递,并结合节点内优先迁移的调度方案进一步缩短元数据迁移时长。并且Fim在进行均衡决策时充分考虑系统负载特征,从而进一步提升负载迁移的效率。Fim通过将元数据迁移消息与客户端元数据请求并发处理,并引入非阻塞式元数据迁移方案来进一步降低元数据迁移操作对客户端元数据请求的影响。实验结果表明,Fim可以有效缩短元数据迁移时长并且提升元数据迁移的准确性。相比于Ceph,Fim可以将ImageNet数据集的预处理时间缩短77%。(3)混合元数据管理方案元数据管理方案包括建立文件系统命名空间到元数据服务器集群间的映射关系,同时负责调控整个集群的负载均衡等问题。现有的元数据管理方案分为两类,分别是基于子树划分和基于哈希映射的元数据管理方案。基于子树划分的元数据管理方案将文件系统目录树拆分成多棵目录子树,分布到元数据服务器集群中。而基于哈希映射的方案则根据文件唯一标志符的哈希运算结果分布元数据。但是现有基于子树划分和哈希映射的元数据管理方案难以同时在目录局部性和负载均衡特征中进行有效地权衡。本文提出了一种混合元数据管理方案并实现了一套原型系统SmartM2。SmartM2通过在元数据服务器节点间采用子树划分的方式保留了文件系统良好的目录局部性,并且在节点内部多个元数据服务进程间采用哈希映射的方法均匀分布子树元数据,从而实现节点内多元数据服务进程间的负载均衡。同时SmartM2引入节点内IPC通信方案加速节点内多个元数据服务进程间通信速度,以进一步弥补因哈希映射引起的目录局部性的损失。此外当元数据服务器集群规模发生变化时,SmartM2将哈希映射的影响范围局限在单个元数据服务器节点中,减少了需要重新映射引起的元数据迁移总量,并且仅在节点内的元数据迁移操作进一步缩短了元数据迁移时长。实验结果表明SmartM2可以有效地权衡目录局部性和负载均衡特征。相比于Ceph,SmartM2可达到其3.9倍的元数据访问吞吐量。并且当元数据服务器集群扩容时,相比于基于哈希映射的管理方案,SmartM2可以将元数据迁移用时缩短74.7-92.6%。(本文来源于《中国科学技术大学》期刊2019-11-05)

李诗逸,古亮,喻之斌[3](2019)在《基于堆迭式分布式文件系统的端到端校验》一文中研究指出端到端校验是一种有效的数据完整性检测手段,可为分布式存储系统提供基本的可靠性保证。Glusterfs是一种常用的堆迭式分布式文件系统,但缺乏有效的数据完整性检测机制,存在用户数据遭受破坏而无法被发现的风险,即返回错误数据给用户。这种风险在某些情况还会扩散,造成多副本或灾备、双活情况下的数据丢失。针对这一问题,该文提出了一种高性价比的基于Glusterfs的端到端校验方案(命名为Glusterfs-E2E),可以有效解决Glusterfs文件系统中存在的数据完整性风险。该方案不但可以提供全路径的保护,具备2%~8%的高性能开销,而且还可以提供软件故障的定位功能。(本文来源于《集成技术》期刊2019年05期)

王大志[4](2019)在《基于HDFS的跨集群分布式文件系统研究》一文中研究指出本文尝试构建一种基于HDFS的跨集群分布式文件系统,分别在小文件存储和负载均衡两个方面进行改进,提升HDFS分布式集群存储小文件的效率,降低NameNode元数据存储压力。(本文来源于《信息技术与信息化》期刊2019年08期)

田英[5](2019)在《基于大数据分析的分布式文件系统关键技术》一文中研究指出我国在互联网应用方面具有很高的应用水平,这得益于我国互联网数据分析与处理技术的提升,该项技术也是各大互联网企业赖以生存的重要技术之一。随着当前互联网信息数据产生速度的不断加快,导致信息规模持续扩展,互联网为了维持正常的应用功能,对数据存储功能提出了更高的要求。但是,当前分布式文件系统已难以满足人们的使用需求。基于此,分析了当前大数据形势下的分布式文件系统的一些关键性技术。(本文来源于《信息与电脑(理论版)》期刊2019年15期)

[6](2019)在《使用分布式文件系统实现数据同步》一文中研究指出Windows Server集成的分布式文件系统可让局域网用户通过单一的访问点访问网络中多台文件服务器,重要的文件夹可通过DFS复制功能在不同物理服务器之间实现数据的同步,为数据提供冗余和访问的负载均衡。配置分布式文件系统实验拓扑介绍本章节通过图4所示结(本文来源于《网络安全和信息化》期刊2019年08期)

盛秀杰,金之钧,彭成,景妍[7](2019)在《PetroV分布式文件系统的设计与实现》一文中研究指出为了实现可存储ZB级文件数量、单一文件TB级大小的行业基础数据的需求,以及利于实践"端到端"的、驱动油气重大发现的"地质智能"深度学习解决方案,本文设计、开发并验证了一种充分考虑油气勘探行业基础数据特点的分布式文件系统(PetroV Distributed File System,PetroV DFS)。结合全球地理网格剖分编码和地质信息编码,PetroV DFS建立了基于空间位置索引的分布式文件命名、分配与管理机制,可高效管理ZB级数量的文件并快速定位;基于ST-Based KIDA元数据建模下的本地空间数据库集成机制和空间索引、八叉树切分、空间键值对等叁种分布式数据子块存储机制,可快速读写一个TB量级基础数据。PetroV DFS具有"地理位置相近、存储位置相近"的特点——同一地理区域的基础数据存储于同一数据中心的同一批机柜,在提升本地基础数据的访问和计算速度的基础上,能"就近"高效利用不同类型基础数据。以440GB迭前地震数据文件的分布式存储、全时窗频率振幅属性分布式计算为例,利用C++泛化编程技术实现的PetroV DFS可有效部署于当前普通计算机中,为后续深入实践不同类型深度学习解决方案提供新的、可行的大数据存储模式。(本文来源于《石油地球物理勘探》期刊2019年03期)

刘军,冷芳玲,李世奇,鲍玉斌[8](2019)在《基于HDFS的分布式文件系统》一文中研究指出在现有的开源分布式文件存储系统HDFS上,构建一个智能大数据存储系统IHDFS.该系统提出了大数据去重模块、大数据放置模块、大数据智能迁移模块和大数据编码模块,构造了智能分布式文件存储系统,可以提高用户访问效率,节省集群的存储空间.实验结果表明,数据去重模块很好地节省了存储空间;数据放置模块合理地分配文件上传的存储层,使数据上传速度提高一倍;数据智能迁移模块提高了用户在高等存储层上文件的命中率,提高了用户获取数据的效率;数据编码模块节省了集群的储存空间,节省了大约原来存储空间的叁分之一.(本文来源于《东北大学学报(自然科学版)》期刊2019年06期)

李崇杰[9](2019)在《分布式文件系统缓存技术研究》一文中研究指出在大数据时代,计算机存储和处理的数据规模呈爆炸式增长。近几年来,大数据分布式存储与并行计算技术也得到了长足的发展。以Alluxio系统为代表的分布式内存文件系统,能够给传统的分布式存储带来显着的性能提升。层次化分布式存储系统为了提升数据访问的效率,通常都会采用热数据缓存机制。然而,现有分布式内存文件系统的缓存机制还难以高效地支撑频繁小规模数据量的读取和多租户共享缓存空间的场景应用。首先,对频繁随机访问大文件和重复访问大量小文件这些小规模数据访问的场景下,现有的缓存技术依然主要依赖于服务端缓存,而并没有充分发挥客户端缓存的优势。第二,在服务端多租户共享缓存空间的场景下,现有的缓存共享算法难以有效地兼顾公平性与效率性能。因此,现有的分布式文件系统的缓存技术,难以满足小规模数据高效缓存和多租户共享缓存空间场景的诸多应用需求。针对上述问题,本文提出了一种基于子模优化算法的细粒度客户端缓存模型,以及两种新型多租户缓存共享策略,并构建了一套完整的缓存框架。论文主要研究工作和贡献点包括:(1)在客户端缓存方面,针对小规模数据缓存低效的问题,本文设计了一种新型的细粒度缓存模型,能够管理包含部分重合片段的变长缓存块。在该缓存模型中,本文将缓存问题抽象为子模函数优化问题,在处理部分重合的文件片段集合时,使用子模优化算法识别热数据,并提供同步/异步缓存替换/提升策略。(2)在服务端缓存方面,本文提出了两种多租户缓存共享算法:高效公平共享(Efficient Sharing based on Fairness,ESF)算法和比例公平(Proportion Fairness,PF)算法。其中,ESF算法综合考虑命中率衰减、资源使用率和共享文件访问;PF算法满足无怨(Envy Free)属性,从而实时保证用户效益衰减值总和不高于效益上升值总和。(3)本文还综合上述技术设计实现了一套多租户缓存框架,提供多缓存机制扩展、多系统支撑、以及多租户管理。该框架包括应用层、缓存服务层、中间件层、以及存储层。应用层提供客户端缓存;缓存服务层管理数据与元数据,支持可插拔的缓存迁移策略;中间件层包含外部缓存与依赖组件;存储层包含多个底层存储系统。实验表明,在客户端缓存方面,本文提出的细粒度缓存技术能够比服务端块缓存提升系统随机读取速度4倍左右;在服务端缓存方面,相较于现有缓存共享算法,在保证较高公平性前提下,本文提出的ESF和PF算法能有效提升全局命中率,且在用户访问不均衡场景下具有更高的公平性。(本文来源于《南京大学》期刊2019-05-25)

陈力莘,杜诗雨,黄琛霖,梁子炜[10](2019)在《基于分布式文件系统的教学云平台设计与实现》一文中研究指出为解决高校传统教学平台操作复杂、使用流程繁琐的问题,文章提出并实现了一个更人性化且易于对存储系统进行水平扩展的一体化教学云平台。存储技术采用BFS百度文件系统,数据库管理系统融合MySQL及Redis各自的优势,Web前后端采用Symfony框架,并结合WebUploder实现文件传输功能。该软件可在高吞吐情况下保证低延迟和持续可用性,并较大提升了用户友好性。(本文来源于《无线互联科技》期刊2019年09期)

分布式文件系统论文开题报告范文

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着信息时代互联网技术的快速发展和数据时代的到来,数据量呈指数型增长,数据存储技术对众多应用服务的影响日益加深。分布式文件系统因其具备高可靠性和高扩展性,并且支持文件共享存储和完善的并发访问控制功能,在存储系统中发挥着至关重要的作用。分布式文件系统通常包含元数据服务器、数据服务器和客户端叁个部分。元数据是用来描述文件系统和文件特征的系统数据,例如文件类型、文件大小、访问权限和数据索引信息等。用户在访问文件数据之前需要访问文件的元数据以获得文件的基本属性信息和数据的索引信息。在分布式文件系统中,超过50%的文件操作都是针对文件元数据的操作,因此分布式文件系统中元数据的存取性能至关重要。本文从分布式文件系统元数据预取机制、元数据服务器集群负载均衡策略和元数据管理方案叁个方面,对现有分布式文件系统元数据存取流程和管理方案进行分析并加以优化,以提升分布式文件系统中元数据的存取性能。本文的主要研究内容和贡献如下所述。(1)基于数据关联性的元数据预取机制在众多应用场景中,工作负载的局部性特征引起多个文件同时被一起访问,即文件间存在访问关联性。如果分布式文件系统事先感知文件间的关联关系,则可以通过预取技术提前将关联文件的元数据从元数据服务器端预取到客户端。因此通过引入元数据预取技术可以减少系统中元数据I/O的数目,同时减轻元数据服务器的负载压力和缩短元数据请求的处理流程。但是现有的元数据预取策略主要采用离线的方式从文件历史访问记录中探索一起被频繁访问的文件集合,具有很强的限制性并且难以根据系统负载特征动态调整关联关系。为了解决现有预取技术中存在的问题,本文从一个全新的角度考量文件间的关联关系,并提出了一种基于数据关联性的元数据预取机制SMeta。SMeta通过轻量级的模式匹配算法来探索文件数据中存在的关联关系,并复用元数据扩展属性空间存储关联关系,以避免引入额外的元数据同步操作和修改系统接口。此外SMeta还引入了高效的客户端动态反馈机制以提高预取的准确度。本章基于Ceph实现了一套原型系统,并利用元数据操作密集型的基准测试程序和真实的工作负载进行性能评估。实验结果表明,相比于Ceph,SMeta可将系统中元数据请求数目减少58.5-87.8%,并达到其10.5倍元数据存取吞吐量和2.75倍客户端线性扩展性能。相较于基于存取关联性的预取方案,SMeta可进一步提升元数据存取性能。(2)元数据服务器集群负载均衡策略在元数据服务器集群中需要引入负载均衡机制以保证集群负载分布的均衡性,同时提升集群整体资源利用率和元数据服务的并发性能。但是现有的元数据服务器集群负载均衡策略只考虑元数据服务进程逻辑层面的负载均衡,难以根据元数据服务器集群架构动态调整均衡方案。同时仅基于系统负载的时间局部性的均衡决策方案过于单一,难以根据系统负载特征动态调整决策方案。此外采用两阶段提交的阻塞式元数据迁移操作使得迁移消息过多,并且因锁竞争问题进一步阻塞客户端元数据请求,从而影响系统元数据存取性能。为了解决现有负载均衡策略中存在的问题,本文基于元数据服务器集群两层架构提出了一种新型负载均衡策略,并实现了一套原型系统Fim。Fim通过引入节点内IPC通信方案加速节点内消息传递,并结合节点内优先迁移的调度方案进一步缩短元数据迁移时长。并且Fim在进行均衡决策时充分考虑系统负载特征,从而进一步提升负载迁移的效率。Fim通过将元数据迁移消息与客户端元数据请求并发处理,并引入非阻塞式元数据迁移方案来进一步降低元数据迁移操作对客户端元数据请求的影响。实验结果表明,Fim可以有效缩短元数据迁移时长并且提升元数据迁移的准确性。相比于Ceph,Fim可以将ImageNet数据集的预处理时间缩短77%。(3)混合元数据管理方案元数据管理方案包括建立文件系统命名空间到元数据服务器集群间的映射关系,同时负责调控整个集群的负载均衡等问题。现有的元数据管理方案分为两类,分别是基于子树划分和基于哈希映射的元数据管理方案。基于子树划分的元数据管理方案将文件系统目录树拆分成多棵目录子树,分布到元数据服务器集群中。而基于哈希映射的方案则根据文件唯一标志符的哈希运算结果分布元数据。但是现有基于子树划分和哈希映射的元数据管理方案难以同时在目录局部性和负载均衡特征中进行有效地权衡。本文提出了一种混合元数据管理方案并实现了一套原型系统SmartM2。SmartM2通过在元数据服务器节点间采用子树划分的方式保留了文件系统良好的目录局部性,并且在节点内部多个元数据服务进程间采用哈希映射的方法均匀分布子树元数据,从而实现节点内多元数据服务进程间的负载均衡。同时SmartM2引入节点内IPC通信方案加速节点内多个元数据服务进程间通信速度,以进一步弥补因哈希映射引起的目录局部性的损失。此外当元数据服务器集群规模发生变化时,SmartM2将哈希映射的影响范围局限在单个元数据服务器节点中,减少了需要重新映射引起的元数据迁移总量,并且仅在节点内的元数据迁移操作进一步缩短了元数据迁移时长。实验结果表明SmartM2可以有效地权衡目录局部性和负载均衡特征。相比于Ceph,SmartM2可达到其3.9倍的元数据访问吞吐量。并且当元数据服务器集群扩容时,相比于基于哈希映射的管理方案,SmartM2可以将元数据迁移用时缩短74.7-92.6%。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

分布式文件系统论文参考文献

[1].李晓炀.基于Alluxio+Docker的分布式文件系统设计及应用[J].电子技术与软件工程.2019

[2].陈友旭.分布式文件系统中元数据管理优化[D].中国科学技术大学.2019

[3].李诗逸,古亮,喻之斌.基于堆迭式分布式文件系统的端到端校验[J].集成技术.2019

[4].王大志.基于HDFS的跨集群分布式文件系统研究[J].信息技术与信息化.2019

[5].田英.基于大数据分析的分布式文件系统关键技术[J].信息与电脑(理论版).2019

[6]..使用分布式文件系统实现数据同步[J].网络安全和信息化.2019

[7].盛秀杰,金之钧,彭成,景妍.PetroV分布式文件系统的设计与实现[J].石油地球物理勘探.2019

[8].刘军,冷芳玲,李世奇,鲍玉斌.基于HDFS的分布式文件系统[J].东北大学学报(自然科学版).2019

[9].李崇杰.分布式文件系统缓存技术研究[D].南京大学.2019

[10].陈力莘,杜诗雨,黄琛霖,梁子炜.基于分布式文件系统的教学云平台设计与实现[J].无线互联科技.2019

标签:;  ;  ;  ;  ;  ;  ;  

分布式文件系统论文开题报告文献综述
下载Doc文档

猜你喜欢