导读:本文包含了数据索引论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:索引,数据,分布式,数据处理,空间,时空,时态。
数据索引论文文献综述
苑严伟,冀福华,赵博,姜含露,王猛[1](2019)在《基于Solr的农田数据索引方法与大数据平台构建》一文中研究指出针对农田数据在高吞吐量、高并发、多条件处理过程中易产生运算负载大、响应速度慢等难题,研究了负载均衡大规模集群数据处理技术,优化了多条件检索时Hbase农田数据库,提出了基于Solr的二级非主键索引方法,搭建了基于Hadoop的农田大数据平台,采用农机深松、植保、保护性耕作等8种作业生成的100 TB数据对平台进行了检索实验和压力测试实验。实验结果表明,多条件检索时,优化后的技术模型在数据规模达到5×10~7条时,系统的响应时间小于1 s,优化的性能与原生Hbase相比提高了3倍;在模拟用户达到5×10~5次时,系统的QPS及TPS提高了1倍左右、RT提高了2. 5倍,系统的平均响应时间为183 ms。本研究解决了高吞吐量、高并发导致农田数据检索效率低的问题,提高了海量农田数据实时处理的计算能力。(本文来源于《农业机械学报》期刊2019年11期)
陈秋,贾帅东,刘现鹏[2](2019)在《一种格网树与KD树组合的水深数据索引方法》一文中研究指出针对当前构建高精度数字水深模型中常用的格网数据索引方法,在海量数据管理中存在因树的规模限制而导致检索效率低的问题,提出了一种格网树与KD树(K-Dimension,KD)组合的水深数据索引方法。首先,利用格网将水深源数据分割为网状的数据块,构建出数据块的格网树;其次,构建各数据块的KD树,实现对数据块中任意数据的快速索引;最后,通过快速定位数据块,查找其所在KD树的位置,实现对海量数据的快速检索。实验结果表明:①与格网树相比,本文所提组合检索方法的检索效率随检索树规模的变化不明显;②在相同的数据量下,组合树的检索效率要普遍高于格网树方法。(本文来源于《海洋测绘》期刊2019年05期)
陈瑛,吴明珠,卢莉,叶小平[3](2019)在《时态拟序数据索引TQD-tree更新技术》一文中研究指出为达到大数据管理框架中实时响应和频繁更新的基本需求,基于线序划分(LOP)的时态数据索引TQD-tree,研究了增量更新技术,提出了新的增量插入更新算法,讨论了利用该算法实现批量更新的可行性,并完成仿真评估以证明TQD-tree更新技术的可行性和有效性.仿真结果表明:本增量更新算法能实现批量更新,减少扫描重构TQD-tree次数,大大提高系统效率.(本文来源于《华南师范大学学报(自然科学版)》期刊2019年02期)
葛微[4](2018)在《大数据索引和查询优化技术与系统研究》一文中研究指出随着大数据时代的来临以及大数据概念的普及,人们已经普遍认识到大规模数据信息资源的巨大价值,大数据时代会像互联网时代一样,给人类社会带来巨大的改变和发展机遇。然而,机遇总是伴随着挑战,在大数据分析应用所涉及的存储管理和计算分析等技术环节上,都面临着诸多的技术挑战。在大数据存储管理和查询技术上,传统的关系数据库无法适应大数据环境下的分布式存储管理和查询需求。关系数据库难以进行横向扩展,也难以有效应对非结构化和半结构化数据的高效存储和查询需求。计算机硬件的发展和体系结构的演变,使得数据索引和查询优化方法必须考虑新的硬件性能和体系结构特点。大规模分布式数据存储管理和查询研究受到了国内外研究团队的普遍关注,如最广为接受和使用的HBase系统、Facebook公司的Cassandra等诸多系统为大数据分布式数据管理和查询分析应用提供了良好的支撑。然而,由于现实世界中行业大数据容量巨大、数据形态复杂多样,现有的大数据管理技术与系统在数据的查询管理能力和查询性能上还不能完全满足实际应用的要求,技术上还远未达到完全成熟的地步。例如,HBase虽然较好地解决了高扩展性问题,可以存储管理高达数百亿以上规模的数据记录,然而,HBase只提供了主键索引,对于非主键属性上的数据查询效率低下。分布环境下的大数据存储管理与查询在索引方法、查询性能优化、数据一致性、系统可扩展性等方面,比传统数据库系统面临更多的技术难题和技术挑战,也带来了更多需要研究解决的问题。基于上述问题和背景,本文对大数据的存储管理和查询优化技术进行了一系列的研究。具体而言,本文工作包括以下主要技术内容和贡献:(I)基于热度累积缓存的分层式非主键索引方法HBase只有主键上的索引机制,不支持非主键索引,这导致HBase的非主键数据查询效率低下,难以满足数据实时/准实时查询需求。本文研究提出了一种分层式HBase非主键索引查询模型和方法,包括基于HBase的持久性索引和基于内存的索引热点数据缓存方法。在内存索引缓存层中,提出一种高效的热度累积缓存替换策略,更大程度地减少对HBase持久性存储层中索引表的磁盘访问开销。该方法不仅具有更高的缓存命中率和更快的查询响应时间,也表现出了良好的可扩展性。(2)基于热度自适应数据分片的大数据范围查询优化方法大数据上的范围查询通常具有倾斜特征,倾斜范围查询负载下的数据具有不同程度的相关性。通过面向数据片的方式管理和查询数据,将相关性强的数据划分成数据片,可以从时间和空间效率上优化范围查询。本文研究提出一种面向数据片的跳表索引结构及基于热度自适应数据分片的缓存调度算法,通过跳表索引结构来组织和管理冷热数据片。基于提出的累积热度和平均查询访问占比两个指标,基于热度自适应数据分片的缓存调度算法通过分裂合并方法调整分片的边界和长度,使得数据分片能够快速、持续地捕获查询模式。在缓存空间限定下,该方法通过自适应地调整数据分片来最大化缓存空间利用率和范围查询的缓存命中率,从而提高范围查询的效率。通过控制冷热数据片的分片粒度,将热数据做细粒度分片,而冷数据做粗粒度分片,可以同时获得分片拟合查询分布的精度和算法的空间效率。(3)基于关联感知模型的数据分片优化方法通过研究大数据上范围查询的特征和累积概率分布规律,本文提出了关联感知的数据分片优化模型和基于该模型的范围查询数据分片优化方法。关联感知的数据分片优化模型把倾斜范围查询下的数据分片优化问题转化为一个几何意义上的阶梯曲线拟合问题。基于关联感知模型的范围查询数据分片优化方法以最小化查询代价为优化目标,计算出数据分片优化方案。在获得最优分片的前提下,本文致力于提高分片算法的效率,研究提出并证明了如下结论:范围查询上符合查询累积概率分布规律的数据分片切分位置一定会落在范围查询边界上。据此结论,本文提出了基于动态规划的范围查询边界分片优化算法,在确保获得最优数据分片方案的条件下,大幅降低算法的时间复杂度,提高分片算法的效率。继而又提出了自底向上合并的范围查询边界分片优化算法,用合并分片替代检索分片位置的方法,算法的分片效率得到了进一步提高。(4)基于上述关键技术方法,本文在HBase上设计实现了相应的完整系统。其中,基于分层式非主键索引的查询系统HiBase己经成为中兴通讯公司的产品,并在国内多家银行得到大规模的实际推广应用,取得显着的推广应用效果。进一步,基于热度自适应调整数据分片和基于关联感知模型的数据分片优化方法也在HiBase系统中得到集成和实现。实验结果表明,系统对于分布式环境下大数据的查询优化具有显着的提升效果,相比于标准HBase和华为同类的Hindex系统,查询性能都有非常明显的提升。相比于将非主键属性上的范围查询转化为在内存中并行执行批量单值查询的方法,数据分片算法对范围查询的性能提升可以达到两个数量级。(本文来源于《南京大学》期刊2018-12-30)
何婧,姚绍文,蔡莉,周维[5](2018)在《SLC:基于跳表的可扩展云数据索引(英文)》一文中研究指出随着基于云平台的应用的增加,云存储系统中的数据呈现出爆炸式增长的趋势,要求云数据处理系统具备高效的海量数据处理能力,然而,现有的云存储系统大多采用哈希方法检索数据,主要提供针对键值的查询,范围查询效率较低。因此,有必要为云存储系统构建辅助数据索引。提出了一种基于跳表的云数据索引结构,简称SLC索引。SLC索引采用双层体系结构,该索引结构契合云存储系统的分布式存储特性,易于在多个服务器节点上灵活扩展。局部索引节点基于查询耗费计算模型向全局索引节点发布索引信息,保证SLC索引结构的整体高效性。通过动态的索引节点分裂与合并机制,降低数据倾斜带来的性能影响,实现索引结构负载均衡。实验结果表明,SLC索引能够支持高效的单点查询和范围查询,是一种适用于云计算系统的具有高可扩展性的辅助数据索引。(本文来源于《Journal of Central South University》期刊2018年10期)
张远强,史国友[6](2018)在《一种高效的船舶动态数据索引方法》一文中研究指出随着船舶自动识别系统(Automatic Identification System,AIS)岸基通信网络的建立,可获得的船舶动态数据大幅增加。AIS数据具有数据量大和位置更新延迟的特点,容易造成检索耗时较多和误检索的问题。为解决以上问题,基于TPR*-tree建立船舶动态数据索引结构,解决船位和航速在索引结构中的存储问题,使用改进的闵可夫斯基和(Transformed Minkowski Sum,TMS)方法实现船舶动态数据的距离检索。为获取最优的检索效率,检索试验使用真实的AIS数据来确定各主要索引参数的最佳取值,并与已有算法在插入时间、检索时间和检索精度等3个方面进行了比较,通过比较结果可知,该索引方法能快速地对船舶动态数据进行插入和检索,且索引结果准确。(本文来源于《中国航海》期刊2018年03期)
赖广陵,童晓冲,丁璐,秦志远[7](2018)在《叁维空间格网的多尺度整数编码与数据索引方法》一文中研究指出本文针对叁维空间索引方法存在的问题,提出了一种适用于叁维空间格网化区域的多尺度整数编码与索引方法。该方法利用整数对由规则格网划分的空间区域进行统一编码,形成了一种包含格网大小关系和格网尺度变化的树状结构,体现了不同尺度格网之间的包含/被包含、相邻等空间关系,最终实现了对多种尺度格网的统一整数编码化处理。在此基础上,还研究了层级运算、编码与格网坐标转换运算、父单元查询和子单元查询等基本运算方法,并与Oracle Spatial的叁维R树索引进行比较,设计了对比试验。结果表明,叁维空间格网的多尺度整数编码在数据导入、索引建立及区域查询叁个方面均优于Oracle Spatial的叁维R树索引方法,其效率分别提高了约2倍、46倍和4倍。(本文来源于《测绘学报》期刊2018年07期)
蔡为,杨再华,顾英哲,徐雯婷,郭涛[8](2018)在《基于Mongo DB的众包数据索引方法探讨》一文中研究指出服务于小城镇智慧规划管理的众包数据具有数据类型多样、数据量巨大的特点,必须建立合适的索引,才能满足快速检索和查询的需要。以面向文档型数据存储的开源数据库Mongo DB为基础,对基于Mongo DB的众包数据索引方法进行探索,分析了利用地理空间索引B+树、Geo Hash和多层次索引等进行众包数据索引的方法。(本文来源于《地理空间信息》期刊2018年06期)
唐志贤,王彤,金紫蘅[9](2018)在《一种基于商空间的非欧时空数据索引模型》一文中研究指出为解决受限网络时空数据的非欧特性限制数据聚类与查询剪枝效率问题,以水利领域为背景,构建一种面向商空间的非欧时空数据索引模型。通过对水系河网进行建模与分析,结合受限网络表征受限时空数据的非欧时空特征,引入商空间的多粒度分析理论对非欧时空数据进行粒化建模,利用定义相应的空间网络结构查询算法实现非欧查询到欧氏空间查询的转换,构建索引框架管理模型,并对模型进行验证。验证结果表明,该研究为非欧数据的索引建模提供了一套可行的解决方案。(本文来源于《兵工自动化》期刊2018年06期)
马柏林[10](2018)在《激光点云数据索引和压缩方法研究》一文中研究指出叁维激光扫描技术是一种先进的全自动高精度立体扫描技术,高精度叁维模型已在各行各业中取得了广泛应用,因此对于点云数据处理方法的研究尤为重要。本文在对叁维激光扫描技术的原理以及点云数据处理技术研究的基础上,对点云数据索引以及点云数据压缩的经典算法进行改进,以获得高效的点云数据查询效率以及高精度的点云数据压缩质量。点云数据索引主要有格网索引、KD树索引、R树索引、八叉树索引、四叉树索引等方法,其中四叉树索引具有较好的索引效率,但是在索引过程中存在树深较大、四叉树存储冗余、堆栈溢出等问题。因此本文对四叉树索引进行改进,首先根据点云数据的跨度对点云数据进行分块,然后对分块后的点云数据进行四叉树索引,在四叉树索引时,引入自定义堆栈以及最小外包矩形的概念,从而对点云数据的四叉树索引结构进行良好的改进,经与传统的四叉树结构进行实验对比分析,改进的点云数据索引具有良好的建树效率以及查询效率。点云数据压缩方法主要有曲率采样法、随机采样法、均匀网格采样法、坐标增量法、区域重心法等方法,其中区域重心法具有较好的压缩精度,但是在压缩过程中会造成一些物体表面细节特征丢失,因此本文对区域重心法进行改进,首先对点云数据进行包围盒的构建,再根据划分阈值将包围盒划分为若干个子包围盒,然后对子包围盒内的点云数据求取代重心点,再对其余点根据点到最近邻平面的阈值进行删除,然后对保留的点根据点到重心的距离进行二次删除,最终完成点云数据压缩,经过与区域重心采样以及其他压缩算法进行对比,改进算法改善了压缩质量,保证了数据简度,提高了叁维模型构建精度。(本文来源于《西安科技大学》期刊2018-06-01)
数据索引论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
针对当前构建高精度数字水深模型中常用的格网数据索引方法,在海量数据管理中存在因树的规模限制而导致检索效率低的问题,提出了一种格网树与KD树(K-Dimension,KD)组合的水深数据索引方法。首先,利用格网将水深源数据分割为网状的数据块,构建出数据块的格网树;其次,构建各数据块的KD树,实现对数据块中任意数据的快速索引;最后,通过快速定位数据块,查找其所在KD树的位置,实现对海量数据的快速检索。实验结果表明:①与格网树相比,本文所提组合检索方法的检索效率随检索树规模的变化不明显;②在相同的数据量下,组合树的检索效率要普遍高于格网树方法。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
数据索引论文参考文献
[1].苑严伟,冀福华,赵博,姜含露,王猛.基于Solr的农田数据索引方法与大数据平台构建[J].农业机械学报.2019
[2].陈秋,贾帅东,刘现鹏.一种格网树与KD树组合的水深数据索引方法[J].海洋测绘.2019
[3].陈瑛,吴明珠,卢莉,叶小平.时态拟序数据索引TQD-tree更新技术[J].华南师范大学学报(自然科学版).2019
[4].葛微.大数据索引和查询优化技术与系统研究[D].南京大学.2018
[5].何婧,姚绍文,蔡莉,周维.SLC:基于跳表的可扩展云数据索引(英文)[J].JournalofCentralSouthUniversity.2018
[6].张远强,史国友.一种高效的船舶动态数据索引方法[J].中国航海.2018
[7].赖广陵,童晓冲,丁璐,秦志远.叁维空间格网的多尺度整数编码与数据索引方法[J].测绘学报.2018
[8].蔡为,杨再华,顾英哲,徐雯婷,郭涛.基于MongoDB的众包数据索引方法探讨[J].地理空间信息.2018
[9].唐志贤,王彤,金紫蘅.一种基于商空间的非欧时空数据索引模型[J].兵工自动化.2018
[10].马柏林.激光点云数据索引和压缩方法研究[D].西安科技大学.2018