数据立方论文_相诗尧

导读:本文包含了数据立方论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:立方,数据,多维,实时,直方图,前缀,固态。

数据立方论文文献综述

相诗尧[1](2017)在《移动对象多维属性空间数据立方构建及分析应用研究》一文中研究指出将传感器技术、无线通讯技术和导航定位技术应用于移动对象的研究领域,能够便利地获取关于移动对象更多种类、更高质量的数据,实现对移动对象更加全面和清晰地描述,从而进一步揭示移动对象的运动规律,以及其与环境的相互关系。对获取的数据进行类型划分,得到的每一大类数据可以看作是一种维度的数据,而每一大类数据中包含的每一种数据又可以看作是一种属性,移动对象逐渐成为多种维度的数据构成的数据集合,因此本文提出了多维度移动对象的概念、实体结构和基本特征,并从多个方面进行了研究。能源、矿产的露天开采过程主要依靠大型的机械设备来完成,巨型矿用卡车是进行露天开采的主要运输工具,其体型巨大、价格昂贵。通过在矿车上安装各类传感器,利用矿区的无线传输网络能够获取矿车移动过程中的各类数据,这样矿车也就成为了一个由多种维度的数据构成的数据集合。本文将其作为多维度移动对象的具体实例,利用其多维属性数据从多个方面展开研究与分析。论文的主要工作如下:(1)提出并阐述了多维度移动对象的概念、实体结构和基本特征。在研究移动对象的定义、分类、特性和已有移动对象模型的基础之上,提出了多维度移动对象的概念,并将其实体结构划分为位置信息、速度信息、运动状态信息、时间信息、移动对象属性信息和外界因素信息六种实体对象,每一类实体对象代表一种维度的数据,并且可以进一步细分为多项属性。阐述了多维度移动对象所具有的3个基本特征,以及多维属性数据的获取过程、组织管理方法和应用分析方式。(2)构建了多维度移动对象运行状态判别分析模型,并实现对矿车轻/重车运行状态的判别。本文将露天矿矿用卡车作为多维度移动对象的一个具体实例进行了研究,利用统计分析方法实现了对矿车轻/重车运行状态的判别。通过距离判别分析原理,选用马氏距离为判别距离,将属于多维度移动对象实体结构中移动对象属性信息的轮胎气压和轮胎温度,属于速度信息的速度和加速度以及属于外界因素信息的环境温度作为判别因子,利用多组训练样本数据,构建了多维度移动对象运行状态判别分析模型。利用该模型对矿车轻/重车运行状态进行判别,并通过判别准则评价对模型进行验证与评估,根据对训练样本的回代结果和假设检验结果验证了该模型的合理性和有效性,利用该模型实现了对多组待判样本数据的准确判别,进一步验证了模型的可行性。(3)设计了露天矿叁维路网提取算法。本文设计了一种利用矿车运行轨迹提取矿区叁维道路网的算法,并通过提取的叁维道路面表征矿车在矿区道路上的运动范围,在该过程中,充分利用了多维度移动对象实体结构中的位置信息。通过设计矿车GPS天线的安装方式,获得所需的矿车运行轨迹数据,并利用其它类型的传感器获取了相应的数据。通过对数据进行预处理,剔除掉停滞点和异常点,得到有效的轨迹点。利用文中提出的多维度移动对象运行状态判别分析模型,对轨迹点进行分类并判断出双向车道上距离较近的干扰点的类型。将轨迹点以采样时间顺序进行连线,获得合理的连线交点来实现轨迹点加密,进而增加了道路生成点的数量。将道路生成点进行格网划分,判断出部分非边界点之后,对剩余的道路生成点利用Alpha Shapes算法获取边界点,并采用准均匀B样条曲线拟合边界点,生成边界线,从而获取了矿区道路面,通过矿区DEM数据,获取高程信息,得到了矿区的叁维道路网,并用来表征矿车的行驶范围。最后利用实际的矿车运行轨迹数据对矿区的叁维道路网进行了提取,定性和定量地证明了该算法的有效性。(4)实现了多维度移动对象多维属性数据的组织与管理。本文系统地从需求分析、概念模型设计、逻辑模型设计和物理模型设计4个方面对多维度移动对象空间数据立方进行了设计,以实现多维属性数据的组织与管理。根据实际情况,设计了7个维度共同表征针对矿车的多维度移动对象的实体结构,包括1个空间维和6个非空间维,并设计了3类数值度量和3个空间度量来存储分析对象的中心值。本文将格网方法应用到空间数据立方的设计过程中,利用格网对整个矿区进行区域划分,实现了区域细化以及维度层次的建立。(5)完成了多维度移动对象运动规律分析。为了得到矿车不同时间、不同空间的速度、胎压和胎温的变化情况,利用构建的多维度移动对象空间数据立方,通过操作模型进行空间联机分析处理(SOLAP),得到矿车的速度变化空间分布规律、轮胎气压变化空间分布规律和轮胎温度变化空间分布规律,并通过维层次上卷和下钻实现数值度量和空间度量的详细和概括之间的转变,这样能够清晰地反映出矿车随时间和空间运动规律的变化情况,为决策分析提供数据支持。通过对矿车轮胎超压因素的分析,选取了多维度移动对象多维属性中的轮胎温度、轮胎位置、速度、道路等级、环境温度和纵向坡度作为研究变量,利用矿区中发生的矿车轮胎超压事件数据作为研究样本,通过对应分析基本原理,对数据进行R型因子分析和Q型因子分析,构建了多维度移动对象对应分析模型,利用获得的变量点与样本点分布图实现了原因分类、影响程度分析和影响因素关联度分析,进而获得了各超压事件之间、各影响因素之间以及超压事件与影响因素之间的相互关系,并确定出各影响因素对轮胎超压问题影响的强弱差异,从而能够得出导致特定超压问题的主要因素和次要因素,并以此制定相应措施减少矿车轮胎超压事件发生,保证矿区行车安全。(6)设计开发了露天采矿移动对象多源空间数据管理系统。通过GIS组件式开发,采用C/S架构,基于超图平台设计开发了露天采矿移动对象多源空间数据管理系统,整个系统可以分为支持层、控制层和应用层,利用该系统实现了对包括利用本文的露天矿叁维路网提取算法获得的矿区叁维道路网以及矿车运动轨迹数据在内的8种矿区多源异构空间数据的可视化集成管理,并实现了空间联机分析处理(SOLAP)对矿车的运动规律进行分析,利用原型系统验证了论文相关理论与方法的可行性。(本文来源于《中国矿业大学(北京)》期刊2017-03-22)

王磊,张真[2](2016)在《实时云计算数据库-数据立方》一文中研究指出现阶段,云计算技术的快速发展和大范围应用,为众多行业带来了新的发展机遇。在大数据计算和存储方面,被称为是数据立方的大数据处理系统在数据的入库、查询以及扩展等方面具有一系列独特的优势。(本文来源于《数码世界》期刊2016年05期)

周盈莹[3](2014)在《分布式数据立方计算》一文中研究指出数据立方(Data Cube)是一种有效支持OLAP的多维数据计算模型。它通过预先计算数据表中各属性间所有组合对应的GroupBy结果并将其存储起来,以缩短系统的响应时间从而提高查询效率。随着数据量的急剧增长,分布式计算(如MapReduce)的使用日益广泛,将数据立方计算与分布式结合是必然的趋势。对于代数度量,如SUM等,简单地采用MapReduce框架即可高效地完成数据立方的计算。但对于整体性度量,如DISTINCT等,若与MapReduce简单地结合,则会出现负载不均衡、中间数据过多等问题。当前最好的分布式数据立方计算算法MR-Cube,通过数据划分、合并计算的方法减缓上述问题。但是该算法对数据划分不够精准,会导致一些不必要的数据划分,加重之后的合并操作。而对于合并计算,该算法仅提出了一些规则,而无简单且有效的合并方法,并且进行合并计算时使用BUC算法亦未充分利用MapReduce框架的特性。为了更好地解决负载不均衡、中间数据过多的问题,本论文借鉴TeraSort与PipeSort,提出TeraSortPipeSort-Cube算法(以下简称TSP-Cube算法)。TSP-Cube借鉴TeraSort随机抽样的思想,根据数据出现的频率对数据进行划分,不仅可以有效避免不必要的划分,并且适用于各种分布类型的数据集,从而有效解决负载不均衡的问题。同时TSP-Cube采用能充分利用MapReduce框架特性的PipeSort替代MR-Cube中的BUC进行合并计算,并且针对层次型的数据集,根据其属性特征以及PipeSort的特性,采用更简单有效且均匀的合并计算方案,从而解决中间数据过多的问题。论文通过实验证明,无论在均匀分布或是倾斜分布下,TSP-Cube在整体性度量函数中都有更好的性能,比已有的分布式算法更通用。此外,实验还对多种算法在代数度量下的性能进行了比较,从而得出不同类型的度量应采用的方法。(本文来源于《中山大学》期刊2014-04-14)

王磊,张真,王胤然[4](2013)在《实时云计算数据库——数据立方》一文中研究指出基于快速发展的并行数据库技术、云计算MapReduce技术及其混合技术,分析了这些技术的优缺点,对并行计算架构、分布式存储系统之上的索引以及其他方面进行了研究,提出了一种被称为数据立方的大数据处理系统。通过与大数据处理系统Hive和HadoopDB的对比实验表明,数据立方的大数据处理系统在入库、查询、并发、扩展等多方面有明显的优势。(本文来源于《中兴通讯技术》期刊2013年04期)

杜典熠[5](2012)在《基于学生评价数据立方的多维分析》一文中研究指出许多学校的信息系统都是面向事务的,虽然积累了大量的教育数据,但不具备教育教学管理的决策支持能力。基于原有OA系统的学生数据,使用联机分析处理技术对学生数据按主题进行维度建模,采用Oracle数据库的AWM工具来实现学生数据立方的建立和多维多粒度的统计分析。(本文来源于《现代计算机(专业版)》期刊2012年27期)

衣军成[6](2012)在《基于Hadoop的统计直方图数据立方的构建与查询技术研究与实现》一文中研究指出随着互联网时代信息技术的深入应用,信息的来源日益增多,数据规模呈现急剧增长的趋势。面对海量的数据,越来越多的企业或组织开始重视数据的存储应用,数据仓库在这方面的应用越来越广泛。在数据仓库基础之上的数据分析对于企业或组织定量的决策发挥着越来越重要的作用,对于海量数据的处理需要更高的计算和存储能力,在普通PC面对这样的问题出现瓶颈的时候,云计算平台以及相关技术的出现,为研究解决该问题提供了支持,如何在云计算环境下有效的组织存储数据,高效的完成海量数据上的分析处理成为一个热点研究问题。本文通过详细分析了当前联机决策分析(OLAP)技术在面对海量数据时查询处理时的局限性,提出了一种新的多维聚集通用模型,详细分析了该模型在OLAP分析上的可行性,利用MapReduce在处理大规模数据时的并行处理能力和分布式文件系统的存储能力,完成了基于统计直方图的数据立方的构建和存储,并在该模型下,设计实现了OLAP分析的经典聚集算法,如求和、计数等算法,对于传统OLAP分析无法支持的分析操作,如求众数、中位数等,利用该模型的特点在MapReduce下设计实现了相应的算法,算法可以高效的利用Hadoop集群的计算能力完成分析操作。另外在本模型下,提出了海量数据下数据更新问题解决方案,可以较好的支持数据的增量更新。通过以上方法,极大的提高了海量数据上的聚集查询运算效率,可以较好的支持海量数据上的OLAP分析操作。针对数据仓库上的近似查询需求,本文还在统计直方图的基础上,重新设计了一种新的直方图划分方法,分析了该划分方法下产生的误差以及空间损耗,并在划分后的直方图上,重新设计了不同的聚集查询算法计算近似的查询结果,利用该方法,能够有效降低聚集查询计算时间,减少查询的响应时间,从而高效的支持用户提出的近似查询需求。(本文来源于《东北大学》期刊2012-06-01)

冷芳玲,鲍玉斌,于戈,高伟[7](2011)在《基于MapReduce的封闭数据立方》一文中研究指出为提高海量级数据仓库分析过程中的数据查询效率,研究基于MapReduce并行处理技术的数据立方构建技术,提出了全局封闭数据立方体的生成算法以及其上的查询处理算法.实验和分析结果表明该算法充分发挥了集群系统的并行处理能力,可以高效地生成全局封闭数据立方体,并且该立方体的存储空间减少了将近40%.其上查询算法的复杂度和网络代价均非常小.(本文来源于《计算机研究与发展》期刊2011年S3期)

颜文跃[8](2011)在《浓缩数据立方高效实化和快速查询方法研究》一文中研究指出联机分析处理(OLAP)服务器中以数据立方作为基本的数据模型。为了提高OLAP查询效率,数据立方的构建成为许多研究的焦点。除了可以利用浓缩数据立方来减少数据立方的尺寸,从而大幅减少数据立方的计算时间与存储开销外,在应用实践中,往往还可以通过预先将数据立方进行实化的方法提高OLAP的查询响应速度。因此,进一步研究复杂数据立方的快速计算方法、浓缩数据立方在不同存储介质中的高效实化方法、以及如何利用实化数据快速响应查询等具有重要意义。为了解决层次结构引入到数据立方的构建中带来的问题,提出了层次前缀立方的结构。层次结构带来了两个主要问题:一是立方格上的节点急剧增加,它的模型更加复杂,为了有效对其计算,需要开发新的立方格遍历方法;二是数据立方中需要实化的元组数急剧增加,为有效利用空间,需要研究新的存储模式,以消除各种形式的冗余。结合基本单元组浓缩与小方内前缀共享这两种方法,就得到了一种新的数据立方结构:前缀立方,但是,前缀立方不能直接支持维层次。为此,对前缀立方组织结构进行扩展,使之能够计算层次数据立方,并提出了一种新的结构:层次前缀立方(HierPrefixCube),将层次数据立方组织成一组共享前缀簇树,从而在数据立方尺寸压缩、数据立方元组恢复以及数据立方查询这几个方面求得了平衡。试验结果表明,层次前缀立方在实现了基于维层次查询的同时,其计算时间代价较低,对数据立方尺寸压缩的效果也很明显。预先计算并实化数据立方,可大大缩短OLAP查询响应时间。但在外存存储实化数据,仍会带来大量的I/O操作。随着内存价格逐渐地降低,将数据立方的一个子集在内存实化,将特别适用于有时间约束的联机分析处理环境。为此,在现有技术的基础上,以元组为实化单元构建适用于浓缩数据立方的内存实化数据选择模型。以内存空间至少能容纳最细粒度数据小方为前提,在内存中构造两级元组存储结构,达到避免数据立方重新计算,快速准确响应查询的目的。并进一步对查询进行优化,构造性能更好的选择模型。由于最细粒度小方元组和其它一些粗粒度元组都在内存中,避免了费时的外存存取,数据立方更新和维护代价也得以降低。试验证明,在内存实化数据立方可有效降低查询响应时间,浓缩数据立方优先小尺寸是内存实化元组几种不同的选择模型中时间最优的。通过在内存实化数据立方可以缩短查询响应时间,但易受内存空间的限制,很难满足尺寸较大数据立方的实化要求。随着闪存技术的快速发展,基于NAND闪存的固态硬盘具有了读取速度快、功耗低等优点,且其成本要比内存低得多,访问速度比传统硬盘要快得多。为此,结合浓缩数据立方的元组存储特征,提出了在内存实化粗粒度的小方,在闪存实化细粒度的元组,在硬盘存放事实表的叁级存储结构。由于闪存具有读、写、擦除的时间延迟不均衡、非本地更新和擦除次数受限等特性,对于闪存中存放的实化数据立方元组采用了多级动态完美哈希索引,并把实化过程中的写操作转变为串行化的操作序列,以逐一追加的方式解决了由数据插入引发的闪存“频繁写”问题。实验结果表明,基于该索引结构的数据立方存储方法,既能提供高于磁盘存储的查询响应速度,又能避免内存空间不足的问题。使用实化视图加速查询是一种常用的查询优化方法,在多维聚集应用中,其本质也是利用实化的数据立方来快速响应查询。含有SPREADSHEET子句的SQL语句增强了多维计算能力。研究了含有SPREADSHEET子句的实化视图匹配,利用实化数据加快SPREADSHEET查询的响应速度。提出了含有SPREADSHEET子句的视图匹配算法。实验结果表明,含有SPREADSHEET子句的视图匹配方法,具有良好的查询响应能力和良好的可扩展性。(本文来源于《华中科技大学》期刊2011-08-01)

马学聪[9](2011)在《基于闪存的浓缩数据立方存储研究》一文中研究指出OLAP的快速多维响应查询需要预先进行数据立方的计算并将结果保存。由于数据立方的巨大尺寸,使其响应查询变慢。在内存实化数据立方,通过避免了大量的I/O操作来缩短查询响应时间,但是数据立方的尺寸一般来说是内存空间的几个数量级。浓缩数据立方将同一群基本单元组聚集的立方元组浓缩成一组,虽然有效地减小了数据立方的尺寸,但是由于内存空间的限制,仍不能满足较大数据立方的内存实化要求。SSD(固态硬盘)作为新型的二级存储设备,其空间和访问速度都能够得到很好的保证。本文根据SSD的特性,结合内存实化和固态硬盘的高性能,提出了内存-SSD的两级存储结构。内存实化较粗粒度的小方,SSD实化细粒度的元组,其中首先保证所有最细粒度的小方在SSD实化。对于小方粒度的内存实化方法,其中的重新计算的瓶颈问题,可以考虑将完整的立方保存在SSD。点查询时先响应内存实化的小方,如果没有需要查询的小方,然后在SSD上查询。范围查询直接在SSD上响应。两级存储结构,保证了快速响应点查询和准确处理范围查询。SSD作为闪存的一种,必须考虑闪存的特性。闪存具有读写速度不对称性、不可重复写以及擦除次数有限等特点。如果将传统索引直接移植到SSD上,绝对无法充分利用SSD的容量及其高性能。所以针对SSD的I/O特性以及目前基于SSD的索引结构存在的问题,提出多级动态完美哈希索引结构,从而在保证高效率的查询响应。(本文来源于《华中科技大学》期刊2011-05-01)

陈长清,程恳,颜文跃[10](2008)在《基于浓缩数据立方的内存实化数据立方的构建》一文中研究指出为提高联机分析查询的速度,在浓缩数据立方的基础上,构建了元组级别的内存实化方法.以内存空间至少能容纳最细粒度数据小方为前提,在内存中构造两级Hash结构:第一级Hash结构存放最细粒度的数据小方以保证所有查询都可从内存中响应;第二级Hash结构按照聚集度高的小方元组优先、相同聚集度情况下尺寸小的小方中元组优先的选择策略,选择立方元组在内存实化.处理点查询时,首先从第二级结构中直接查找满足条件的立方元组.若对范围查询,则需从第一级结构中计算获得.由于最细粒度立方元组和其他一些粗粒度元组都在内存中,避免了费时的外存存取,数据立方更新和维护代价也得以降低.(本文来源于《华中科技大学学报(自然科学版)》期刊2008年09期)

数据立方论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

现阶段,云计算技术的快速发展和大范围应用,为众多行业带来了新的发展机遇。在大数据计算和存储方面,被称为是数据立方的大数据处理系统在数据的入库、查询以及扩展等方面具有一系列独特的优势。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

数据立方论文参考文献

[1].相诗尧.移动对象多维属性空间数据立方构建及分析应用研究[D].中国矿业大学(北京).2017

[2].王磊,张真.实时云计算数据库-数据立方[J].数码世界.2016

[3].周盈莹.分布式数据立方计算[D].中山大学.2014

[4].王磊,张真,王胤然.实时云计算数据库——数据立方[J].中兴通讯技术.2013

[5].杜典熠.基于学生评价数据立方的多维分析[J].现代计算机(专业版).2012

[6].衣军成.基于Hadoop的统计直方图数据立方的构建与查询技术研究与实现[D].东北大学.2012

[7].冷芳玲,鲍玉斌,于戈,高伟.基于MapReduce的封闭数据立方[J].计算机研究与发展.2011

[8].颜文跃.浓缩数据立方高效实化和快速查询方法研究[D].华中科技大学.2011

[9].马学聪.基于闪存的浓缩数据立方存储研究[D].华中科技大学.2011

[10].陈长清,程恳,颜文跃.基于浓缩数据立方的内存实化数据立方的构建[J].华中科技大学学报(自然科学版).2008

论文知识图

地质灾害危害性分析多维模型概念图泰森多边形示意图维度、立方设计样例数据立方的立方格及其类划...数据立方图分析图1 Dwarf 数据立方实例

标签:;  ;  ;  ;  ;  ;  ;  

数据立方论文_相诗尧
下载Doc文档

猜你喜欢