导读:本文包含了近似查询处理论文开题报告文献综述、选题提纲参考文献,主要关键词:数据,近似,算法,地理,不确定,顶点,多维。
近似查询处理论文文献综述写法
张安珍[1](2019)在《弱可用数据近似聚集查询处理问题研究》一文中研究指出随着信息技术的迅速发展,数据规模逐渐扩大,劣质数据也随之而来,极大地降低了数据的可用性。当一个数据集合中的错误不能彻底修复时,我们称其为弱可用数据。弱可用数据上近似计算(如查询、分析、挖掘等)的理论和算法成为重要的研究问题。弱可用数据上的近似计算不同于传统意义下的近似计算,它是在具有一致性错误、完整性错误、精确性错误、时效性错误或实体同一性错误的数据上近似地求解满足给定精度要求的问题的解。目前,面向弱可用数据的查询处理主要有两种解决方法:一是对弱可用数据进行数据修复,在修复后的数据集上执行查询。二是直接在弱可用数据上计算满足所有可能修复的查询结果。在第一种方法中,由于修复具有多种可能,没有任何一种修复算法能够保证修复后的查询结果的准确性;第二种方法可能造成大量的弱可用数据丢失,严重降低了查询结果的质量。为了有效地解决上述问题,本文围绕完整性、一致性、实体同一性这叁个方面,对弱可用数据聚集查询处理展开研究,本文的研究内容可以概括如下:首先,本文研究了可填充的不完整弱可用数据聚集查询处理问题。不完整数据又称为缺失数据,现有的缺失值填充算法不能保证填充后查询结果的准确度。本文给出一种面向不完整数据聚集查询结果的区间估计方法。假设聚集查询语句中聚集属性的值域范围已知,并且缺失值是可填充的,本文直接在缺失的数据集上给出聚集查询结果的区间估计。通过估计不完整数据库所有可能世界的查询结果的上界ub和下界lb,保证真实的查询结果一定在[lb,ub]区间范围内。本文提出的算法可以适用于任何缺失机制中,不对数据分布做任何假设,可以在线性时间内给出SUM、COUNT和AVG查询结果的区间估计。其次,本文研究了不可填充的不完整弱可用数据聚集查询处理问题。假设聚集查询语句中聚集属性的值域范围未知,并且缺失值包括可填充的和不可填充的两种类型,本文给出聚集查询结果的区间估计。本文在符号语义中扩展传统关系数据库模型,提出了一种通用不完整数据库模型,该模型可以处理可填充的和不可填充的两种类型的缺失值。在该模型下,本文提出一种新的不完整数据聚集查询结果语义:可靠结果。可靠结果是真实查询结果的区间估计,本文给出线性时间求解SUM、COUNT和AVG查询可靠结果的方法。再次,本文研究了实体冲突弱可用数据聚集查询处理问题。识别数据集中有差异的重复数据的过程称为实体识别。现有实体识别算法计算复杂性较大,并且具有修复准确度不高的问题。为此,本文设计并实现了实体冲突数据上聚集查询处理系统CrowdOLA。CrowdOLA不修复冲突的实体,而是直接在有实体冲突的数据集上给出聚集查询结果的估计。CrowdOLA的核心思想是在原始数据集上采样,利用基于众包的实体识别方法识别冲突实体,根据样本上的聚集结果对总体查询结果无偏估计,从而在保证置信度的前提下提高了查询效率。最后,本文研究了不一致弱可用数据聚集查询处理问题。目前,解决该问题常用的方法是一致性查询方法,该方法返回满足所有可能修复的查询结果。然而,一致性查询方法可能造成大量有用信息的丢失,并且计算一致性查询的复杂度非常高。为此,本文提出一种基于不确定图求确定性概率最大的修复方案及查询结果的方法。可以保证得到的修复方案的修复代价最小,修复的确定性概率最高,进而保证在该修复方案下的查询结果的准确率最高。(本文来源于《哈尔滨工业大学》期刊2019-01-01)
王伟贤,张禄,田贺平,陈振[2](2018)在《不完整数据高效近似查询处理算法》一文中研究指出当前的不完整数据查询处理算法没有将冗余数据和脏数据清洗,而且寻优过程缓慢,不利于数据查询结果的快速展示。提出将各数据阅读器和各局部过滤器连接,利用局部过滤器对数据阅读器所传输的脏数据和多读数据进行一次局部性地过滤,再由各个局部过滤器把初步清洗的数据发送到全局过滤器,且由全局过滤器依据阅读器空间位置以及其他信息,实现包含添加漏读数据和删除多读数据以及冗余数据的进一步清洗,以提高查询效率。将Rank List结构作为索引,利用Topk数据结构有序性的特点,对不完整的数据合理利用,高效查询到前K个非常有代表性的Skyline点,将查询结果展示出来。通过实验证明,所提算法有效地过滤了冗余数据,提高了查询处理的效率,可行性较高。(本文来源于《科技通报》期刊2018年07期)
仇阿根[3](2017)在《基于分布式内存计算的空间数据近似查询处理方法》一文中研究指出地理数据交互式可视化与空间分析等是地理信息系统(Geographic Information System,GIS)应用的重要功能,而现有的地理空间数据库与地理数据服务标准难以满足实时数据可视化及空间分析的要求。根源在于空间数据库中地理要素的查询结果是精确、唯一的;查询时间和数据量只与要素本身相关;查询时地理要素无法根据条件动态生成。而在实际应用中,地理要素可以是近似(本文来源于《测绘学报》期刊2017年12期)
刘雪莉[4](2017)在《不一致弱可用数据的近似查询处理研究》一文中研究指出数据质量是数据分析结论有效性和准确性的基础,也是最重要的前提和保障。造成数据质量问题的因素有很多,数据不一致性是其中的一个重要方面。在现实世界中,由于网络的普及,应用可以从多个数据源集成数据,使得不一致数据传播愈演愈烈。不一致数据给数据查询处理带来严重挑战:数据不一致导致查询结果不准确。目前,不一致数据查询处理主要包括两种方法:一是根据质量规则检测并修复不一致数据,之后在修复数据上执行查询。第二种方法直接在不一致数据上计算满足所有可能修复的查询结果。显然,由于修复具有多种可能,第一种方法并不能保证修复的正确性;第二种方法可能丢失大量可用信息。本文将不一致数据中可矫正的不一致信息修复之后,得到存在不一致且不一致不可被正确修复的不一致弱可用数据。之后对不一致弱可用数据的查询处理展开研究。主要研究工作如下:首先,本文研究了不一致弱可用数据上近似查询的可行性判定问题。给定一个查询结果的一致性程度阈值,可行性判定判断弱可用不一致数据上查询结果的一致性程度是否大于给定的阈值。若不是,则查询结果对用户来说是没有意义的,此查询不可行。对于数据量大,查询开销较大的应用中,若能在查询之前预估查询结果的准确度,将在很大程度上节省查询开销,提高查询效率。尤其在查询密集型场景,判定查询的可行性具有重要的意义。查询可行性的判定等价于预估查询结果的一致性。本文采用抽样方法预估查询结果的一致性。抽样算法分别对一致的数据部分和不一致的数据部分采样,使得保证抽出的样本大概率下满足查询条件并且服从不一致数据的分布。根据抽出的样本,本文给出了估计一致性程度的方法,证明了一致性程度的估计是渐进无偏的。其次,本文研究了不一致弱可用数据上合取查询结果的评估问题。一个不一致数据集合可能有多种修复。一致性查询结果指的是查询结果中的每一条记录都出现在对所有的修复进行查询的结果中。然而,数据的所有修复具有指数级可能空间,即使只考虑主键约束,一致性查询也是Co NP-完全问题。更重要的是,不一致数据中也可能包含着用户需求的信息,只返回一致性查询结果丢失了查询相关的有价值数据,返回的结果可能并不能满足用户需求,但是返回全部结果又使用户对查询的准确度没有了解,从而造成错误认知,做出错误决策。因此,本文考虑,返回所有查询结果,并给定查询结果的一个一致性估计,使得用户获得查询结果的一致性程度,了解查询结果的总体特征。对于可一阶改写的查询,其结果的一致性程度可以通过改写查询计算出的结果和原始查询结果直接获得。对于不可一阶改写的查询,本文使用抽样方法给出了近似一致性判定,并证明了其一致性的估计是一个(,δ)估计。再次,本文研究了不一致弱可用数据上的聚集查询。不同于传统数据上的聚集查询,不一致弱可用数据一致性修复的不确定性使得不一致弱可用数据上的聚集结果是不确定的。由于修复可能是指数级的,若聚集操作返回所有修复下可能的值将会给用户带来很大的信息干扰。本文返回所有可能修复下聚集查询结果的范围,即聚集结果可能值的最小上界和最大下界。文中考虑MAX,MIN,SUM,COUNT,AVG五种操作类型,分析了五种操作类型范围计算的时间复杂度,对于不可在多项式时间内计算的上下界,给出了相应的近似算法。最后,本文提出了一个不一致弱可用数据查询处理的原型系统Entity Manager。导致不一致信息出现的一个常见因素是现实世界中一个实体在不同数据集中可能有不同描述形式,或者随着时间迁移,同一实体的信息发生了变化。目前处理方法主要采用实体识别技术将这些描述同一实体的元组识别出来,然后进行修复,找到一个能够代表实体各个属性的最可能值表示实体。但在实际应用中,一个实体的某一属性的值可能并不是唯一的,上述处理方法造成了可用信息的丢失。基于此,Entgity Manager系统这些描述同一实体的信息组织起来:对于属性的所有可能值,根据其出现的频率定义一个质量度,组成一个实体单元,将这些实体单元作为基本存储单元存储在系统中。由于属性值的多值及其携带质量度的特征,Entgity Manager系统中的查询不再是精确查询,本文为Entity Manager系统定义了新的查询操作,设计了类似于SQL的新的查询语言,并研究了适用于新的查询操作的查询算法以及查询优化。(本文来源于《哈尔滨工业大学》期刊2017-11-01)
谢金星,李晖,陈梅,戴振宇[5](2017)在《CSSAQP:一种基于聚类的分层抽样近似查询处理算法》一文中研究指出近似查询处理技术常被应用于海量数据的多维分析,以缩短查询执行的时间,同时返回尽可能准确的结果。由于海量数据中常存在许多极端值,会严重影响近似查询处理的结果。因此针对海量数据的聚集操作,论文提出CSSAQP算法,先将原始数据集按某一数值列直观的聚为叁类,分别代表大值簇、小值簇和常值簇,再对各簇按分组属性分别进行分层抽样,构建总体样本集,最后通过查询重写在总体样本集上执行查询,以缩短海量数据聚集操作的查询时间,同时提高查询任务的准确性。通过实验验证,证明了该算法不仅可以缩短聚集查询的时间,同时还能有效提高查询结果的精度。(本文来源于《计算机与数字工程》期刊2017年06期)
谢金星[6](2017)在《基于大数据多维分析的近似查询处理技术研究》一文中研究指出随着信息技术的蓬勃发展,大数据时代已然降临。越来越多的组织和机构希望从海量数据中挖掘有价值的信息,以支持商业决策和事务决断。多维分析技术可以从多个维度和层次对海量数据进行分析,能为企业提供有力的决策支持服务。进行多维分析时,通常需处理大规模数据集,这就要将数据不断加载到内存中,导致即使一个普通的聚集查询,也可能耗费大量的执行时间;并且在具体的业务分析中,常常只需要掌握大体的发展趋势,并不要求完全准确的结果。因此,可以将近似查询处理技术,应用到此类分析场景中。本文主要研究近似查询处理技术。首先针对大数据多维分析中聚集查询效率过低的情况,研究近似查询处理中的抽样技术,在此基础上,提出了基于聚类的分层抽样近似处理技术(CSSAQP);接着利用Hadoop平台和Hive系统设计了一个近似查询处理引擎,该引擎实现了随机抽样、分层抽样以及本文提出的抽样算法;最后通过实验验证了CSSAQP的合理性和有效性。(本文来源于《贵州大学》期刊2017-06-01)
仇阿根,刘纪平,张志然,董珍珍,马磊[7](2017)在《地理要素的分布式空间近似查询处理方法》一文中研究指出针对传统空间查询无法满足地理数据交互式可视化对处理时间要求的问题,以窗口查询为例,提出了一种空间近似查询处理方法。该方法包括预处理和查询两步:在预处理阶段,利用分布化的线简化算法对空间对象进行顾及误差的预处理采样,将采样过程及误差值用树型结构保存;在查询阶段,以豪斯多夫距离定义数据可视化的误差,进行误差可知的顶点即时采样与截取,从而实现针对可视化应用的高效的空间近似查询处理。在Hadoop集群上利用77GB的OpenStreetMap数据集进行了实验,证实了本方法的效力与效率。(本文来源于《测绘科学》期刊2017年07期)
仇阿根[8](2017)在《基于分布式内存计算的空间数据近似查询处理方法》一文中研究指出地理空间数据交互式可视化与空间分析等是GIS应用的重要功能,然而现有的地理空间数据库与地理数据服务标准(WFS、WMS、WMTS、WCS)及其实现难以满足在线实时数据可视化及空间分析的要求。根源在于空间数据库中查询地理要素的结果是精确、唯一的;查询处理时间和结果数据量只与要素本身相关;地理要素无法在查询时根据条件动态生成。而实际应用中的要求是地理要素可以是近似、变化的;查询处理时间和结果数据量可以作为查询约束条件;地理要素可以根据查询条件动态生成。本文提出以空间近似查询结果来表达地理要素,即以顶点采样实时生成要素并报告近似误差,以实现对查询处理时间和结果数据量的灵活控制。基于此,本文提出了海量空间数据集的多分辨率表达模型,设计了以分布式内存计算、顶点树型层次结构、加权广度遍历算法为基础的空间近似查询处理方法,实现了基于关系数据库的空间近似查询引擎,形成了基于空间近似查询的网络GIS架构,解决了网络GIS的交互式可视化与空间分析的功能与性能问题。利用上述框架,针对OpenStreetMap全球海岸线数据,建立了地理数据在线交互式可视化应用,验证了本文所提出的网络GIS架构的可行性及空间近似查询处理方法的实用性。具体研究内容如下:(1)基于分布式内存计算的空间近似查询理论总结了近似查询与分布式计算基础理论,根据地理要素数据特点,围绕地理数据交互式可视化与在线空间分析需求,针对空间查询结果数据量难以有效控制的问题,定义了面向交互式可视化的空间近似查询,提出了多分辨率表达模型。该模型主要通过递归细分、数据采样、应用处理、误差计算等算法步骤建立。上述步骤中计算密集型任务的分布特点,将任务分布化,提供了实现误差与数据量可控的空间近似查询基础算法与数据结构。(2)地理要素近似误差计算与顶点层次结构构建方法基于递归细分与误差计算的多分辨率表达模型,进行地理要素数据分布式内存计算处理,建立顶点树型层次结构,形成地理要素的多分辨率表达。研究面向数据可视化,地理要素数据递归细分系数为2,地理要素顶点层次结构的构建方法与存储模型,顾及误差条件的空间索引建立等。(3)地理要素近似查询算法研究以加权广度优先算法为基础的时间/数据量约束与误差约束的地理要素数据窗口近似查询处理算法,包括时间/规模约束条件下树型层次结构的加权广度优先遍历,在查询过程中组合使用近似查询约束条件与空间范围约束条件进行联合剪枝以提高效率的方法;研究关系模型的基础上查询条件与空间连接的特点运用多维索引以提高效率的方法。(4)地理要素顶点层次结构动态更新算法研究根据地理要素连续更新的特点,研究基于最小化代价函数的顶点层次更新算法。以关系模型下顶点层次结构为基础,研究代价最小的顶点层次结构局部更新方法,分析顶点序列的插入、删除、修改等操作的计算复杂度及I/O复杂度,研究不同的顶点层次结构构建参数对于动态化更新算法的影响。(5)海岸线数据实证研究提出基于空间近似查询引擎的网络GIS架构,实现了地理数据交互式可视化原型系统,针对OpenStreetMap海岸线数据,建立了海岸线数据的顶点层次化数据库,完成了地理要素的交互式可视化,并对实验结果进行了对比分析,验证了本文方法的高效性。(本文来源于《武汉大学》期刊2017-05-01)
王永阁,郑吉平,王海翔[9](2016)在《不确定场境下近似Skyline查询处理算法》一文中研究指出近年来,不确定Skyline查询成为当前不确定数据查询研究的一个重要方面.Skyline查询结果通常与用户的偏好相关,而用户的偏好往往受当前场境的影响,并且现实中的场境往往来源于感知设备,具有不确定性.首次提出了不确定场境偏好可能世界语义建模下启发式算法和基于Monte Carlo思想的近似Skyline查询算法.首先,采用可能世界语义模型对不确定场境下偏好进行建模,并提出不确定场境下Skyline查询语义;其次,由于不确定场境下偏好构成的可能世界实例过于庞大,精确Skyline算法ESA是#P问题,提出LHSA和C&T两种启发式Skyline算法,从而大量裁减不满足最终结果的可能世界实例;进而,为了在保证用户指定精度的基础上提高Skyline查询效率提出了两种Monte Carlo近似算法:两阶段Monte Carlo近似算法PMA和改进的两阶段Monte Carlo近似算法MPMA;最后,通过实验对比5种算法,表明LHSA和C&T可以裁减大量可能世界实例,同时在确保精度的前提下,PMA和MPMA比启发式算法更有效,并且MPMA算法优于PMA算法.(本文来源于《小型微型计算机系统》期刊2016年04期)
刘骁,刘辉平,金澈清[10](2017)在《面向不确定数据流的近似ER-Topk查询处理》一文中研究指出随着移动互联网的快速发展以及信息技术的普遍应用,在许多应用中都产生了海量、不确定性数据,包括金融、军事、位置服务、医疗以及气象等。然而,传统的确定性数据管理方法很难管理不确定数据,亟需开发新型数据管理方法。可能世界模型被广泛用于为不确定数据建模,通过该模型可以衍生出诸多确定性的可能世界实例。不确定性数据流是指高速到达的海量不确定元组序列,因而不确定数据流管理比不确定性静态数据管理更具挑战性。面向于不确定数据流的ER-Topk查询是一个典型问题,但是处理复杂度高。提出一种近似算法来处理该查询,具有较小的空间复杂度;同时,还通过搜索策略优化来进一步提升查询处理效率。实验结果验证了所提方法的有效性和高效性。(本文来源于《计算机工程与应用》期刊2017年04期)
近似查询处理论文开题报告范文
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
当前的不完整数据查询处理算法没有将冗余数据和脏数据清洗,而且寻优过程缓慢,不利于数据查询结果的快速展示。提出将各数据阅读器和各局部过滤器连接,利用局部过滤器对数据阅读器所传输的脏数据和多读数据进行一次局部性地过滤,再由各个局部过滤器把初步清洗的数据发送到全局过滤器,且由全局过滤器依据阅读器空间位置以及其他信息,实现包含添加漏读数据和删除多读数据以及冗余数据的进一步清洗,以提高查询效率。将Rank List结构作为索引,利用Topk数据结构有序性的特点,对不完整的数据合理利用,高效查询到前K个非常有代表性的Skyline点,将查询结果展示出来。通过实验证明,所提算法有效地过滤了冗余数据,提高了查询处理的效率,可行性较高。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
近似查询处理论文参考文献
[1].张安珍.弱可用数据近似聚集查询处理问题研究[D].哈尔滨工业大学.2019
[2].王伟贤,张禄,田贺平,陈振.不完整数据高效近似查询处理算法[J].科技通报.2018
[3].仇阿根.基于分布式内存计算的空间数据近似查询处理方法[J].测绘学报.2017
[4].刘雪莉.不一致弱可用数据的近似查询处理研究[D].哈尔滨工业大学.2017
[5].谢金星,李晖,陈梅,戴振宇.CSSAQP:一种基于聚类的分层抽样近似查询处理算法[J].计算机与数字工程.2017
[6].谢金星.基于大数据多维分析的近似查询处理技术研究[D].贵州大学.2017
[7].仇阿根,刘纪平,张志然,董珍珍,马磊.地理要素的分布式空间近似查询处理方法[J].测绘科学.2017
[8].仇阿根.基于分布式内存计算的空间数据近似查询处理方法[D].武汉大学.2017
[9].王永阁,郑吉平,王海翔.不确定场境下近似Skyline查询处理算法[J].小型微型计算机系统.2016
[10].刘骁,刘辉平,金澈清.面向不确定数据流的近似ER-Topk查询处理[J].计算机工程与应用.2017