导读:本文包含了算法数据仓库论文开题报告文献综述及选题提纲参考文献,主要关键词:数据仓库,数据质量,实体解析,自主学习
算法数据仓库论文文献综述
刘叶,吴晟,吴兴蛟,周海河,李英娜[1](2018)在《数据仓库下基于学习的并行实体解析算法研究》一文中研究指出为了改善传统实体解析算法在单机环境下采用人为方式设定属性权值及阈值难以对海量数据进行快速有效处理的缺点,基于Hadoop框架使用MapReduce计算模型,在多节点分布式环境下,通过不断调整网络学习属性之间的内在关系以及属性权值、阈值等参数后,再将模型放在Hive数据仓库中的真实数据集上进行有效性验证。分别使用5 000及9 000条数据进行实验,实验结果表明,基于学习的并行实体解析算法准确率、召回率和F1值较高。因此,基于学习的并行实体解析算法对于海量数据不仅能进行快速有效的处理,而且能有效降低人工经验中存在的误差,同时也能提高识别结果的准确度,提升识别效率。(本文来源于《软件导刊》期刊2018年02期)
孙国营,伍晓平,龙尚银[2](2016)在《数据仓库和关联算法在煤矿隐患挖掘中的应用》一文中研究指出为了能够根据煤矿隐患数据发现有效知识,运用数据仓库存储煤矿隐患数据,利用关联算法挖掘煤矿隐患参数数据,挖掘出强关联规则,通过对挖掘出的强关联规则的分析,对煤矿安全生产起到较好的指示作用。(本文来源于《福建电脑》期刊2016年04期)
蒋国唯[3](2016)在《数据仓库中物化视图选择和维护算法研究与改进》一文中研究指出数据仓库作为一个数据集合,具有面向主题、集成、反映历史变化、相对稳定的特点,它的内容来自各种异构数据库的集成数据。数据仓库的本质是一个非常大的数据存储,但是面向主题的数据组织方式不同于普通数据库。作为决策支持数据模型的物理实现,运行之上的应用主要有联机分析处理和数据挖掘。数据仓库中的查询越发困难,是基于它庞大的数据量和复杂的结构,且即席查询耗用时间很长。物化视图技术就是为了提高查询分析效率,它的思想是把查询结果提前计算出来并以视图形式物理存储。在现实应用中,物化哪些视图需要考虑存储和查询代价以及视图维护代价等因素。本文使用多维数据格组织视图,并提出了查询维护代价模型,即满足给定存储空间限定条件下选取查询代价与维护代价之和最小的物化视图集。通过预处理算法得到候选视图集,然后根据代价模型计算出候选视图集合中视图的代价。改进了基于遗传算法的物化视图选择算法,采用一种混合策略的选择算子,并根据适应度集中程度自适应调整种群的交叉概率。和经典遗传算法比较,改进算法不仅降低了搜索视图的成本,而且还使得数据仓库的查询效率加快。物化视图虽然有效地提高了系统对用户查询响应速度,但也带来了物化视图的维护问题。物化视图中的内容是查询基础数据产生的,这些基础数据来自其他独立的异构数据源,如果数据仓库的数据源端发生变化,物化视图中的数据也应作相应改变,和原始数据保持同步。如何保证两者内容的同一性,成了数据仓库研究领域中非常关键和难以解决的技术问题。本文在分析现有常用物化视图维护算法的基础上,重点研究了基于更新频率分组的维护算法,并在此基础上改进了算法。针对每组中基础表增量的大小升序排序,并按此顺序进行物化视图的更新。该算法经实验验证提高了物化视图的维护效率。(本文来源于《河北经贸大学》期刊2016-03-01)
刘珊,赵保亚,刘健[4](2016)在《基于数据融合算法的危险品仓库智能实时监测系统研究》一文中研究指出本文以危险品仓库监测为背景,通过对现存仓储环境监测方式进行总结,提出一种基于虚拟仪器的智能实时监测系统,利用数据融合算法,实现多路传感器大量数据的有效处理,实现系统功能。(本文来源于《北华航天工业学院学报》期刊2016年01期)
魏革[5](2015)在《基于Web条件下数据挖掘算法与数据仓库的接口设计与实现》一文中研究指出随着社会经济的快速发展,数据仓库和数据挖掘研究行业的发展也越来越快。现阶段,这方面的研究热点,也已经集中在对于数据库的分析技术方面,比如对数据仓库数据挖掘等方面。该文首先对数据仓库系统做了概述;而后,对数据挖掘进行了描述;最后,对基于Web的数据挖掘算法与数据仓库接口的设计与应用做了详细的概述。(本文来源于《电脑知识与技术》期刊2015年35期)
贾骐玮[6](2015)在《基于Hive的数据仓库变更数据更新算法研究》一文中研究指出面临着大数据时代的到来,企业间的竞争已经不仅仅局限于业务层面的激烈摩擦,特别是在电子商务等新兴互联网领域,如何深层次的利用数据仓库以科学的方法进行企业战略决策成为当前业内的研究重点。在数据仓库中,随着企业业务线的发展变化,势必会面临着数据仓库中对变更数据进行更新的问题,在数据仓库中对数据进行更新的主要难点是缓慢变化维问题,这也是数据仓库建设和运行中面临的主要问题之一。基于以上背景,本文做了以下工作:1,本文对数据仓库变更数据更新问题的2个核心点,即抽取模式问题和缓慢变化维问题进行了分析,给出了每种方法所适合的业务需求环境,使得本文对数据仓库变更数据更新问题的分析具有适用性和灵活性,并给出了数据关联的一种优化方式。2,本文对传统的数据仓库变更数据更新算法进行分析后,发现传统算法有着严重的缺陷,例如:算法对数据的利用效率低、数据不能回溯、难以保留历史数据变化信息等等。并以此为依据给出了数据仓库变更数据更新问题的解决方向。3,在结合了以上2点的工作后,本文提出了基于Hive的内外表变化筛选日志数据配合拉链表数据更新的算法。该算法首先利用Hive外部表和Hive内部表对数据仓库ODS层中的Binlog日志数据进行以目标表名和时间为分区依据的筛选,从而得到了所需求的时间段的变更数据Binlog日志快照表,进而也就得到了变更数据快照表。然后该算法以之前得到的变更数据快照表为依据,利用Hive拉链表对目标表历史数据进行更新,利用了拉链表算法给予数据生命周期的特性再额外加上数据状态判断字段,这样既保证了对数据的历史变化信息的记录又可以高效的对最新数据进行查找,从而完美的解决了传统算法的不足。4,以电子商务团购领域数据为实验数据,对基于Hive的内外表变化筛选日志数据配合拉链表数据更新的算法的3个主要性能点,即数据使用效率、数据安全回溯、记录数据历史信息进行了实际测试,并根据测试结果详细的分析了本文提出的方法同传统的数据仓库变更数据更新方法相比较的优缺点。(本文来源于《西安电子科技大学》期刊2015-12-01)
张弘毅[7](2015)在《银行业中数据仓库的设计及数据挖掘算法的实现》一文中研究指出随着全球互联网经济的迅速发展,互联网金融、网络购物、网上银行等电子商务的发展势头迅猛。尤其是中国经济蓬勃增长的今天,银行客户服务环节正经历着严峻的挑战。由于外资银行抢先一步收到网络革命的洗礼,在进入中国市场之后,在电子化、网络化银行方面比中国银行显示出更为优秀的潜质。拥有全球相当大市场份额的中国互联网金融市场,面对外资银行的冲击,面临严峻的挑战。另一方面,计算机相关技术的迅猛发展,使得数据仓库(DW)、数据挖掘(DM)等数据分析类技术日趋成熟。同时,面对我国金融领域进一步面向全球开放,银行业内的竞争趋势日显突出,而在此竞争过程中,信息化成熟度的影响尤为重要。银行业中,信息化的过程分为业务信息化阶段、大数据集中阶段和数据处理阶段。据今年各大银行年报分析,大多数银行现已完成大数据集中阶段。从客户层面考虑,银行为了更好的向客户提供服务,自然地选择了数据仓库及数据挖掘技术做为数据处理以及之后服务客户的技术支撑平台。对于目前大部分银行的业务,现已可以完成数据仓库高效地记录、统计、更改、查询客户数据环节。然而,为了深层次地挖掘客户信息,更好的向客户提供服务,目前各银行无法挖掘分析出数据中存在的关系,以及各客户数据属性贱的规则,更无法根据现有的客户数据进行分类分析,以致无法准确判断客户的消费需求。本文依托互联网金融的大环境,针对银行业中存在的大数据无法深度挖掘的现状,首先在数据仓库ETL整体流程中的数据转换模块,对进行处理后的源数据进行优化,提出了更优的KNN*算法,在进行数据挖掘的步骤前对数据进行了进一步的整理与筛选。接下来提出了银行数据在数据挖掘方面算法优化的观点,利用双重优化的Pro—Apriori决策树算法,对数据进行分类挖掘之后再进行预测判断,从而更便捷的处理银行业大数据中知识获取的难题。论文对我国银行领域实施部署行业级数据仓库、结构化数据挖掘技术、金融产品规划、完善客户分类、市场需求动态分析、加强客户关系管理、市场销售分析等各个方面有一定的指导性建议和借鉴意义。(本文来源于《中国地质大学(北京)》期刊2015-05-01)
张治坤,吴小朋,邢承杰,邓昌明,袁玲[8](2015)在《立方体外壳片段算法在财务数据仓库中的应用》一文中研究指出高校管理数据涉及的主题众多,其中财务数据仓库是典型的高维应用情形.财务数据对精度要求极高,不允许数据的丢失,这些特点都将影响财务数据仓库中数据立方体预计算算法的选择.分析了各种立方体预计算算法的特点和适用范围,同时研究了财务数据仓库的特殊性质和需求,以高校科研财务数据仓库为基础,提出了科研财务数据仓库事实星座模型.根据对数据立方体预计算算法的分析,分别使用立方体外壳和立方体外壳片段算法进行物化操作,提出立方体外壳片段算法是一种比较适合财务数据仓库的数据立方体预计算算法,并通过性能分析实验证明了该算法能在预计算时间、存储空间和联机分析处理效率等各方面取得较好的平衡.(本文来源于《华东师范大学学报(自然科学版)》期刊2015年S1期)
沈炳华[9](2014)在《数据仓库ETL任务调度的一种改进算法》一文中研究指出本文提出了一种基于遗传算法的ETL任务调度改进算法。由于ETL调度子任务之间具有先后顺序的限制,传统遗传算法不能很好的适应。本文通过对传统遗传算法的各个步骤进行相应处理,得到一种改进的ETL任务调度算法;实际应用结果表明调度算法显着提高了处理ETL子任务的效率。(本文来源于《无线互联科技》期刊2014年11期)
张治坤,吴小朋,邢承杰,邓昌明,袁玲[10](2014)在《立方体外壳片段算法在财务数据仓库中的应用》一文中研究指出高校管理数据涉及的主题众多,其中财务数据仓库是典型的高维应用情形。财务数据对精度要求极高,不允许数据的丢失,这些特点都将影响财务数据仓库中数据立方体预计算算法的选择。分析了各种立方体预计算算法的特点和适用范围,同时研究了财务数据仓库的特殊性质和需求,以高校科研财务数据仓库为基础,提出了科研财务数据仓库星形模型。根据对数据立方体预计算算法的分析,分别使用立方体外壳和立方体外壳片段算法进行物化操作,提出立方体外壳片段算法是一种比较适合财务数据仓库的数据立方体预计算算法,并通过性能分析实验证明了该算法能在预计算时间、存储空间和联机分析处理效率等各方面取得较好的平衡。(本文来源于《中国高等教育学会教育信息化分会第十二次学术年会论文集》期刊2014-11-13)
算法数据仓库论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
为了能够根据煤矿隐患数据发现有效知识,运用数据仓库存储煤矿隐患数据,利用关联算法挖掘煤矿隐患参数数据,挖掘出强关联规则,通过对挖掘出的强关联规则的分析,对煤矿安全生产起到较好的指示作用。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
算法数据仓库论文参考文献
[1].刘叶,吴晟,吴兴蛟,周海河,李英娜.数据仓库下基于学习的并行实体解析算法研究[J].软件导刊.2018
[2].孙国营,伍晓平,龙尚银.数据仓库和关联算法在煤矿隐患挖掘中的应用[J].福建电脑.2016
[3].蒋国唯.数据仓库中物化视图选择和维护算法研究与改进[D].河北经贸大学.2016
[4].刘珊,赵保亚,刘健.基于数据融合算法的危险品仓库智能实时监测系统研究[J].北华航天工业学院学报.2016
[5].魏革.基于Web条件下数据挖掘算法与数据仓库的接口设计与实现[J].电脑知识与技术.2015
[6].贾骐玮.基于Hive的数据仓库变更数据更新算法研究[D].西安电子科技大学.2015
[7].张弘毅.银行业中数据仓库的设计及数据挖掘算法的实现[D].中国地质大学(北京).2015
[8].张治坤,吴小朋,邢承杰,邓昌明,袁玲.立方体外壳片段算法在财务数据仓库中的应用[J].华东师范大学学报(自然科学版).2015
[9].沈炳华.数据仓库ETL任务调度的一种改进算法[J].无线互联科技.2014
[10].张治坤,吴小朋,邢承杰,邓昌明,袁玲.立方体外壳片段算法在财务数据仓库中的应用[C].中国高等教育学会教育信息化分会第十二次学术年会论文集.2014