导读:本文包含了多最小支持度论文开题报告文献综述及选题提纲参考文献,主要关键词:大数据,频繁项集,关联规则,多最小支持度
多最小支持度论文文献综述
梁杨,钱晓东[1](2019)在《多最小支持度关联规则改进算法》一文中研究指出由于大数据具有多样性的特点,在数据挖掘过程中采用单一最小支持度会出现较多冗余规则,造成挖掘效率不高等问题,该文提出一种基于多最小支持度关联规则改进算法.通过给每一项目设置单独的支持度阈值,构建多最小支持度模式树,利用最小频繁项目作为节点筛选标准,进行冗余节点删除;在挖掘频繁项集的过程中利用排序向下闭合的性质,删除冗余的候选项集,同时能够自动停止向下挖掘,从而快速直接地得到所有频繁项集,并且不需要多次扫描数据库.实验结果表明,改进算法能够提高挖掘效率,节省计算时间.(本文来源于《西南大学学报(自然科学版)》期刊2019年07期)
魏恩超[2](2019)在《基于紧凑模式树和多最小支持度的频繁模式挖掘算法研究》一文中研究指出大数据时代最典型的特征是“数据爆炸,信息匮乏”,因此对数据的分析挖掘提出了更高的要求。数据挖掘旨在把隐藏在海量且杂乱数据背后的知识和信息提取出来,并归纳出隐含在其中的内在规律,为后续决策做出科学性地指导。频繁模式挖掘作为数据挖掘过程中最基本和最关键的步骤,一直以来都是最热门的研究领域之一,许多学者都对其进行了深入研究,但仍有许多问题亟待解决与完善。本文在单支持度和多支持度频繁模式挖掘算法的基础上,对频繁模式挖掘算法进行了相应改进。具体研究内容和研究成果如下:(1)提出了一种基于改进紧凑模式树的Apriori频繁模式挖掘算法ICP-tree。首先,在Apriori算法的连接步前加入连接预处理操作,控制参与自连接的频繁项集的数量,约减生成的候选项集的数量;其次,将紧凑模式树(CP-tree)进行扩展,构造了一个新的树结构ECP-tree,新的树结构只需对数据库进行一次遍历,且能有效处理数据流问题;然后,将改进点与APFT算法结合,用于挖掘频繁模式;最后,通过对两种不同类型的数据集进行实验,将ICP-tree算法与Apriori算法、FP-growth算法、APFT算法以及文献60提出的算法进行对比分析。实验结果验证了ICP-tree算法的有效性。(2)提出了一种改进的多最小支持度频繁模式挖掘算法IMISFP-growth。首先,在构造树之前对事务数据库中的项进行预处理,删除那些支持度小于多最小支持度最小值的项,利用余下的频繁项构造多项支持度树;然后,提出了一种基于交叉规则构造多项支持度树的新方法,该方法不再使用某一特定标准排列项生成树,而是在每次输入新事务项集时通过事务求交原理构造树;最后,将IMISFP-growth算法与CFP-growth++算法在五种不同的数据集上进行实验对比。实验结果表明,IMISFP-growth算法在运行时间、内存消耗以及可扩展性方面均优于CFP-gro wth++算法。(本文来源于《西安理工大学》期刊2019-06-30)
郝天鹏[3](2017)在《基于同类项的多最小支持度和并行计算的频繁模式挖掘研究》一文中研究指出随着信息技术的飞速发展,信息量的爆炸式增长成为了人们必须要面对的机遇与挑战。因此,如何在这些庞大信息中获取对自己有用的信息便成为了一个值得研究和探讨的话题。数据挖掘算法是处理数据库中大量数据,并在这些数据中提取有价值信息的一项新技术。其中,频繁模式挖掘算法在数据挖掘中占有十分重要的地位。但是,传统的频繁模式挖掘算法在一定程度上都存在缺点与不足。本文针对这些问题,提出了两种改进算法。主要研究内容如下:1.简单介绍数据挖掘的相关概念,概述国内外对数据挖掘的研究现状,以及关联规则挖掘的相关概念和经典算法。2.为了解决频繁模式挖掘算法在挖掘过程中需要耗费大量的时间与内存的问题,首先借鉴了集合枚举树的结构,并从枚举树中使用多最小支持度来降低时间、内存消耗。但是,当事务数据库中事务项数特别庞大时,对每个项都定义一个唯一的最小支持度阈值显然是不科学的。针对上述问题,我们提出了基于同类项的多最小支持度频繁模式挖掘算法,该算法首先对数据库事务划分同类项,然后对划分的每个类赋予唯一的最小支持度阈值,最后使用向下封闭属性排序和LCMS(类的最最小支持度)概念来有效地修剪搜索空间,从而给出了FP-CME算法。该算法在挖掘过程中不需要生成条件候选树,并可以直接从集合枚举树中发现想要的频繁模式。经仿真实验,该算法在执行时间、内存使用方面较传统算法有较大的提高。3.频繁模式增长算法(FP-growth)是频繁模式挖掘中最经典的算法之一,但FP-growth算法也存在问题:当在大规模数据环境下挖掘时,它生成的FP树过于复杂,其结果就是构建FP-tree困难以及挖掘效率低下。针对上述问题,我们提出了基于多最小支持度的并行优化的POFP-growth算法。该算法共分为两个步骤,第一步,对原数据库事务项进行分类,划分出多个类并赋予类标号和唯一支持度阈值。然后对数据库数据进行共享前缀处理,接着将事务数据库水平分割为N部分,然后并行构建局部数据库的FP-tree,最后使用内部级联接方法组合所有局部FP-tree得到完整FP-tree。第二步,在多最小支持度阈值的约束下使用项合并策略挖掘完整FP-tree中的频繁项集。通过仿真实验可知,提出的算法在执行时间有一定的提高。(本文来源于《青岛理工大学》期刊2017-12-01)
陈星星[4](2017)在《基于多最小支持度关联规则的电子商务推荐系统的研究与实现》一文中研究指出随着互联网技术的高速发展,数据开始呈指数式的增长,用户在海量的信息中越来越难找到自己所需要的信息。因此,如何在海量的数据中快速的找到自己所需要的信息,这将成为电子商务推荐系统的一个重要研究内容。本文从商品推荐系统的研究背景、研究意义和研究现状开始研究,对推荐系统中常用的算法以及所面临的问题进行深入研究。由于关联规则算法是电子商务推荐系统中应用较为成功的算法,所以本文采用了关联规则算法作为推荐系统的推荐算法。但在实际的运用情况下,传统关联规则挖掘算法存在支持度阈值设置单一、设置难和算法运行效率低下等问题。本文提出了针对FP-growth算法的改进方案,提出了基于多项目支持度树结构和支持度数组结合的关联规则挖掘算法,并且给出了改进关联规则算法的实现过程以及代码的具体实现。同时,本文还针对了单一的关联规则算法难以满足复杂推荐系统的应用,提出了结合数据分层和基于用户兴趣Top-N推荐策略的方法,有效解决数据“规则爆炸”的问题,从而提高推荐系统的运行效率。由于数据量大,对数据的处理需要较长的时间开销,传统的数据处理技术难以满足快速完成大规模的数据处理要求。因此,本文还使用Hadoop作为技术手段,实现高效的电子商务推荐系统。本文将商城的数据作为数据源,使用准确率和覆盖率评价标准来对系统进行测试,实验结果表明该推荐模型在推荐结果的准确性方面有明显的提高,并且保证每个商品种类的覆盖率均达到90%以上。最后,基于理论研究和实验测试,讨论了电子商务推荐系统的架构和实现方法,使用JavaEE的框架和B/S模式搭建推荐系统,系统包含后台管理系统和在线推荐系统两大模块,分别实现数据的处理与在线推荐的功能,从而验证了该推荐系统的可行性及应用性。(本文来源于《暨南大学》期刊2017-05-01)
柴岩,张京辉,鲁新新[5](2016)在《最小支持度为区间值的加权Apriori算法》一文中研究指出为解决经典Apriori算法中最小支持度设定不当和数据库中各项目的重要程度不易给出的问题,采用区间量化方法计算出最小支持度满足的一个区间,用区间值代替单一的最小支持度.并根据引入的可能度概念对改进算法进行剪枝的策略,提出项目权重和最小支持度都为区间值的加权关联规则挖掘算法.通过UCI上的数据集对比改进算法和经典算法的性能.研究结果表明:改进算法解决了最小支持度设定过高或过低所带来的问题,并提高了算法的运行速度及有效率.(本文来源于《辽宁工程技术大学学报(自然科学版)》期刊2016年12期)
王海波,张永田,吴升[6](2016)在《基于数据立方体的多最小支持度关联规则在犯罪分析中的应用》一文中研究指出为了快速获取候选项集的支持度,避免频繁访问数据库而造成效率低下的问题,在MSapriori算法的基础上引入数据立方体,提出DC_MSapriori算法。该算法无需多次扫描事务数据库,减少了I/O操作,降低了搜索开销。实验基于福州市鼓楼区各大医院周边的案事件数据,快速挖掘出犯罪时空模式,验证了算法的有效性。(本文来源于《测绘科学技术学报》期刊2016年04期)
张京辉[7](2015)在《最小支持度为区间值的加权Apriori算法》一文中研究指出为解决经典Apriori算法运行速度慢及最小支持度设定问题,改进了经典算法多次扫描数据库及人为设定最小支持度的方法.针对计算项目集的支持度时需要将数据库进行多次扫描并且在计算强关联规则时,需要计算所有规则的置信度降低了算法的运行效率问题.提出了将频繁项集用位串保留下来的方法,减少了扫描数据库的次数,并根据关联规则的性质减少了计算规则置信度的次数,从而降低了改进算法的运行时间.针对最小支持度不易设定和数据库中项目的权重不易给出的问题,应用区间量化方法提出了项目权重和最小支持度都为区间值的加权关联规则挖掘算法.数值实验表明:算法运行的时间和效率均有效提高.(本文来源于《辽宁工程技术大学》期刊2015-12-01)
赵林莉,杨晓光[8](2015)在《基于Hadoop的多最小支持度关联规则挖掘研究》一文中研究指出本文对关联规则挖掘中的基于多最小支持度模型的MS-Apriori算法进行了介绍,并且对MS-Apriori算法展开分析,针对该算法在单机串行模式下运行效率较低的问题提出改进方案,该方案主要依托云计算技术,基于hadoop平台。算法经过改进,可实现数据的分布式和并行化处理,提高了传统关联规则算法的执行效率。(本文来源于《数字技术与应用》期刊2015年10期)
王金[9](2015)在《基于多最小支持度的关联规则挖掘研究》一文中研究指出随着社会的发展和进步,数据库中的数据量越来越大。如何从海量的数据中找到自己所需要的规则已经成为了人们不得不面对的问题。在大量的数据里挖掘我们所需要的规则是非常繁琐的,一方面由于在现实社会中,我们得到的数据往往是缺失部分值的,这对于规则的挖掘非常不利,另一方面,数据库中的条件属性有些对于决策的得出是不必要的,不需要进行考虑的,多余属性的存在一定程度上使规则的挖掘更加麻烦。同时,目前针对关联规则的挖掘大部分使用的是单最小支持度,这不利于实际的应用。针对上述存在的问题,本文将粗糙集理论中的不完备信息系统完备化、属性约简与关联规则挖掘相结合,进行了基于多最小支持度的关联规则挖掘研究。主要研究内容如下:1.简单介绍了粗糙集与关联规则的相关理论,以及关联规则挖掘问题的国内外研究现状,并对其进行了相应研究。2.在原Apriori算法的基础上结合黄金比例进行改进,得出基于黄金比例的关联规则挖掘算法。改进算法解决了最小支持度过于单一的问题,通过仿真实验证明该算法可以有效提高挖掘关联规则的效率。3.针对不完备信息系统中关联规则的挖掘,本文对相关的传统算法进行了改进。首先,从不完备信息系统中对完备的数据进行抽样,设定较高的支持度阈值后,运用基于黄金比例的关联规则挖掘算法对抽样后的数据进行挖掘,得出其中的频繁项集。之后,借助频繁项集按照一定的规则对不完备数据进行完备化与属性约简,得到新的信息系统。最后,通过改良算法对新的信息系统进行挖掘,得出不完备信息系统中的关联规则。仿真实验分析表明,组合算法实际运行可行,且与其他算法相比,本文所提组合算法显着提高了在不完备信息系统中挖掘关联规则的效率。目前针对完备信息系统的关联规则挖掘已有较多的研究成果,但在不完备信息系统中的关联规则挖掘研究较少,同时本文通过挖掘关联规则来对不完备信息系统进行完备化与属性约简,为以后的研究提供了可能的方向。(本文来源于《青岛理工大学》期刊2015-06-01)
王立俊[10](2015)在《基于多重最小支持度的髙效用频繁项集挖掘算法研究》一文中研究指出频繁项集挖掘是数据挖掘领域的重要研究方向之一,但是传统的频繁项集挖掘算法只考虑项集的支持度,这使得在挖掘过程中丢失一些用户感兴趣的项集。此外,由于数据流具有实时性、无限性和连续性的特性,这就要求在数据流环境中的频繁项集挖掘算法具有较高的时间和空间效率。本文对多重最小支持度和高效用项集挖掘算法问题进行描述,在数据结构和处理方法上,对目前已有的频繁项集和高效用项集挖掘算法的优缺点进行分析和总结,在此基础上做了以下研究工作:(1)在静态数据集中,针对现有的多重最小支持度挖掘算法会产生大量的中间候选集,增加了时间和内存的开销,且没有考虑项集的效用值等问题。本文利用多重最小支持度和效用值,构造了数据结构MHU-Tree,并提出用于修剪构造过程中全局MHU-Tree的PG策略和用于修剪挖掘过程中局部MHU-Tree的PL策略。在此基础上,提出了基于多重最小支持度的高效用频繁项集挖掘算法MHU-Growth,较大地减少中间候选项集的数量,快速地挖掘高效用频繁项集。通过与经典算法CFP-Growth++进行对比,验证了MHU-Growth算法在运行时间、候选项集产生的数量以及内存开销等性能上优于CFP-Growth++算法。(2)在数据流环境中,现有的高效用项集挖掘算法需要多次扫描数据库,而对用户来说,效用阂值难设置,过高或过低都会影响挖掘效果。针对这些问题,本文结合多重最小支持度和效用值,构造适用于数据流挖掘的数据结构TKHUF-Tree和构建存储效用信息的矩阵PMD和RMD,并提出PEU、RTS等阈值调整策略来自动调整效用阈值的大小,减少中间候选项集的产生数量以及数据库扫描次数。(3)在TKHUF-Tree的基础上,提出了top-k高效用频繁项集数据流挖掘算法TKHFDS,它利用滑动窗口模型来处理数据流数据,并提出minTKUtil策略来调整下一个窗口的效用阂值,快速、有效地挖掘出高效用频繁项集。最后,将算法TKHFDS与传统算法TKU及T-HUDS进行对比,实验验证了TKHFDS算法在时间和内存开销等性能上的有效性。(本文来源于《广西大学》期刊2015-06-01)
多最小支持度论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
大数据时代最典型的特征是“数据爆炸,信息匮乏”,因此对数据的分析挖掘提出了更高的要求。数据挖掘旨在把隐藏在海量且杂乱数据背后的知识和信息提取出来,并归纳出隐含在其中的内在规律,为后续决策做出科学性地指导。频繁模式挖掘作为数据挖掘过程中最基本和最关键的步骤,一直以来都是最热门的研究领域之一,许多学者都对其进行了深入研究,但仍有许多问题亟待解决与完善。本文在单支持度和多支持度频繁模式挖掘算法的基础上,对频繁模式挖掘算法进行了相应改进。具体研究内容和研究成果如下:(1)提出了一种基于改进紧凑模式树的Apriori频繁模式挖掘算法ICP-tree。首先,在Apriori算法的连接步前加入连接预处理操作,控制参与自连接的频繁项集的数量,约减生成的候选项集的数量;其次,将紧凑模式树(CP-tree)进行扩展,构造了一个新的树结构ECP-tree,新的树结构只需对数据库进行一次遍历,且能有效处理数据流问题;然后,将改进点与APFT算法结合,用于挖掘频繁模式;最后,通过对两种不同类型的数据集进行实验,将ICP-tree算法与Apriori算法、FP-growth算法、APFT算法以及文献60提出的算法进行对比分析。实验结果验证了ICP-tree算法的有效性。(2)提出了一种改进的多最小支持度频繁模式挖掘算法IMISFP-growth。首先,在构造树之前对事务数据库中的项进行预处理,删除那些支持度小于多最小支持度最小值的项,利用余下的频繁项构造多项支持度树;然后,提出了一种基于交叉规则构造多项支持度树的新方法,该方法不再使用某一特定标准排列项生成树,而是在每次输入新事务项集时通过事务求交原理构造树;最后,将IMISFP-growth算法与CFP-growth++算法在五种不同的数据集上进行实验对比。实验结果表明,IMISFP-growth算法在运行时间、内存消耗以及可扩展性方面均优于CFP-gro wth++算法。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
多最小支持度论文参考文献
[1].梁杨,钱晓东.多最小支持度关联规则改进算法[J].西南大学学报(自然科学版).2019
[2].魏恩超.基于紧凑模式树和多最小支持度的频繁模式挖掘算法研究[D].西安理工大学.2019
[3].郝天鹏.基于同类项的多最小支持度和并行计算的频繁模式挖掘研究[D].青岛理工大学.2017
[4].陈星星.基于多最小支持度关联规则的电子商务推荐系统的研究与实现[D].暨南大学.2017
[5].柴岩,张京辉,鲁新新.最小支持度为区间值的加权Apriori算法[J].辽宁工程技术大学学报(自然科学版).2016
[6].王海波,张永田,吴升.基于数据立方体的多最小支持度关联规则在犯罪分析中的应用[J].测绘科学技术学报.2016
[7].张京辉.最小支持度为区间值的加权Apriori算法[D].辽宁工程技术大学.2015
[8].赵林莉,杨晓光.基于Hadoop的多最小支持度关联规则挖掘研究[J].数字技术与应用.2015
[9].王金.基于多最小支持度的关联规则挖掘研究[D].青岛理工大学.2015
[10].王立俊.基于多重最小支持度的髙效用频繁项集挖掘算法研究[D].广西大学.2015