导读:本文包含了频繁闭项集论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:频繁,概率,数据流,数据挖掘,不确定,数据,算法。
频繁闭项集论文文献综述
王金伟,吴少华,瞿治国[1](2019)在《CFMoment:挖掘数据流频繁闭项集算法》一文中研究指出在数据流上挖掘频繁闭项集是数据挖掘中关联性挖掘的重要研究课题之一.该文提出了一种高效的数据流频繁闭项挖掘算法——CFMoment,通过使用滑动窗口不断维护数据流中的频繁闭项集,可适用于实时性要求较高的多种数据流处理应用环境.该算法利用项目的有效比特序列表示来减少滑动窗口所需的时间和内存,进一步提升了在数据流中挖掘频繁闭项集的效率并有效降低了运行过程中的内存需求.实验表明,该算法不仅获得了高精度的挖掘结果,而且其运算速度明显快于现有的Moment算法,在数据流上挖掘频繁闭项集的内存消耗更少.(本文来源于《应用科学学报》期刊2019年03期)
郑文彬,何秋红[2](2018)在《基于区间概念格的频繁闭项集挖掘算法》一文中研究指出传统的频繁闭项集挖掘算法计算过程过于繁琐复杂,耗费时间较长,计算结果不准确.为了解决这一问题,基于区间概念格研究了一种新的频繁闭项集挖掘算法,给出了计算公式,对算法的操作流程进行设计,共分为设计预定代码、小概念层次筛选操作定位、分析和处理子集数据以及建立数据关联.为检验设计算法的可行性,与传统频繁闭项集挖掘算法进行了对比,设计了对比实验,由实验结果可知,相较于传统算法,基于区间概念格的频繁闭项集挖掘算法计算过程更加简单,耗时更短,准确性更高,具有广阔的市场发展空间.(本文来源于《内蒙古民族大学学报(自然科学版)》期刊2018年06期)
牛浩浩,李孝忠,连春月[3](2018)在《不确定数据的约束频繁闭项集挖掘算法》一文中研究指出针对当前数据挖掘方法没有考虑客观条件制约以及个人不同需求的问题,在不确定数据的频繁闭项集挖掘算法中加入简洁性约束条件,基于正态分布模型分别研究了在简洁反单调约束和简洁非反单调约束下,对不确定数据库进行频繁闭项集挖掘的方法,并给出了实例证明挖掘算法的可行性.(本文来源于《天津科技大学学报》期刊2018年04期)
宋薇,张晓民,郭东恩[4](2017)在《基于前缀路径图的频繁闭项集挖掘算法》一文中研究指出关联规则是数据挖掘的重要方法之一,它主要用来揭示数据库中项或属性之间的相关性。频繁项集是产生关联的基础和核心。频繁闭项集项集数量远远小于频繁项集,而且包含了频繁项集的全部信息。为了有效压缩事务数据库信息,论文提出了前缀路径图结构,该结构可以存储挖掘所需的全部项集信息,减少扫描数据库次数。并且提出了一种基于前缀路径图的频繁闭项集挖掘算法PGraph-FCIMiner。论文的实验均采用Java语言编写,实验结果证明算法具有较好的执行效率和可扩展性。(本文来源于《计算机与数字工程》期刊2017年11期)
吴陈,杨镕华[5](2016)在《基于垂直数据格式频繁闭项集的选择性集成算法的研究》一文中研究指出集成学习是现今机器学习领域研究的热点问题,选择性集成通过对基分类器进行选择来提高集成分类器的泛化能力,降低预测开销。模式挖掘是一种将问题转化为事务数据库中模式的全新挖掘策略。本文将垂直数据格式频繁闭项集的模式挖掘方法应用于分类器的选择过程,利用垂直数据结构、频繁闭项集及模式挖掘方法的优势,提出一种预测性能更好、更加高效的选择性集成分类算法。(本文来源于《电子设计工程》期刊2016年19期)
陈凤娟[6](2016)在《不确定数据中的频繁闭项集挖掘》一文中研究指出研究不确定数据中的频繁闭项集挖掘,介绍不确定数据与概率频繁项集的概念,概率频繁闭项集挖掘的基本概念和概率频繁闭项集的挖掘算法,并分析该算法的性能.(本文来源于《牡丹江师范学院学报(自然科学版)》期刊2016年03期)
许晓,王诚[7](2016)在《基于Topology模型的数据流频繁闭项集挖掘》一文中研究指出针对数据流频繁闭项集挖掘算法Moment存在的缺点和不足,提出一种改进算法——TP-Moment。该算法利用Topology模型处理整个挖掘过程,将滑动窗口分为若干个基础窗口,用基础窗口更新取代增量式更新。通过并行化的挖掘每个基础窗口中的临界频繁闭项集合,存储到一种可动态更新的树结构GCFI-tree中,快速挖掘滑动窗口中所有全局频繁闭项集并存储。实验证明,改进算法在保证挖掘结果的同时,有效地降低了挖掘时间和内存空间。(本文来源于《南京邮电大学学报(自然科学版)》期刊2016年03期)
苗永明[8](2016)在《不确定频繁闭项集挖掘算法研究》一文中研究指出随着互联网的发展和科学技术的不断进步,各行各业都出现了海量的数据,这些数据是传统的技术所无法处理的。例如在经济、金融、电信等行业都出现了海量的数据。在这样的大数据背景下如何挖掘出有用的知识变得越来越有意义。它可以有效的解决当前数据丰富而知识匮乏的问题。挖掘频繁项集一直以来都是数据挖掘技术中的重点问题。挖掘得出的频繁项集可以更好的指导更有效的方案的制定。例如经典的啤酒和尿布的案例。然而数据挖掘的结果往往不尽如人意,由于海量的数据以及支持度较低的时候挖掘出的频繁项集的数量和关联规则的数量往往也是巨大的,显然这不是我们想要的结果,一般的解决思路就是让结果只产生更具有代表性的子集,例如挖掘最大频繁项集或者挖掘频繁闭项集,但是最大频繁项集将会丢失重要的信息,所以我们选择使用频繁闭项集来代替海量的频繁项集。近些年来,数据在传感器网络、卫星图像信息、Web应用领域、无限射频技术以及经济、物流、电信等应用中都表现出了一种不确定性。因此在不确定性数据集中如何运用数据挖掘技术变得十分迫切。然而目前经典的挖掘算法都是针对确定的数据集进行数据挖掘的。针对目前不确定性的数据集我们需要提出新的数据模型来应对数据的复杂性。本文深入学习研究频繁闭项集的挖掘算法之后提出改进策略,并且对当前广泛出现的不确定性数据模型深入学习,阅读大量文献之后提出了一种不确定频繁闭项集挖掘算法。主要研究成果如下:1、频繁项集挖掘的两种策略。深入研究学习了大量的频繁项集挖掘算法之后,频繁项集挖掘领域的经典算法主要有两类,一是Apriori算法以及以Apriori算法为基础的以层次迭代为策略来求取频繁项集的挖掘算法。该算法的主要的不足之处就是必须多次访问事务数据库和产生大量的候选项集,这无疑增加了大量的时空开销。二是FP-Growth算法以及基于FP-Tree结构的算法。该类算法采用深度优先遍历FP-Tree的策略,只需要访问一次事务数据库并且完全避免了利用候选项集的策略,时空效率得到了大大的提高。2、频繁闭项集挖掘的两种策略。用来代替频繁项集而出现的频繁闭项集的挖掘算法主要分为两类,一是类Apriori算法,二是类FP-Growth算法,在第二类算法中挖掘频繁闭项集效率最高的算法就是DCI_Closed算法,该算法提出这样的概念:生成子是保序的,并且证明得出每个闭项集都有唯一保序的生成子序列。利用这一性质来达到剪枝的目的,提高了的算法运行的时间效率。3、提出了一种改进的DCI_Closed算法,针对当前频繁闭项集高效挖掘算法DCI_Closed在挖掘过程中存在一定的不足之处,本文在DCI_Closed算法的基础之上提出了一种改进的DCI_Closed算法,在算法中引入共生项集和双生项集的概念,在构造FP-Tree结构的时候对候选的1-项集进行有效的剪枝操作,以此来提高算法的时空效率。4、提出了一种新算法U_DCI_Closed算法,不确定性数据集下挖掘频繁项集已经成为数据挖掘领域中热点问题,然而在不确定性数据集下挖掘最大频繁项集和频繁闭项集的算法并不多见。在深入了解不确定性数据领域中的数学模型以及认真研究频繁闭项集挖掘的经典算法之后,发现利用可能世界模型理论将不确定性事务数据转换为确定的事务数据,可以保留原先数据的不确定性,结合经典的闭项集挖掘算法DCI_Closed提出了一种新算法U_DCI_Closed算法,实验表明新算法能够在不确定数据集下高效的挖掘频繁闭项集。(本文来源于《山东师范大学》期刊2016-06-05)
沈盛霞[9](2016)在《频繁闭项集挖掘算法研究》一文中研究指出在大数据的时代背景下,人们被淹没在信息之中,却得不到更多有用的知识。数据挖掘技术由此应运而生。近年来,关联规则挖掘研究已经成为数据挖掘中的一个热门问题,并被广泛应用于金融、市场营销、事务分析等领域。传统的关联规则挖掘算法主要任务是挖掘频繁项集,然而挖掘所有频繁项集会产生太多的冗余。由于频繁闭项集的数量级远小于所有频繁项集的数量,而且频繁闭项集不会丢失项集的信息,所以不用挖掘所有的频繁项集,用挖掘频繁闭项集来代替是一个很好的选择。近年来,不确定性数据得到了越来越广泛的重视。不确定性数据广泛出现在经济、金融、电信、物流等领域中,不确定数据挖掘已经成为数据挖掘领域中一个非常重要的研究课题,其中频繁项集挖掘是重点研究的问题之一。因此,本文主要研究了在确定性数据和不确定性数据上来挖掘频繁闭项集的问题。本文主要工作包括:(1)详细说明了在确定性数据和不确定性数据上挖掘频繁闭项集的有关概念和相关理论;(2)总结了之前已有的两类主流频繁项集挖掘框架:基于Apriori的宽度优先挖掘和基于FP树的深度优先挖掘;(3)详细介绍了确定性数据上的频繁闭项集挖掘算法,总结了相关算法的优缺点,并通过实验对比证明了各算法的性能;(4)针对最新的不确定数据上的频繁闭项集挖掘算法A-PFCIM算法进行了深入分析;(5)提出了一种新的频繁闭项集挖掘算法NA-PFCIM。该算法将项集挖掘过程中项集的出现次数看作一个概率分布函数,考虑到基于正态分布模型的方法提取的频繁项集精确度较高,而且支持大型数据库,所以我们采用了正态分布模型提取频繁项集。同时,为了减少搜索空间以及避免冗余计算,利用基于深度优先搜索的策略来获得所有的概率频繁闭项集。算法还设计了两个剪枝策略:超集修剪和子集修剪。最后,在常用的数据集上,将提出的NA-PFCIM算法和基于泊松分布的A-PFCIM算法进行比较。实验结果表明,NA-PFCIM算法能够减少所要扩展的项集,同时减少项集频繁概率的计算,其性能优于对比算法。(本文来源于《安徽大学》期刊2016-04-01)
陈凤娟[10](2016)在《概率频繁闭项集挖掘》一文中研究指出许多新的应用中出现了不确定数据,比如使用无线传感器网络进行监听和对移动对象进行搜寻等。对这些不确定数据进行挖掘是一项重要工作,尤其是在不确定数据中挖掘概率频繁项集。但是,概率频繁项集的数量非常大,用户很难直接使用。为了解决这一问题,提出了不确定数据中的概率频繁闭项集挖掘方法。(本文来源于《洛阳理工学院学报(自然科学版)》期刊2016年01期)
频繁闭项集论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
传统的频繁闭项集挖掘算法计算过程过于繁琐复杂,耗费时间较长,计算结果不准确.为了解决这一问题,基于区间概念格研究了一种新的频繁闭项集挖掘算法,给出了计算公式,对算法的操作流程进行设计,共分为设计预定代码、小概念层次筛选操作定位、分析和处理子集数据以及建立数据关联.为检验设计算法的可行性,与传统频繁闭项集挖掘算法进行了对比,设计了对比实验,由实验结果可知,相较于传统算法,基于区间概念格的频繁闭项集挖掘算法计算过程更加简单,耗时更短,准确性更高,具有广阔的市场发展空间.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
频繁闭项集论文参考文献
[1].王金伟,吴少华,瞿治国.CFMoment:挖掘数据流频繁闭项集算法[J].应用科学学报.2019
[2].郑文彬,何秋红.基于区间概念格的频繁闭项集挖掘算法[J].内蒙古民族大学学报(自然科学版).2018
[3].牛浩浩,李孝忠,连春月.不确定数据的约束频繁闭项集挖掘算法[J].天津科技大学学报.2018
[4].宋薇,张晓民,郭东恩.基于前缀路径图的频繁闭项集挖掘算法[J].计算机与数字工程.2017
[5].吴陈,杨镕华.基于垂直数据格式频繁闭项集的选择性集成算法的研究[J].电子设计工程.2016
[6].陈凤娟.不确定数据中的频繁闭项集挖掘[J].牡丹江师范学院学报(自然科学版).2016
[7].许晓,王诚.基于Topology模型的数据流频繁闭项集挖掘[J].南京邮电大学学报(自然科学版).2016
[8].苗永明.不确定频繁闭项集挖掘算法研究[D].山东师范大学.2016
[9].沈盛霞.频繁闭项集挖掘算法研究[D].安徽大学.2016
[10].陈凤娟.概率频繁闭项集挖掘[J].洛阳理工学院学报(自然科学版).2016