频繁序列论文-黄晓芙,曹健,谭煜东

频繁序列论文-黄晓芙,曹健,谭煜东

导读:本文包含了频繁序列论文开题报告文献综述及选题提纲参考文献,主要关键词:过程挖掘,概念漂移,序列编码,预测性监控

频繁序列论文文献综述

黄晓芙,曹健,谭煜东[1](2019)在《基于频繁活动集序列编码业务过程预测性监控》一文中研究指出业务流程预测性监控是过程管理的重要内容,已有的研究大部分是基于显式的工作流模型进行预测.但是在实际应用中,企业可能并没有对整个过程实施端到端的工作流建模和管理,或者由于权限原因只能够获得部分执行日志,难以基于完整的业务流程模型进行预测,对此,提出了一种基于频繁活动集的序列编码处理日志中的低频活动,并通过搜寻历史相似数据进行预测的方法.该方法能够随着日志的更新适应由于概念漂移导致的模型改变.在真实的数据集上进行的实验结果验证了算法的有效性.(本文来源于《北京邮电大学学报》期刊2019年04期)

杨高明,龚晨,方贤进,葛斌,苏树智[2](2019)在《面向频繁序列的局部差分隐私保护研究》一文中研究指出为增强频繁序列的隐私保护力度,提高其挖掘效用和降低数据维度的影响,本文提出满足局部差分隐私的频繁序列挖掘模型,设计算法予以实现。该算法采用剪枝思想获取频繁序列,利用随机响应方法在局部敏感度基础上干扰数据集,并利用序列支持度和专有隐私预算提高其适用性,利用FP-Growth前缀与后缀原理,由2级与2级以上频繁序列挖掘3级与3级以上频繁序列;选取合理局部敏感度遍历干扰前后的数据集,以确定挖掘频繁序列的运行时间;根据差分隐私的组合性质,从理论角度证明算法满足局部差分隐私,并实验验证算法的有效性。实验结果表明该算法可以安全高效地实现频繁序列的局部差分隐私保护,保证频繁序列的准确性。(本文来源于《哈尔滨工程大学学报》期刊2019年11期)

邹安康,孙启涛,银磊[3](2019)在《基于PrefixSpan和TF‐IDF的频繁故障序列挖掘》一文中研究指出本论文以所有风电场的风力发电机组的历史故障数据为研究对象,通过对过去所有的历史数据进行数据处理后,采用PrefixSpan算法挖掘各个风场的频繁故障序列,并用TF-IDF算法对挖掘出的故障序列计算其单机级重要度和风场级重要度,不仅可以过滤去除次要冗余信息,提炼出有效主导报警故障,大大减少了报警量,还可以挖掘不同部件的关联性,起到提前预防的作用,对风场的运维决策起到了极大的参考作用。(本文来源于《第六届中国风电后市场交流合作大会论文集》期刊2019-06-13)

葛慧晗[4](2019)在《基于频繁序列挖掘的银行风险用户检测的研究与实现》一文中研究指出随着现代经济的高速发展,银行不断创新,电子银行已成为银行业务中最重要的板块之一。然而近年来,利用电子银行业务漏洞获取用户信息从而进行资金盗取的案件越来越多,使得大量用户处于危险之中,这危害了银行与用户的财产安全,破坏社会稳定。而银行目前针对此类处于风险中的用户仍使用规则和验证的迭加方式进行检测,效率低,效果差。如何及时发现此类风险用户,即用户信息可能存在泄露,其账户内资金有被窃取风险的用户成为了一个重要课题。本文对银行用户风险检测的相关研究进行了总结,并对数据挖掘、异常发现等理论进行了深入研究,以此为理论基础,对此类风险用户特征进行分析,提出一种基于频繁序列挖掘的银行风险用户检测模型,即首先对已有风险用户进行频繁序列挖掘,再将挖掘结果作为风险用户特征序列与待检测用户相匹配以实现风险用户检测。通过对风险用户银行流水数据进行分析发现,风险用户具有高度相似行为序列的同时,时间间隔对用户风险程度影响极大。因此,本文在银行风险用户检测模型中引入时间间隔属性,通过对时间间隔进行聚类处理改进了带有时间间隔的频繁序列挖掘算法,并且在传统序列模式匹配算法中加入时间间隔约束,以提升检测准确率。并根据上述算法,对提出的银行风险用户检测模型进行了设计与Hadoop环境上的并行化实现。最后,本文对提出的银行风险用户检测模型进行了实验与分析。实验结果表明,本文所述的风险用户检测方法具有一定的有效性与准确性。可以有效地提升银行风险用户检测的准确率与效率,从而使银行可以及时对风险用户进行处理,保障账户内资金安全。同时可以将风险用户信息提供给相关法律或监管部门,对犯罪行为进行追踪与调查,维护国家安全与社会安定。(本文来源于《北京邮电大学》期刊2019-06-10)

孙文平,常亮,宾辰忠,古天龙,孙彦鹏[5](2019)在《基于知识图谱和频繁序列挖掘的旅游路线推荐》一文中研究指出大数据在提供海量多源信息的同时,也带来了信息过载问题,这在旅游领域内表现得尤为突出。针对当前游客在制定旅行路线时需要花费大量时间和精力的现状,首先,提出一种融合多源旅游数据构建知识图谱的方法,有效地抽取相关旅游领域知识;其次,利用知识图谱及大量旅行游记生成旅游路线数据库,并提出一种能够根据游客类型生成海量候选路线的频繁路线序列模式挖掘算法;最后,设计了一种多维度路线搜索和排序机制来为用户推荐个性化的旅游路线。基于真实旅游大数据的实验结果表明,该方法可以同时考虑旅行天数、人物类型和景点类型喜好等多方面因素,帮助游客快速制定个性化的旅行路线,有效提升游览体验。(本文来源于《计算机科学》期刊2019年02期)

温彦,马立健,陈明[6](2019)在《基于频繁序列挖掘的后续行程序列推荐》一文中研究指出个性化旅游发展迅速,已有方法主要集中在单个旅游产品推荐上,而旅游行程存在明显的序列性,并受到当前已有行程轨迹影响。因此,提出一种旅行中后续行程序列的推荐方法 SeqRem,基于所有用户的行程序列挖掘频繁序列模式,并以此为依据利用最大点权独立集方法对用户的历史行程序列进行分割,以发现最优序列推荐内容。实验证明,SeqRem在单点推荐和序列推荐准确率与召回率均具有较好效果。(本文来源于《软件导刊》期刊2019年03期)

李之天[7](2018)在《基于多个时间序列的周期频繁模式挖掘研究》一文中研究指出数据挖掘已经成为一项利用这些数据的重要的科技手段,对这个技术领域的科学研究也正在以越来越快的速度蓬勃发展。关联规则挖掘又称频繁项集挖掘,是数据挖掘科研领域的一个热门研究方向,它的主要目的是找到所有的项的集合,并且这些集合满足在数据库中出现的次数不小于一个最小支持度阈值的条件。关联规则挖掘在现实生活中具有很多应用场景,例如图的分类,恶意软件检测,顾客消费行为分析,社区关系查找等等。很多研究工作都致力于高效地找出所有的频繁项集,从大量的数据当中发掘出有用的信息。可是,传统的频繁项集挖掘算法忽视了数据库中不同事务或者事件之间的前后时间顺序的重要性,无法提供和事件发生的先后顺序有关的有用信息。在生物信息科技,在线学习,文本数据分析和智能家居中的节能等诸多领域,都需要将事件发生的前后顺序和传统的数据挖掘结合起来,以提供更多具有实际应用意义的模式。最近几年,很多学者提出的新的算法,都将事件的时间顺序考虑了进去,并且成功在实际中加以应用。其中非常重要的一个分支就是序列模式挖掘,将频繁项集挖掘和时间序列相结合,找到那些频繁出现的子序列。然而,序列模式挖掘算法无法挖掘出那些周期性出现的模式,而周期模式却在分析顾客消费行为,基因序列分析,网站功能区设计等众多领域具有很大的作用。例如牛奶面包这个消耗品组合在网上超市当中的购买量一般都很大,而对于单个顾客来说,他可能每隔一段时间就需要网上购买一些牛奶面包。分析顾客的这种周期性发生的行为有助于更精准的为他们提供推荐服务,促进消费。又比如,在基因序列的分析当中,DNA分子的不同排列顺序携带了完全不同的基因信息。而如果一些DNA分子组合序列在整个基因序列当中周期性地出现的话,这些组合序列也会呈现出不同的表达形式,从而为人类基因分析工作提供一些新的可能和研究方向。因此,近几年来,周期模式挖掘渐渐成为关联规则挖掘当中的一个热门研究方向,针对周期模式挖掘已经有很多学者做了充分的研究。但是,先前的周期模式挖掘算法都是针对单个时间序列进行挖掘,而现实中遇到的数据大多都为多个序列组成的序列数据库。据我们所知,在我们之前,仅有一篇发表于2017年的论文曾做过多序列的周期模式挖掘的研究工作。这篇论文提出了一种新的被表示为PHUPSM的算法,用来挖掘多个序列中的周期性高效用项集。然而,这个算法仅仅将多个序列当做一个序列来进行处理,而忽视了单个序列之内的模式的周期性,导致挖掘出的模式不具有太大的实际意义。所以,之前所提出的算法都不适合用于很多序列组成的数据库的周期模式挖掘。为解决这个问题,本课题致力于基于多个时间序列的周期频繁模式挖掘算法的研究。这篇论文定义了两个新的衡量方法,分别称为周期标准差和序列周期率。周期标准差是用来挖掘单个时间序列中的周期模式。之前的研究中采用的最大周期数的衡量方法条件太过苛刻。当最大周期数被设定为一个较大的数值时,挖掘出的模式很多都是无用的信息;而这个阈值被设定为一个较小的数值时,又会丢失大量周期时间长的周期模式。所以,合适的最大周期数的阈值总是难以确定。而本论文提出的周期标准差方法很好的解决了这个问题,使得最大周期数可以被设置为一个较大的值,而通过周期标准差来过滤那些非周期模式。并且,通过这个方法挖掘出来的模式的周期差别也可以被控制在一个很小的范围之内。序列周期率则代表数据库中的模式在序列中具有周期性的序列个数的最小阈值,用来确保挖掘出的模式在多个序列中都具有周期性行为。通过这两种衡量方法,数据库中同时在多个序列中都具备周期性行为的所有模式就都能被挖掘出来。为了更加高效地挖掘出这些周期模式,本课题项目提出了两种算法,分别表示为MPFPS_(BFS)和MPFPS_(DFS)。这两种算法分别采用了广度优先搜索和深度优先搜索的空间搜索方式。广度优先搜索列举出所有的项集集合,之后再判断这些项集是否具有频繁性和周期性。例如,对于一个包含了a,b和c这叁个不同的项的数据库来说,广度优先搜索策略首先判断这叁个项是否满足频繁性和周期性地要求,之后再进行两两组合得到包含了两个项的项集{a,b},{a,c}和{b,c}。然后,再对这叁个项集进行判断,再之后产生包含了叁个项的项集{a,b,c}……广度优先搜索则采用了另外一种搜索策略。首先判断a是否满足条件。然后,产生a的所有包含了两个项的父集{a,b}和{a,c},再判断频繁性和周期性。最后产生a的所有包含了叁个项的父集{a,b,c},再进行判断。对于b和c采取同样的操作。这样就保证所有的项集集合都被检查了一遍,没有遗漏。然而,无论是广度优先搜索还是深度优先搜索,挖掘周期频繁模式的搜索空间都极大。对于含有n个不同项的数据库来说,这些项组合形成的项集个数则为2~n-1.如果对这个指数级大小的搜索空间直接进行挖掘,算法的效率将会十分的低下。另一方面,新提出的序列周期率方法并不满足单调性或是反单调性,也就无法直接用来对搜索空间进行剪枝。为了解决搜索空间过大的问题,本论文提出了一种被表示为boundRa的新参数和两个基于boundRa的剪枝策略。boundRa实际上是序列周期率的一个上界,满足向下闭包的特性。提出的两个剪枝策略都是基于这个特性。第一个策略的理论基础是,假设最小序列周期率的值为minRa,对于一个项集X’,如果boundRa(X’)<minRa,那么项集X’以及它的所有超集X?X’都不会是周期模式。第二个策略是,如果项集X’存在子集X’’?X’的boundRa值小于minRa,那么X’就不可能是一个周期频繁模式,X’的所有超集也不是周期频繁模式。新提出的两种算法MPFPS_(BFS)和MPFPS_(DFS)都具有四个参数,分别是minSup,maxStd,minRa和maxPr。实验结果表明这四个参数都有助于过滤那些不满足频繁性和周期性的项集。所以,这两个算法可以用来找出所有的周期频繁模式,并且挖掘出的模式数量也可以被控制在一定的范围之内。另外,结果表明这些参数也可以被用来减少降低算法运行的时间和占用的空间。如何来设置这些参数则需要根据不同数据库来具体问题具体分析。因为不同的数据库中的模式的周期长度都不尽相同,周期变化的幅度大小也各不一样。从结果中可以发现,参数minSup对算法的结果输出以及性能的影响很小,故而本论文建议将minSup设置为一个较小的值,只在性能受到很大影响时才改为一个较大的值。同时,鉴于maxPr这个参数本身条件太过严苛,本论文建议将其设置为一个相对来讲非常大的数值,以过滤掉那些周期太大的周期模式。因此,综合来看,maxStd和minRa这两个新提出的参数在整个周期频繁模式挖掘的过程当中具有更加重要的作用。前者允许指定周期频繁模式随时间变化的周期的最大范围值,对于一个模式来说,只要它的周期的标准差在这个范围之内,那么它的周期性就呈现出了一个非常固定的趋势。后者指定了一个模式呈现出周期性的序列在整个序列数据库中的最小比例值。此参数将可被用来找到在多个序列中呈现出周期性的所有模式。综上所述,本论文在这几年研究成果比较多的周期模式挖掘方面,提出了一个新的问题,即在多个序列当中挖掘出所有的呈现出周期性的频繁模式。针对这个问题提出了两个新的衡量方法,分别是周期标准差和序列周期率。因为序列周期率这个方法不满足向下闭包的特性,故而设计出一个新的参数boundRa。在这个参数的基础上提出了两个剪枝策略,对周期模式挖掘中的庞大的搜索空间进行剪枝,以提升算法效率。最后设计了两个算法MPFPS_(BFS)和MPFPS_(DFS),实验结果表明这两个算法具有很好的时间效率和空间效率。另外,由于MPFPS_(DFS)采用的是深度优先的搜索策略,因而通过剪枝所带来的性能的提升相较MPFPS_(BFS)来说更加巨大,所以性能和可扩展性都更好。在参数设置的值比较严格时,将会产生百倍以上的性能差距。(本文来源于《哈尔滨工业大学》期刊2018-12-01)

陈倩,刘云,高钰莹[8](2018)在《并行动态位向量频繁闭合序列模式挖掘算法》一文中研究指出针对在时间和空间上都具有高计算成本的长序列数据库,一个更有效和更紧凑且可以完全提取信息的挖掘模式是当前的研究热点。提出一种并行动态位向量频繁闭合序列模式的挖掘算法(PDBVFCSP),该算法采用多核处理器架构和DBV数据结构相结合的方式,有效加快了序列数据库的处理速度,并对搜索空间进行划分,尽早执行预处理序列的闭合检查,减少了所需的存储空间和挖掘频繁闭合序列模式的执行时间,克服了现有并行挖掘算法通信开销、同步和数据复制等问题。利用重新分配工作的动态负载平衡机制,解决处理器之间的负载均衡问题,最大限度地减少了CPU空闲时间。对DBV-VDF算法和PDBV-FCSP(2-4核)算法进行仿真比较,结果表明,PDBV-FCSP算法在运行时间、内存使用和可伸缩性等方面都有较优的性能提升,且当内核数增加时,性能更优。(本文来源于《计算机工程与科学》期刊2018年10期)

李勇男[9](2018)在《基于频繁序列模式挖掘的反恐情报关联分析》一文中研究指出[目的/意义]时间序列模式挖掘可以识别不同暴恐案件中各种因素的时间序列关系,为反恐预警提供参考。[方法/过程]首先设定最小支持度阈值参数和最小反恐情报序列长度参数,对样本集进行常规数据预处理和合并同类项,统计频繁1-序列,然后不断迭代生成候选i-序列和筛选频繁i-序列的过程,直到达到终止条件为止,最后选取满足最小长度阈值的反恐情报序列。[结果/结论]该方法通过总结各种暴恐活动中较为频繁的时序关系,可以在反恐预警系统中设定触发警报的条件,预测部分恐怖袭击并提前处置。[局限]该方法只能发现这类有时序关系的信息,在实际反恐情报分析中,需要与其他方法整合才能覆盖更多的情报。(本文来源于《情报理论与实践》期刊2018年10期)

李海林,邬先利[10](2018)在《基于频繁模式发现的时间序列异常检测方法》一文中研究指出针对传统异常片段检测方法在处理增量式时间序列时效率低的问题,提出一种基于频繁模式发现的时间序列异常检测(TSAD)方法。首先,将历史输入的时间序列数据进行符号转化;其次,利用符号化特征找出历史序列数据集中的频繁模式;最后,结合最长公共子序列匹配方法度量频繁模式与当前新增加时间序列数据之间的相似度,从而发现新增加数据中的异常模式。与基于滑动窗口预测的水文时间序列异常检测方法(TSOD)和基于扩展符号聚集近似的水文时间序列异常挖掘方法(ESAA)相比,对于实验选择的叁种类型的时间序列数据,TSAD的检测率都超过90%;TSOD对规则性较强的序列检测率较高,能达到99%,但对噪声干扰较大的序列检测率较低,对数据偏向性较强;ESAA对叁种类型的数据检测率均不超过70%。实验结果表明,TSAD在时间序列异常检测中能够较好地发现异常片段。(本文来源于《计算机应用》期刊2018年11期)

频繁序列论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

为增强频繁序列的隐私保护力度,提高其挖掘效用和降低数据维度的影响,本文提出满足局部差分隐私的频繁序列挖掘模型,设计算法予以实现。该算法采用剪枝思想获取频繁序列,利用随机响应方法在局部敏感度基础上干扰数据集,并利用序列支持度和专有隐私预算提高其适用性,利用FP-Growth前缀与后缀原理,由2级与2级以上频繁序列挖掘3级与3级以上频繁序列;选取合理局部敏感度遍历干扰前后的数据集,以确定挖掘频繁序列的运行时间;根据差分隐私的组合性质,从理论角度证明算法满足局部差分隐私,并实验验证算法的有效性。实验结果表明该算法可以安全高效地实现频繁序列的局部差分隐私保护,保证频繁序列的准确性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

频繁序列论文参考文献

[1].黄晓芙,曹健,谭煜东.基于频繁活动集序列编码业务过程预测性监控[J].北京邮电大学学报.2019

[2].杨高明,龚晨,方贤进,葛斌,苏树智.面向频繁序列的局部差分隐私保护研究[J].哈尔滨工程大学学报.2019

[3].邹安康,孙启涛,银磊.基于PrefixSpan和TF‐IDF的频繁故障序列挖掘[C].第六届中国风电后市场交流合作大会论文集.2019

[4].葛慧晗.基于频繁序列挖掘的银行风险用户检测的研究与实现[D].北京邮电大学.2019

[5].孙文平,常亮,宾辰忠,古天龙,孙彦鹏.基于知识图谱和频繁序列挖掘的旅游路线推荐[J].计算机科学.2019

[6].温彦,马立健,陈明.基于频繁序列挖掘的后续行程序列推荐[J].软件导刊.2019

[7].李之天.基于多个时间序列的周期频繁模式挖掘研究[D].哈尔滨工业大学.2018

[8].陈倩,刘云,高钰莹.并行动态位向量频繁闭合序列模式挖掘算法[J].计算机工程与科学.2018

[9].李勇男.基于频繁序列模式挖掘的反恐情报关联分析[J].情报理论与实践.2018

[10].李海林,邬先利.基于频繁模式发现的时间序列异常检测方法[J].计算机应用.2018

标签:;  ;  ;  ;  

频繁序列论文-黄晓芙,曹健,谭煜东
下载Doc文档

猜你喜欢