导读:本文包含了日志挖掘论文开题报告文献综述、选题提纲参考文献,主要关键词:日志,算法,形态学,数据,用户,神经网络,建模。
日志挖掘论文文献综述写法
蒙华,苏静,李立峰,翟玉兰[1](2019)在《医院网站日志挖掘数据预处理的研究》一文中研究指出数据预处理是数据挖掘工作的基础。以医院网站服务器用户访问日志为例,对日志挖掘的概念以及数据预处理过程进行研究。采用数据库技术和Matlab工具消除初始数据集的冗余度、复杂度,以网站页面和用户关联性为度量,得出可直接作为挖掘算法输入的相似度矩阵。重点研究了医院网站日志的用户识别以及相似度矩阵的页面聚类标准化方法。实验结果表明:该方法极大降低了初始日志数据冗余度和维度,提高了预处理结果准确性,增强了数据挖掘算法输入的信息含量。(本文来源于《重庆理工大学学报(自然科学)》期刊2019年08期)
段瑞,方欢,詹悦[2](2019)在《一种利用日志划分从复杂日志中挖掘块结构过程的方法》一文中研究指出随着企业的发展,系统产生并记录的日志越来越多,从繁琐复杂的日志中挖掘块结构的过程变得更加具有挑战性。文中提出了纵向划分日志的方法,该方法极大地减少了每个日志划分的实例数,并缩短了每条迹的长度。该方法被用来处理复杂日志,并从中挖掘出精确的模型。日志划分的基础是活动划分。首先,基于行为关联的思想,提出共同变迁的概念,实现相互关联活动的聚集划分。然后,从日志所含共同变迁的数量的角度出发,用相互区别但又相互交错的方法划分活动集,从而实现模块和日志的划分。所提出的模块和日志划分方法可以迭代进行,直到日志划分得足够简单为止。最后,从每个划分后的简单日志中挖掘出一个块结构,通过组合块结构形成合理的整体系统模型,并通过Prom实验验证了所提方法的可行性。(本文来源于《计算机科学》期刊2019年11期)
郭涛敏[3](2019)在《基于轻量化关联规则挖掘的安全日志审计技术研究》一文中研究指出为了对云计算平台中日志审计数据进行安全分析,提出一种采用改进的关联规则的日志信息挖掘方法,以便有效识别事故类型或者预防可能出现的各种恶意入侵。该方法采用典型的关联规则Apriori算法对比挖掘系统日志和用户行为模式的异常信息,并通过删除稀疏矩阵集合中的弱相关项目集和可调节最小置信度的策略,对Apriori算法进行轻量化改进。在多次迭代运算得到最大项目集后运用于日志审计。仿真实验结果表明,改进的Apriori算法可以有效减少对数据库的扫描次数,提高挖掘效率,具有一定的推广价值。(本文来源于《现代电子技术》期刊2019年15期)
马晓凯[4](2019)在《基于日志挖掘的智能客服系统设计》一文中研究指出优质的服务是企业留住用户的重要手段,因此,提高对用户的响应速度和服务质量,同时降低客服成本,是企业的一项重要工作。传统的人工客服已不能满足现代企业的需求,同时,随着人工智能技术快速发展,建立一种自动智能的在线客服系统成为企业需要重视的问题。针对现有客服系统的不足,本方案基于业务系统用户行为数据及异常日志,提出一种新的智能客服系统设计方案。通过将日志挖掘平台和客服引擎关联起来,基于用户LSTM长短期记忆网络模型、CNN神经网络模型等深层次机器学习算法,智能客服系统可以更准确地理解用户提问,从而把最准确的FAQ和答案反馈给用户,向用户提供智能咨询服务。甚至可以先于用户发现业务问题,实时给用户推送业务预警及解决方案。通过智能客服系统可更有效解决用户咨询问题,提高用户感知,提升服务效率,缩短咨询处理时间。同时可以降低传统人工客服压力,节约企业成本。并在一定程序上提升业务系统健康度,更好地发挥业务系统的作用。(本文来源于《通讯世界》期刊2019年06期)
夏烈阳[5](2019)在《大数据背景下基于Web日志的用户访问模式挖掘研究》一文中研究指出随着互联网的快速发展,网络用户规模不断扩大,网络用户比例不断增加,网络用户行为也变得越来越复杂。尽管许多学者对Web挖掘技术和用户行为挖掘进行了深入研究,但仍存在一些问题。传统的数据挖掘算法在大数据处理效率方面并不令人满意。与此同时,对于电子商务领域,随着网购越来越流行,网民的不断增加以及新的商品出现,大量的商品和用户没有发生交互数据,系统更倾向于给用户推荐热门商品,导致大多数电子商务平台中都存在重复推荐的情况,无法提供更精准的个性化服务,以及长尾物品的发现和物品的权重调整。同时大量的中小型企业想完成数据驱动服务的升级,包括用户行为挖掘、个性化推荐等。这些问题迫切需要解决。因此,本文选择电子商务领域,基于电子商务后台日志的数据特征,重点分析和研究电子商务用户行为,构建用户行为挖掘的基本模式。本文研究内容主要包括以下几点:首先,在深入了解Web用户行为理论的基础上,基于交互的内容对用户的行为进行分类,同时基于大数据背景,在介绍了传统的一些数据挖掘算法的基础上,做了进一步的优化,以符合现实的商业化需求,对于Web日志来说,在大数据环境以及多样的用户行为的影响下,其采集方法与处理方法变得更加的复杂,本文在此基础上深入研究和理解Web用户的行为特征以及Web日志的数据表示并总结出了互联网用户行为所具有的特征。其次,基于上述研究成果,针对大数据时代的应用场景,在对传统算法改进的基础上进行并行化处理,大幅提高算法的运行效率,同时采用分布式的文件存储结构,提高了系统数据处理的容错性。同时,深入研究了协同过滤推荐算法的优缺点。协同过滤当前有着非常广泛的应用,在不改变协同过滤算法的基础上,引入迁移学习,提出了基于标签共享和用户兴趣的跨域迁移的推荐。实验结果表明,与现有的协同过滤推荐算法相比,基于迁移学习的推荐模型的准确率有一定程度的提高,也有助于解决数据稀疏性引起的冷启动问题。同时对原来系统中已存在的推荐算法,对其算法本身的侵入性非常的小。最后,基于上述研究内容和结果,本文构建的Web用户行为挖掘系统,可进行多维度高效率的挖掘。它通过精准的营销和准确的建议,帮助电子商务商家、内容提供商等了解他们的用户并实现更好的商业价值,完成数据驱动服务的升级。(本文来源于《云南财经大学》期刊2019-06-06)
陈洲[6](2019)在《一种改进K-Means算法的Web日志挖掘技术的研究》一文中研究指出随着互联网和信息技术的快速发展,从云服务上获取知识成为了人们学习的重要途径,同时,不断涌现出的各种云服务应用使得服务器存储的数据量急剧增加。Web日志作为云端应用的重要组成部分,大量有用的知识和待挖掘的信息被存储在其中,人们既可以根据日志文件获取该应用的用户访问情况,也可以对日志文件进行预处理之后运用数据挖掘算法进行深度知识挖掘,获取人们需要的有价值的信息。Web日志作为服务器的记录文件,记录了网站最重要的信息,随着数据量的增加,找出一种应对大数据量的数据挖掘算法,以更有效的分析日志文件迫在眉睫。本文主要分析的Web日志用户聚类是在对日志文件进行数据预处理的基础上,建立用户会话序列矩阵,进而对其进行聚类分析,最终进行相关应用。对于此类研究,国内外学者主要集中在对数据挖掘算法的改进研究上,而大多方案不具备大数据环境下并发处理数据的能力,因此针对海量数据的挖掘算法并发化问题也是本文研究的重点。针对上述问题,本文重点研究了一种结合密度参数与坐标旋转算法的ICKM(Improve cordic K-Means)算法,借助MapReduce原理及分布式理论,在解决传统算法缺陷的同时使算法具备了在大数据环境下处理数据的能力。本文的主要研究内容如下:(1)研究了Web挖掘技术的相关背景知识,通过了解Web挖掘的概念和过程着重分析了在挖掘过程中占重要地位的数据预处理过程,预处理过程的结果好坏直接影响到挖掘算法的结果,针对会话识别理论和传统的时间阈值对预处理输出的影响,给出了一种利用页面链入链出权重比得到时间阈值的解决方案。(2)针对K-Means算法在选取初始中心点上存在的问题,以及在Web日志挖掘应用中,用户构建会话矩阵后存在的孤立点对结果产生的影响,重点研究了一种密度参数与坐标旋转算法相结合的ICKM算法,该算法利用密度参数最大的对象作为第一中心点,利用KCR(K-Means Cordic)算法寻找下一个中心点,在一定程度上避免了孤立点对数据样本的影响,充分考虑用户聚类过程中建立的会话矩阵孤立点的影响,同时运用马氏距离改进了类簇内数据的相似程度。(3)为了提高大数据环境下的计算速度,通过借助MapReduce计算模型实现算法的并行计算,通过框架承载数据的计算压力在一定程度上提高运算速度与准确度。最后,通过实验分析,改进后的算法较传统聚类算法有较高的准确性与稳定性。(本文来源于《江苏科技大学》期刊2019-06-06)
孙书亚[7](2019)在《日志诱导下的流程变化挖掘方法研究》一文中研究指出随着业务流程管理的迅速发展以及业务需求的更新和不断变化,模型的变化分析与挖掘逐渐成为模型管理的重要组成部分。在实际的组织或者公司管理过程中,组织者要应对各种复杂的业务流变化。因此,流程模型的变化挖掘问题成为业务流程管理的重要内容。而流程变化挖掘主要集中在以模型为基础研究其变化域或者变化传播的问题。然而,在业务流系统未知或未给出实际流程参考模型的情况下,如何挖掘出流程行为变化是当今变化挖掘领域亟待解决的问题。因此,基于事件日志的流程行为变化挖掘成为流程管理领域的热门话题。目前,模型变化分析的研究主要集中于叁个方面。首先是基于流程模型行为轮廓关系的变化域分析,其次是基于数据流和控制流的多视图变化传播的问题。最后主要集中在过程变体的研究、挖掘可变的片段进行业务流程设计等方面。针对上述研究主要依赖于模型已知的情况,而基于事件日志的流程变化分析研究相对较少。为了弥补已有研究范围和方法的局限性,从日志角度出发,分别从完备日志和不完备日志两种条件下,追溯日志行为变化对于模型变化的影响。同时进一步从日志隐式依赖关系及变化片段的角度分析和挖掘业务流程变化。本文主要基于日志行为轮廓关系,探究基于事件日志的流程模型的变化分析,其主要研究内容如下所述:(1)提出基于Petri网可行迹的流程变化定位方法。首先给出真实的过程模型执行的事件轨迹以及变化后的可行迹。分别计算两组可行迹的最小后继关系。利用计算出的变迁后继关系及原事件轨迹找出后继关系不一致的变迁对,分析出存在变化的行为关系找出相应的变化变迁。(2)提出不完备日志下流程变化挖掘方法。已有的流程变化挖掘方法要么针对流程模型已知的情况,要么针对完备日志进行挖掘分析。而对于一类不完备日志条件下行为关系变化挖掘技术未有深入研究。本方法从两个方面进行分析:首先,提出动机例子,分别从日志的完备性和不完备性两个方面探讨单个活动变化操作可能引起的系统日志行为关系变化。其次,利用日志联合发生关系对流程行为变化进行计算分析,并利用ProM进行仿真实验。(3)提出基于日志通讯行为轮廓的隐式依赖变化挖掘方法。主要从隐式库所的角度探究变迁之间的隐式依赖关系。进一步完善了已有研究主要从变迁的角度出发的思路。在日志变迁没有执行删除、插入、移动等变化操作的情况下,基于日志通讯行为轮廓关系及变迁后继关系挖掘出含有隐式依赖的流程变化。(4)提出基于日志的流程聚类方法。首先对日志中的低频事件进行过滤,利用日志形态学片段提取公共的高频片段。进而通过形式自动机将提取的公共高频片段转换为相似日志的聚类中心。其次,提出基于形态学片段的业务组合方法产生流程模型共性的频繁执行路径,将相似的等价类形态学片段进行业务组合,得到组合后的Petri网模型即为流程簇的聚类中心。图[28]表[25]参[102]。(本文来源于《安徽理工大学》期刊2019-06-03)
范阿琳[8](2019)在《基于搜索引擎日志挖掘的搜索满意度评估方法研究》一文中研究指出搜索引擎是用户从互联网海量数据中获取所需资源信息的主要途径之一。随着互联网数据规模急速膨胀,用户对于高效便捷获取资源信息的要求越来越高,搜索引擎需要不断地进行系统优化从而为用户提供更优质的搜索服务,因此,如何有效评估搜索引擎的质量成为了研究界与产业界关注的焦点。搜索满意度是一种以用户为核心、强调用户搜索体验的搜索引擎质量评估指标。搜索引擎日志记录了用户与搜索引擎交互过程中发生的一系列行为信息(如提交查询词、移动鼠标、点击结果等),并且搜索满意度与用户的搜索行为有很强的关联。因此,研究人员提出利用搜索行为来评估用户的搜索满意度。本文针对如何有效利用搜索行为序列中的时间间隔信息、如何有效利用鼠标光标移动的轨迹、如何在少量有标注数据的情况下训练出有效的搜索满意度评估模型叁个挑战对基于搜索引擎日志挖掘的搜索满意度评估方法进行深入研究,主要内容有:1)提出了一种基于长短时记忆循环神经网络的搜索满意度评估方法。利用长短时记忆循环神经网络对搜索行为序列进行建模,实现端对端的学习,并引入虚拟停留行为来表示搜索行为序列中的变长时间;引入一种基于停留时间扰动的数据增强策略来增加搜索行为序列的模式变化,从而提高搜索满意度评估模型的泛化能力。实验结果表明与一些优秀的搜索满意度评估方法相比,基于长短时记忆循环神经网络的搜索满意度评估方法有显着的性能提升;2)提出了一种用于搜索满意度评估的区域行为长短时记忆循环神经网络。首先利用区域和行为从搜索引擎日志中提取鼠标交互序列;引入区域门和行为门分别对鼠标交互序列中的区域信息和行为信息建模,使得网络在捕获区域和行为之间交互关系的同时不会遭受更高训练复杂度的影响;引入一种多因子扰动的数据增强策略来增加鼠标交互序列的模式变化。实验结果表明用于搜索满意度评估的区域行为长短时记忆循环神经网络在不同的搜索环境中都实现了比最先进的搜索满意度评估方法更好的性能;3)提出了一种基于多视图半监督学习的搜索满意度评估方法。通过半监督学习的方法利用少量有标注数据和大量无标注数据来提高搜索满意度评估方法的性能,在此基础上,结合多视图学习的思想来克服传统的基于单视图的半监督学习方法容易陷入局部最优的问题,并利用不同参数配置的策略让基分类器之间有足够的分歧,从而缓解多视图半监督学习方法对于视图充分冗余的要求。实验结果展示了基于多视图半监督学习的搜索满意度评估方法相对最先进的基于半监督学习的搜索满意度评估方法的优势;4)提出了一种融合多视图半监督学习和多视图主动学习的搜索满意度评估方法。半监督学习部分利用无标注数据提高了主动学习部分中所使用的分类器的准确率;主动学习部分阶段性地使用给定的人工标注成本,在利用一种局部密度度量来衡量每个候选标注数据的代表性的同时,结合多视图的思想来衡量每个候选标注数据的信息量,从而挑选出最具代表性和最富信息量的数据给标注人员标注,为半监督学习部分提供更高质量的有标注数据集。实验结果表明在用户满意度评估的问题上,半监督学习与主动学习相结合能够实现比单独使用更好的性能。(本文来源于《浙江大学》期刊2019-06-01)
宋健[9](2019)在《基于日志自动机的形态学片段业务流程模型挖掘方法》一文中研究指出在业务流程分析过程中,业务流程管理扮演越来越重要的角色,并在各个流程挖掘领域中发挥着至关重要的作用。良好的业务流程模型能够维持企业系统的正常运转,能够高效的提高企业生产效率。流程挖掘的目的是从事件日志中提取可执行的流程知识,并对真实的流程进行监视和改进。因此,过程挖掘技术在业务流程发展中具有重大的实际应用意义。目前,过程挖掘技术大多采用高频优先的原则,针对日志中的低频行为则直接过滤。但某些流程系统包括部分非频繁行为(eg:宇宙飞船的逃逸系统等),该行为在系统中发生频率虽低但至关重要。因此,本文提出了基于日志自动机的形态学片段业务流程模型挖掘方法。首先找出各变迁活动间的行为轮廓关系和拟间接依赖关系,挖掘出流程模型中的隐变迁活动。其次利用流程切的过滤操作技术,对事件日志序列进行划分,过滤事件日志中的噪音活动并保留可能含有效信息的非频繁行为。最后再采用形态学片段挖掘方法,利用日志自动机对事件日志中的活动进行非频繁弧计算,更加精确的过滤非频繁行为中的噪音活动,使流程模型的精确度得到进一步提高。本文的主要工作包括以下:(1)针对业务流程中存在的隐变迁问题,已有的方法在模型挖掘的合理性方面以及对不完备的事件日志进行挖掘存在一定的缺陷。本文提出拟间接依赖关系挖掘业务流程中存在的隐变迁方法。利用整线性规划构建日志活动间的依赖关系表找出日志序列间的约束体。利用拟间接依赖关系表查找符合要求的拟间接关系变迁对,挖掘出拟间接关系变迁对中存在的隐变迁,有利于改善模型的合理性以及适当性。(2)对于业务流程所记录的事件日志存在的非频繁行为,已有的研究方法直接依据日志发生频率进行过滤,该方法对导致错误删除部分有效低频事件日志,降低流程模型的准确性和一致性。本文提出流程切的方法过滤日志活动中的噪音。流程切不仅考虑到日志活动中的频繁行为,低频模式下的行为也考虑其中。针对环状结构,异常的环状结构会引起流程图的边缘结构发生异常,流程切对该结构能够很好的进行处理,过滤后的日志在一定程度上有利于改善模型的有效性。(3)对于构建模型优化方面,提出了一种基于日志自动机的形态学片段挖掘流程模型的方法。首先将事件日志序列转化为日志自动机模型,利用日志自动机对事件日志中的弧进行计算验证,将不合理的弧过滤处理。再依据形态学片段方法将事件日志进行模块化处理,找出有关联的模块,将关联活动中相同的活动变迁进行合并操作,迭代此步骤,从而得到完整的流程模型。该方法在过滤非频繁行为上效果显着,同时在处理多组事件日志的流程模型中非常有效,使流程模型进一步得到优化。图[31]表[32]参[118](本文来源于《安徽理工大学》期刊2019-06-01)
刘博文[10](2019)在《基于神经网络和贝叶斯网络攻击图的IDS告警日志场景挖掘模型研究》一文中研究指出互联网技术的不断发展和创新,它所提供的相关服务种类也越来越多,一方面让每个人的生活越来越便利,另一方面也带来了各种潜在的安全问题。与防火墙类似,用来检测网络中存在的各种攻击行为的入侵检测系统(Intrusion Detection Systems,IDS)作为主动防御技术的一种,也愈发的受到人们的关注。IDS在多步攻击场景下的识别和预测能力,成为所有人都在密切关注的问题。迄今为止,入侵检测系统在识别攻击者发动的多步攻击场景时仍旧存在相当多的问题,其中包括:(1)由于告警信息量巨大导致无法快速有效的识别出攻击者的攻击意图,故无法预测攻击者多步攻击场景下的各个步骤;(2)对于现阶段告警的多步攻击场景识别而言绝大多数都依赖于安全专家的先验知识,而这将浪费大量的精力,且效率低下。针对这些现阶段存在的问题,本文所开展的工作内容主要在以下几个方面:1.针对于IDS原始告警日志数据中存在大量的错误告警的事实,提出了一种基于神经网络的告警误报消除算法。该算法以神经网络理论作为依据,利用真实告警的相关特性,通过提取六个进阶特征,输入四层神经网络中,利用数据进行训练后,准确的判断告警日志的正确与否。可以快速有效的从大量告警日志中筛除错误告警,为接下来的场景挖掘工作打下了基础。2.针对IDS告警日志之间的相互关联关系,提出了一种基于贝叶斯网络攻击图的因果关联算法。首先对经过误报消除的告警进行分组聚合操作,从而进一步减少告警数量,基于贝叶斯网络的理论依据,结合告警的时序特性,构建贝叶斯网络攻击图以此说明告警信息之间的关联性。3.针对于大规模的实时告警攻击场景挖掘问题,对误报消除算法和因果关联算法的分析,利用神经网络和贝叶斯网络攻击图的相关特性,提出了基于实时告警的多步攻击场景挖掘算法,更加高效的完成多步攻击场景的挖掘工作。4.通过实验分别对误报消除算法、因果关联算法和多步攻击场景挖掘模型进行分析,实验的结果表明基于实时告警的多步攻击场景挖掘模型可以有效重构多步攻击场景,并且通过对比发现该算法在误报消除的准确率和场景挖掘速度上相较于其他模型具有更为出色的效果。(本文来源于《北京邮电大学》期刊2019-05-29)
日志挖掘论文开题报告范文
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着企业的发展,系统产生并记录的日志越来越多,从繁琐复杂的日志中挖掘块结构的过程变得更加具有挑战性。文中提出了纵向划分日志的方法,该方法极大地减少了每个日志划分的实例数,并缩短了每条迹的长度。该方法被用来处理复杂日志,并从中挖掘出精确的模型。日志划分的基础是活动划分。首先,基于行为关联的思想,提出共同变迁的概念,实现相互关联活动的聚集划分。然后,从日志所含共同变迁的数量的角度出发,用相互区别但又相互交错的方法划分活动集,从而实现模块和日志的划分。所提出的模块和日志划分方法可以迭代进行,直到日志划分得足够简单为止。最后,从每个划分后的简单日志中挖掘出一个块结构,通过组合块结构形成合理的整体系统模型,并通过Prom实验验证了所提方法的可行性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
日志挖掘论文参考文献
[1].蒙华,苏静,李立峰,翟玉兰.医院网站日志挖掘数据预处理的研究[J].重庆理工大学学报(自然科学).2019
[2].段瑞,方欢,詹悦.一种利用日志划分从复杂日志中挖掘块结构过程的方法[J].计算机科学.2019
[3].郭涛敏.基于轻量化关联规则挖掘的安全日志审计技术研究[J].现代电子技术.2019
[4].马晓凯.基于日志挖掘的智能客服系统设计[J].通讯世界.2019
[5].夏烈阳.大数据背景下基于Web日志的用户访问模式挖掘研究[D].云南财经大学.2019
[6].陈洲.一种改进K-Means算法的Web日志挖掘技术的研究[D].江苏科技大学.2019
[7].孙书亚.日志诱导下的流程变化挖掘方法研究[D].安徽理工大学.2019
[8].范阿琳.基于搜索引擎日志挖掘的搜索满意度评估方法研究[D].浙江大学.2019
[9].宋健.基于日志自动机的形态学片段业务流程模型挖掘方法[D].安徽理工大学.2019
[10].刘博文.基于神经网络和贝叶斯网络攻击图的IDS告警日志场景挖掘模型研究[D].北京邮电大学.2019