大规模数据挖掘论文-贾建伟,陈红佑

大规模数据挖掘论文-贾建伟,陈红佑

导读:本文包含了大规模数据挖掘论文开题报告文献综述及选题提纲参考文献,主要关键词:船舶数据库,高危入侵行为,检测模型,数据挖掘

大规模数据挖掘论文文献综述

贾建伟,陈红佑[1](2018)在《船舶大规模数据库高危入侵数据挖掘方法研究》一文中研究指出入侵行为直接危害着船舶数据库管理系统的安全,为了提高船舶数据库管理系统的安全性,提出基于数据挖掘的船舶大规模数据库高危入侵检测方法。首先对船舶数据库管理系统中的入侵行为检测研究现状进行分析,找到当前入侵行为检测方法存在的局限性,然后采用支持向量机对船舶数据库管理系统中的入侵行为变化特点进行刻画,建立船舶数据库管理系统中的入侵行为检测模型,最后进行了船舶数据库管理系统中的入侵行为检测仿真测试,结果表明,本文方法的船舶大规模数据库高危入侵检测正确率超过95%,船舶大规模数据库高危入侵检测的错误率要远远小于对比方法,可以有效保证船舶数据库系统的安全,具有较好的实际应用价值。(本文来源于《舰船科学技术》期刊2018年24期)

胡惠敏[2](2018)在《基于数据挖掘的大规模网络异常检测方法研究》一文中研究指出随着现代计算机网络与信息技术的飞速发展,互联网实现了全球信息共享,在享受网络系统带来便捷的同时,也遭受了更多的网络攻击,网络使用者的个人信息隐私等受到威胁,对网络的安全性保护成为急需解决的重要问题。网络入侵检测系统是保障网络不受攻击的重要措施,其在保证网络系统快捷高效的同时确保数据的安全性、可靠性及完整性。同时,信息技术的发展导致网络数据的高维度与高复杂度,数据挖掘技术可以快速有效地处理海量数据,因此,为了进一步提升网络攻击防御技术,很多专家学者提出了将数据挖掘技术应用到网络入侵检测中以进一步提升检测效率,并对此进行了分析研究。本论文在传统异常检测方法的基础上,提出了基于统计学的类簇模式识别方法,通过分析各类簇内对象到其聚类中心距离的分布特性来识别网络异常行为。传统的网络异常行为检测基于异常行为是少量分散的且与正常行为数据差异很大这样的假设,并未对聚成的类簇模式进行识别。在现实的网络系统中,无法预测正常与异常行为的规模大小与差异性,导致现有的异常检测系统在真实的网络环境中特别是当攻击者发送大量的经过伪装的与正常数据相似度极高的入侵数据时检测效率不高,甚至失效。本文提出的方法突破了传统异常检测方法中假设异常数据就是孤立点这一局限,改进了在当前网络入侵检测中通过聚类分析发现孤立点来检测网络异常行为的缺陷。同时为了提高聚类的精确度,本论文使用熵值法对数据对象的各维度属性赋权值,优化了最近邻聚类算法中数据对象的相似性度量标准。LOF算法在处理大量高维数据时性能较差,时间与空间复杂度很高,为了弥补LOF算法的缺陷,本文提出了基于k-d树的LOF算法,其对数据集空间进行划分,以构成一系列k维超矩形区域,可以高效处理海量数据。使用k-d树对数据集中的数据对象进行存储生成空间划分树,所有的孤立点检测都在k-d树结构上进行,k-d树的树形数据结构便于对数据进行快速检索。使用孤立点挖掘技术找出与正常行为不同的个体或者数据集中的对象。一般认为被检测出来的孤立点与正常的数据对象产生的机制不同,并不是由随机因素导致的。从知识发现角度来看,在一些特定的应用中,偶尔发生的事件比平常的发生的事件更值得关注。本论文通过Matlab对上述两种改进方法分别进行仿真,研究结果表明,基于统计学类簇模式识别的方法具有良好的检测能力与适应性;基于k-d树的LOF孤立点检测算法在时间复杂度与计算次数方面明显优于未改进的LOF算法。(本文来源于《西安电子科技大学》期刊2018-06-01)

张凯斐,刘继华,张菊芳[3](2018)在《大规模高维数据集中局部异常数据挖掘算法》一文中研究指出提出一种基于FFD的大规模高维数据集中局部异常数据挖掘算法.将FFD首次应用在挖掘中,通过引用无线传输技术,将所提方法的宗旨定为对作业级与任务级的实现,以提高局部异常数据抗干扰能力.所提方法利用FFD的强控制能力实现无线传输技术与挖掘进程的数据互通,利用FIFO挖掘思想依次进行数据本地化与挖掘,并对挖掘流程与目标函数进行了重点设计.实验结果证明,所提方法的可靠性强,挖掘效率高,挖掘任务完成量大.(本文来源于《微电子学与计算机》期刊2018年03期)

桂伟[4](2018)在《基于Spark框架的大规模数据挖掘技术研究》一文中研究指出大数据背景下如何从海量信息数据中发掘价值讯息成为了重要研究课题。在数据挖掘算法基础上实现对海量数据的计算是该课题的重要研究内容。然而,传统单机环境下基于串行算法对海量数据进行处理需耗费大量时间,较难满足规模日益激增的数据计算任务。分布式计算技术为实现海量数据的挖掘提供了技术方案,Spark作为基于内存的计算框架,高迭代类型的数据挖掘算法在该框架上往往快于Hadoop。本文通过构建Spark分布式集群,完成了对经典算法的并行化改进。针对单机环境下的FP-Growth算法无法满足海量数据频繁项集挖掘任务需求的问题,本文基于Spark Core的理论与技术,在有向无环图DAG(Directed Acyclic Graph)的内存计算框架体系下对该算法的支持度计数和分组过程进行了并行化改进,对Spark核心资源调度参数进行了性能调优,合理设置了各子节点的进程数及其对应的CPU核心数实现了算法运行过程中计算资源的均衡分配。实验结果证明改进后的并行算法具有更高的时间性能,能够高效完成大规模数据的频繁项集挖掘任务。经典K-means中K值选择不确定且中心点随机选取造成误差较大,本文通过定义概率函数对初始簇中心点选取过程进行了改进,同时简化了其距离计算公式,最终在Spark框架下实现了改进后算法的并行化过程。实验仿真阶段,通过多次聚类的方法结合最小误差平方和的评估结果给出了合理的K值选择方案。对比实验结果证明改进策略后的算法具有更高的时间性能以及聚类精度。在上述并行改进算法基础上,以山东济南海量出租车行驶数据为研究实例,利用GIS(Geographic Information System)技术绘制了济南市路网拓扑,结合频繁项集挖掘的实验结果对数据集进行筛选以获取居民出行的频繁区域据此构建了出租车运营的交通热点图,并以筛选后的数据集为研究实例进行聚类实验完成了对山东济南市交通路网系统的静态子区划分,最终为临时候车点的选址提供了技术支持。(本文来源于《安徽工业大学》期刊2018-01-08)

王次臣[5](2017)在《基于深度学习的大规模图数据挖掘》一文中研究指出随着大数据思维逐渐深入人心以及深度学习的广泛研究和应用,图结构逐渐被用来表征现实世界中大规模的、错综复杂的数据,而深层挖掘大规模图数据内部隐含的信息也逐渐成为了研究的热点。在信息爆炸的时代,传统的基于关键字匹配的搜索引擎已经难以满足用户希望迅速、准确、简便地获取信息的需求,为此知识图谱通过建立基于语义的信息实体图来满足人们新的查询需求。本文首先通过回顾学者、科研机构及公司对知识图谱的研究内容,对知识图谱的发展和构建方法作了全面的介绍,包括知识图谱概念的起源、发展以及最终形成过程;构建知识图谱的数据来源;构建过程中涉及的方法,包括本体和实体的抽取,图谱的构建、更新、维护,以及面向知识图谱的内部结构挖掘和外部扩展应用。最后,对知识图谱的未来发展方向和面临的挑战作了展望。针对大规模图数据挖掘面临的计算复杂、数据稀疏的问题,本文在word2vec算法基础上进行改进设计了一种基于深度学习的网络表示学习算法,通过将图结点表示为低维向量为图数据挖掘工作中能够使用成熟的机器学习算法和线性代数的理论和工具提供了可能。该算法针对图结点的多标签分类任务,利用部分标签信息指导在结点间游走的过程,然后使用逻辑回归分类模型对结点的特征表示进行多标签分类。实验结果显示通过有指导地游走,标签分类准确率有明显提升。另外,本文利用网络表示学习算法得到的图结点的向量表示设计了一种生成边特征表示的组合方法,同时通过构建深度置信网络的分类模型,实现了对复杂网络的链路预测。(本文来源于《南京邮电大学》期刊2017-10-26)

王妮,陈婕卿,刘文艳,陈卉[6](2017)在《基于Access的大规模住院病案首页数据挖掘》一文中研究指出目的探索基于Access数据库进行大规模住院病案首页数据挖掘的方法。方法收集某市2002~2013年的住院病案首页,经过数据清理和疾病编码转换,利用Access数据库的窗体和VBA技术编程,按年度对住院病案首页数据进行汇总分析。以慢性阻塞性肺疾病(简称慢阻肺)为例汇总分析相关住院指标。结果对近600万条住院病案首页记录进行汇总分析总耗时267 s。2002~2013年,该市因慢阻肺住院的患者逐年增加,平均住院天数下降,平均住院费用上升,30 d再住院率尚无明显变化趋势。60岁以上慢阻肺患者的住院天数、费用均高于其他年龄段患者。结论时间连续的住院病案首页数据提供了对单病种患者住院指标进行时间趋势分析的可能性,其结果可为卫生和医院主管部门在医院管理决策、流行病学监测、卫生经济学等方面提供重要信息。(本文来源于《中国医疗设备》期刊2017年10期)

张家普,CHATTERJEE,Subhojyoti,王凤[7](2017)在《应用图论分析与最优化理论来数据挖掘大规模水牛普里昂蛋白结构数据(英文)》一文中研究指出图论、最优化理论显然在蛋白质结构的研究中大有用场.首先,调查/回顾了研究蛋白质结构的所有图论模型.其后,建立了一个图论模型:让蛋白质的侧链来作为图的顶点,应用图论的诸如团、k-团、社群、枢纽、聚类等概念来建立图的边.然后,应用数学最优化的现代摩登数据挖掘算法/方法来分析水牛普里昂蛋白结构的大数据.成功与令人耳目一新的数值结果将展示给朋友们.(本文来源于《运筹学学报》期刊2017年02期)

陈滢生[8](2017)在《分布协作式对等网络中大规模空间数据挖掘方法研究》一文中研究指出分布协作式对等网络较为复杂,而空间数据规模大,当前数据挖掘方法很难实现对其的准确挖掘。为此,提出一种新的分布协作式对等网络中大规模空间数据挖掘方法,给出分布协作式对等网络的GIS应用架构,在此基础上对分布协作式对等网络进行无向环路遍历,获取分布协作式网络的全部环路,挖掘出目的空间数据所属社区。通过痕迹系数判断目的空间数据流是否经过该社区,如果目标空间数据流经过该社区,则通过计算相关系数获取某个时刻目标空间数据流在社区中的位置,从而实现大规模空间数据挖掘。实验结果表明,采用所提方法对分布协作式对等网络中大规模空间数据进行挖掘,有很高的挖掘有效性,而且挖掘效率和挖掘精度均较高。(本文来源于《科学技术与工程》期刊2017年11期)

方澄[9](2016)在《基于大规模图谱分析的海量网络流量数据挖掘》一文中研究指出得益于以3G/4G为代表的无线通信技术的发展与普及、个人移动网络终端处理能力的增强以及个性化网络应用的日益丰富,移动互联网已经成为人们日常生活中重要的组成部分,以及获取、分享信息的主要渠道。这使得移动互联网业务流量在无线通信网络流量中所占的比例快速增加。在语音通信业务逐渐饱和的情况下,面临利润增长压力的移动网络运营商和服务提供商必须通过精细化的互联网业务流量经营,以达到提高用户ARPU (Average Revenue Per User用户平均收入)值,实现收入持续增长的目标。但目前网络运营商无论是用户量还是业务数据量都进入了一个海量数据时代,动辄以亿为单位计算的用户规模,结合早已超出语音、短信等传统业务范畴的丰富互联网业务,当今的无线通信网络时时刻刻都在产生着海量的流量数据,这些数据包括移动互联网网页数据、用户交互数据、设备产生的活动数据、DNS查询数据等等。这些数据与传统数据在叁个不同的维度上呈现出了显着的不同特征:(1)数据量大小-大容量;(2)数据类型-多类型;(3)数据时效性-高时效。面对大容量、多类型、高时效的流量数据,传统的流量分析技术已经不能满足网络运营商的需求,需要采用面向海量数据处理的并行算法。在此背景下,本文提出了处理海量网络流量的分布式并行计算分析解决方法。分布式并行计算方法主要使用目前比较流行的Hadoop技术框架和Spark技术框架。Hadoop技术框架揭开了海量数据处理的新篇章,而Spark技术框架可以说是Hadoop技术框架的升级版本。Spark技术框架通过使用内存计算,使得对海量数据的处理更加快捷。本文根据不同的应用场景和问题需求使用不同的技术框架。同时,由于互联网应用爆炸性的增长,网络流量变得异常复杂。仅仅通过简单流量统计分析已经不能很好的揭示网络流量的内在特征。为了精细分析网络流量,揭示网络中各个功能实体间的复杂关系,本文将网络分析问题进行图谱建模,运用多种图谱分析方法来解决网络流量分析的实际问题,并将分析结果用图形进行可视化呈现。本文的主要研究内容和创新点如下:(1)根据用户网页浏览行为以及网页加载过程,对网页中的单元实体进行图形建模,并对该图模型进行分析,以便了解互联网实体间的关系。该模型构建系统具有以下叁个特色:第一个特色为,对真实移动网络环境下的互联网实体进行统一的图形建模。如实反映互联网实体间的结构和关系。第二个特色为,基于该图模型可以进行多种应用分析,其中一个主要应用就是用户的点击请求识别。设计实现了一个并行的点击识别算法,算法可以从海量流量数据中准确的识别出用户的点击请求。第叁个特色为,使用实验室自主研发的TMS (Traffic Monitoring System)来采集真实移动网络中的海量镜像报文数据进行实验。在实验参数的选择上,设计了一种自学习参数选择方法。实验验证了模型的可行性和模型应用的准确性。(2)整个互联网实体图是一个巨大的、稀疏、复杂图,为了揭示网络实体间的内部结构,以及对实体间的内部结构进行可视化,设计提出了基于依赖图的Web实体连接结构模式分析方法。对运营商真实网络环境下的海量流量数据进行图形建模,模型的规模是巨大的,不适合直接观察和分析,为此设计了基于依赖图的Web实体连接结构模式分析方法,来将图模型进行分解。分解的结果是具有紧密连接结构的、便于观察的小图。(3)图模型是物理实体的一种数学抽象形式,图模型的分析需要运用大量的数学计算和图形算法,为此设计了基于Spark计算框架的海量数据处理算法库,以此作为其他流量分析算法的基础。Spark计算框架相比于Hadoop计算框架具有更丰富的计算表达能力,因此设计实施了多种基于Spark计算框架的基本数学算法,包括矩阵乘法、矩阵求逆等。(4) DNS查询数据是网络流量分析的重要数据之一。将查询记录和返回结果进行图形建模,并将图形属性信息应用于恶意域名识别中。恶意域名识别是网络监管部门和网络运营商都十分关心的问题,但恶意域名隐蔽性极强、难于发现,需要综合恶意域名多方面的特性,通过有效的分类方法将其与正常域名进行分离,才能达到恶意域名识别的目的。为此设计使用了 DNS图模型的多个属性值,例如出度、入度、中心性等,作为域名分类的属性值,结合域名自身的特性对域名进行分类处理,最终发现DNS查询记录中的恶意域名。(5)对于移动网络运营商环境下的超高速流式数据,采用并行流式算法,对流量数据进行精细化分析。网络运营商的流量分析任务可以分为两大类:1.网络流量数据静态存储后的批量分析。2.超高速流式数据的实时在线分析。近年来随着网络技术的发展,运营商骨干网的链路已经大量采用1OOGbps端口。这给网络流量数据的实时性分析带来新的技术挑战,为此设计了快速流式流量分析算法,对运营商环境下的超高速流式数据进行分析,并对移动网页流量进行了精细化分析。(本文来源于《北京邮电大学》期刊2016-10-02)

罗阳倩子[10](2016)在《大规模数据集高效数据挖掘算法研究》一文中研究指出对于频繁项集、聚类、离群点检测等大数据处理,过去简单的数据统计等数据处理方式已经不能适应当前大数据处理的要求。所以,应积极推广数据挖掘,互联网、物联网等新型数据处理方式。(本文来源于《湖南城市学院学报(自然科学版)》期刊2016年04期)

大规模数据挖掘论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着现代计算机网络与信息技术的飞速发展,互联网实现了全球信息共享,在享受网络系统带来便捷的同时,也遭受了更多的网络攻击,网络使用者的个人信息隐私等受到威胁,对网络的安全性保护成为急需解决的重要问题。网络入侵检测系统是保障网络不受攻击的重要措施,其在保证网络系统快捷高效的同时确保数据的安全性、可靠性及完整性。同时,信息技术的发展导致网络数据的高维度与高复杂度,数据挖掘技术可以快速有效地处理海量数据,因此,为了进一步提升网络攻击防御技术,很多专家学者提出了将数据挖掘技术应用到网络入侵检测中以进一步提升检测效率,并对此进行了分析研究。本论文在传统异常检测方法的基础上,提出了基于统计学的类簇模式识别方法,通过分析各类簇内对象到其聚类中心距离的分布特性来识别网络异常行为。传统的网络异常行为检测基于异常行为是少量分散的且与正常行为数据差异很大这样的假设,并未对聚成的类簇模式进行识别。在现实的网络系统中,无法预测正常与异常行为的规模大小与差异性,导致现有的异常检测系统在真实的网络环境中特别是当攻击者发送大量的经过伪装的与正常数据相似度极高的入侵数据时检测效率不高,甚至失效。本文提出的方法突破了传统异常检测方法中假设异常数据就是孤立点这一局限,改进了在当前网络入侵检测中通过聚类分析发现孤立点来检测网络异常行为的缺陷。同时为了提高聚类的精确度,本论文使用熵值法对数据对象的各维度属性赋权值,优化了最近邻聚类算法中数据对象的相似性度量标准。LOF算法在处理大量高维数据时性能较差,时间与空间复杂度很高,为了弥补LOF算法的缺陷,本文提出了基于k-d树的LOF算法,其对数据集空间进行划分,以构成一系列k维超矩形区域,可以高效处理海量数据。使用k-d树对数据集中的数据对象进行存储生成空间划分树,所有的孤立点检测都在k-d树结构上进行,k-d树的树形数据结构便于对数据进行快速检索。使用孤立点挖掘技术找出与正常行为不同的个体或者数据集中的对象。一般认为被检测出来的孤立点与正常的数据对象产生的机制不同,并不是由随机因素导致的。从知识发现角度来看,在一些特定的应用中,偶尔发生的事件比平常的发生的事件更值得关注。本论文通过Matlab对上述两种改进方法分别进行仿真,研究结果表明,基于统计学类簇模式识别的方法具有良好的检测能力与适应性;基于k-d树的LOF孤立点检测算法在时间复杂度与计算次数方面明显优于未改进的LOF算法。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

大规模数据挖掘论文参考文献

[1].贾建伟,陈红佑.船舶大规模数据库高危入侵数据挖掘方法研究[J].舰船科学技术.2018

[2].胡惠敏.基于数据挖掘的大规模网络异常检测方法研究[D].西安电子科技大学.2018

[3].张凯斐,刘继华,张菊芳.大规模高维数据集中局部异常数据挖掘算法[J].微电子学与计算机.2018

[4].桂伟.基于Spark框架的大规模数据挖掘技术研究[D].安徽工业大学.2018

[5].王次臣.基于深度学习的大规模图数据挖掘[D].南京邮电大学.2017

[6].王妮,陈婕卿,刘文艳,陈卉.基于Access的大规模住院病案首页数据挖掘[J].中国医疗设备.2017

[7].张家普,CHATTERJEE,Subhojyoti,王凤.应用图论分析与最优化理论来数据挖掘大规模水牛普里昂蛋白结构数据(英文)[J].运筹学学报.2017

[8].陈滢生.分布协作式对等网络中大规模空间数据挖掘方法研究[J].科学技术与工程.2017

[9].方澄.基于大规模图谱分析的海量网络流量数据挖掘[D].北京邮电大学.2016

[10].罗阳倩子.大规模数据集高效数据挖掘算法研究[J].湖南城市学院学报(自然科学版).2016

标签:;  ;  ;  ;  

大规模数据挖掘论文-贾建伟,陈红佑
下载Doc文档

猜你喜欢