数据挖掘过程论文_张路

导读:本文包含了数据挖掘过程论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:数据挖掘,过程,技术,解释性,数据,研究进展,质量控制。

数据挖掘过程论文文献综述

张路[1](2019)在《基于数据挖掘的选煤生产过程智能诊断研究》一文中研究指出在当今社会,选煤行业正朝着高度信息化、智能化的方向发展。随着选煤行业智能化水平的提高,在整个选煤生产中引入智能化变得越来越急迫。对于选煤生产而言,选煤生产过程的运行稳定关系着整个选煤生产的经济效益。因此,对于选煤生产中时常出现的生产异常情况,保证这些生产异常的及时发现以及准确的给出诊断方案显得尤为重要。因此,本文关于对选煤生产过程智能诊断的探究以及相关的系统实现有着极为现实的意义。本文首先针对选煤厂生产数据的信息来源多样化,存储格式不统一等问题,设计出以选煤设备为主、检测仪表为辅的数据分类标准。通过设计统一的数据采集方式集成生产数据,最终建立选煤生产信息平台,通过Web API技术设计标准化的数据获取接口满足不同数据需求的用户的需要。针对选煤生产中经常出现的异常情况,以涡北选煤厂为研究对象,建立选煤异常数据辨识知识库。对涡北选煤厂选煤生产数据进行异常分析,结合现场工作人员知识,采用故障树分析法和产生式规则表示法建立了的选煤生产异常故障树,构建完成了选煤生产异常信息库。对于选煤厂历史存储的生产异常情况文本信息,利用语义分析技术,采用中文分词工具,通过加入自定义选煤专业词典,对文本进行数据挖掘,提取出关键词,对生产异常情况实例信息进行数据标定,建立选煤异常实例库。本文主要采用SQL Server数据库及Visio Studio 2017开发平台对整个选煤专家智能诊断系统进行了总体设计。其中主要包括权限管理系统、选煤生产信息平台、选煤异常数据辨识知识库和选煤智能诊断系统四个模块。通过案例分析进行了对整个系统功能的测试,证明该系统能够实现对选煤生产过程异常进行实时检测及在线诊断。该论文有图31幅,表26个,参考文献72篇。(本文来源于《中国矿业大学》期刊2019-04-01)

李田[2](2019)在《数据挖掘技术及其在电力行业过程监控中的应用》一文中研究指出随着信息科技的发展,数据挖掘技术已经融入到各个各业的不同领域中,并以自身特性发挥出至关重要的作用。在电力行业中,为了满足日常生产生活中的用电需求、降低电网负担、增强管理水平,也应当对技术方法进行开发,并尝试在电网运营监管的过程中使用数据挖掘技术,顺应时代发展规律,实现管理方法升级。(本文来源于《科技与创新》期刊2019年02期)

杜佳晨[3](2019)在《基于数据挖掘的单晶硅等径生长过程“掉苞”预测方法研究》一文中研究指出直拉法单晶硅生长的工艺过程非'常复杂,在单晶炉上需要安装各种传感器对环境参数进行实时采集和监控,确保各环境参数在单晶硅生长过程中能够稳定。等径生长工艺过程是单晶硅生长过程中最重要、耗时最长的环节,对生产中的环境稳定性要求苛刻。本文针对晶盛TDR115P-ZJS型单晶炉等径生长阶段的“掉苞”现象的诊断与预测方法展开研究,达到降低生产过程能耗、原材料损耗的目的,具有理论意义与工程实际应用价值。本文在分析国内外相关文献资料的基础上完成了如下工作:基于单晶炉拉晶过程的传感器及相关过程参数,统计了“掉苞”生长记录的等径过程持续时间分布并得到规律,抽取了原始样本点的集合,并做了相应的数据预处理,用以进行等径过程“掉苞”预测模型的训练;分别针对高斯混合模型和逻辑斯蒂回归相结合的异常样本点检测模型以及随机森林的等径过程“掉苞”判别模型,进行了模型训练和参数优化,并用现场测试数据验证了模型的性能;采用优化后的数据模型通过现场数据进行在线模拟测试,对晶体生长记录进行实时预警判别,正确率达到满意的效果。本文主要内容如下:第一章介绍了直拉法单晶硅生长工艺和等径过程的“掉苞”问题,以及数据挖掘的概念和基本流程。然后通过分析统计过程质量控制(SPC)方法的局限性,凸显数据挖掘在质量控制与预测的优势,并重点分析了数据挖掘技术在质量控制与预测等领域的研究现状,以及半导体材料相关的质量预测技术的研究现状。第二章介绍了晶盛TDR115P-ZJS型单晶炉涉及的各个参数。分析了基于高斯混合模型和逻辑斯蒂回归的异常样本点检测模型和基于随机森林的判别模型的特点和功能。最后,介绍了本文涉及的过程数据监控系统,分析了预测模型在实际生产线上应用的整体流程和作用。第叁章通过等径“掉苞”生长记录的等径持续时间的统计分布规律,进行样本点抽取,并对样本点集合进行0-1标准化、互信息系数的特征选择和主成分分析法的特征降维。第四章首先介绍了将包含主成分的样本点集合进行异常样本点检测模型训练的整体流程。接着对样本点集合进行高斯混合模型训练,主要包括k均值的参数初始化、EM算法的参数迭代和采用贝叶斯信息准则(BIC)系数的混合数选择等步骤。然后,对训练得到的概率向量进行逻辑斯蒂回归的训练,得到样本点“掉苞”的概率。最后,通过分析模型准确率对异常样本点检测模型进行了性能评估。第五章介绍了基于随机森林的等径“掉苞”判别模型训练的整体流程。首先,对等径“掉苞”的单棵CART决策树模型进行训练与优化,并得到了最佳CART决策树及其树深和叶子结点数,然后将该参数作为随机森林的训练超参数,进行训练与优化,得到优化后的随机森林的等径“掉苞”判别模型。最后,分析模型的准确率、召回率对上述两个数据模型进行性能评估。第六章首先通过预测模型对测试数据集中的所有晶体生长记录进行等径“掉苞”预测的告警,并与实际结果进行对比。然后,统计分析了测试数据集的等径“掉苞”生长记录的告警提前时间与等径持续时间,验证模型的可行性。第七章对本文的工作成果进行了总结,并对今后的研究工作进行了展望。(本文来源于《浙江大学》期刊2019-01-25)

唐云凯,王芳,刘淑英[4](2018)在《海量数据挖掘过程相关技术研究进展》一文中研究指出我国的信息技术水平不断提升,海量数据的复杂性与多样性对数据挖掘形成了较大困难。基于大数据环境下,为了更深入、充分地掌握是数据挖掘相关技术的研究进展与应用,可以从海量数据挖掘过程的技术框架、算法、理论、模式等方面进行尝试。综上所述,该文将对海量数据挖掘过程相关技术研究进展进行分析。(本文来源于《电脑知识与技术》期刊2018年36期)

首新,何鹏,陈明艳,胡卫平[5](2018)在《基于教育数据挖掘的“探索和理解”问题解决过程研究——以PISA(2012)新加坡、日本、中国上海Log数据为例》一文中研究指出Log数据不仅包括学习时间、学习进程、鼠标和键盘敲击等静态数据,还详细呈现了从学习开始到结束的动态数据。文章截取PISA(2012)新加坡、日本、中国上海的Log数据,运用相关、滞后序列、聚类等教育数据挖掘方法分析叁个国家学生在"车票"一题的"探索和理解"问题解决过程。结果发现:相比新加坡和日本,中国上海学生仍缺乏深入试题情境进行比较、探索,反映出问题解决策略不足;中国上海学生在"错误倾向组"比例过大,反映出高、低水平问题解决能力的学生呈两极分化,亟待提高低水平学生的问题解决能力。最后,文章依据研究结果在课堂教学、教育决策等方面提出了相关建议。(本文来源于《现代教育技术》期刊2018年12期)

冯岳辰[6](2018)在《数据挖掘技术在旅游企业营销过程中的应用》一文中研究指出时代迅速发展和旅游快速普及,对旅行社营销提出更高要求,本文基于数据挖掘技术中决策树分析法对中国国旅(江苏)国际旅行社有限公司近5年来的客户信息和问卷调查数据进行挖掘,结合旅游特点对挖掘数据进行预处理,并对整个决策树挖掘过程作详细阐述,对挖掘规则进行分析,在此基础上提出了几点促进旅行社营销的建议,期望在当代背景和客户需求下对旅行社制定更适当的营销战略有所启发。(本文来源于《科技创新与生产力》期刊2018年10期)

全文君[7](2018)在《数据挖掘过程中的可解释性问题研究》一文中研究指出数据挖掘是指从大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料。这些海量数据中往往隐含着各种各样有用的信息。数据挖掘的过程中通常需要应用机器学习算法来建立模型。在机器学习和数据挖掘领域,模型的可解释性一直具有重要的理论和实践价值。可解释性高的机器学习模型更值得信赖,也更可能被用户采纳。可解释性研究已有二十多年的发展历史,并且积累了丰富的研究成果。然而,当前的可解释性研究仍然存在着一些不足之处,如很少考虑人的认知因素、无监督学习可解释性研究较少等。特别地,当前的可解释性研究主要针对建模阶段的可解释性问题,忽略了数据挖掘过程中其它阶段可解释性问题的研究。针对这些不足,本文在已有研究工作的基础上,对数据挖掘过程中涉及的可解释性问题进行了系统研究,主要工作如下:(1)提出了一种基于数据挖掘过程的可解释性研究框架。针对可解释性研究领域至今没有一个公认的可解释性的定义的情况,本文对可解释性的定义、内涵进行了分析。然后从数据挖掘过程的角度,提出了一种基于CRISP-DM(Cross-Industry Standard Process for Data Mining)的可解释性研究框架,充分考虑了数据挖掘过程中各个阶段对可解释性的影响,并提出了“可解释性平面”对最重要的阶段(建模阶段)的可解释性问题进行划分。(2)提出了一种原始数据理解流程。数据理解阶段的可解释性研究目标是使用合适的方法提高人对原始数据的理解程度。本文提出的原始数据理解流程考虑了有监督学习和无监督学习两种情况,并且运用了可视化技术,可以很好的满足用户在数据理解阶段中希望能够快速直观的了解数据的需求,以便尽快开展后续工作的目标。对于有监督学习而言,该流程主要从样本和特征两个维度考虑,包括理解问题的难度、找出各类的典型样本和识别重要特征。对于无监督学习而言,该流程包括理解问题的难度和探索数据。(3)提出了一种高维稀疏数据特征选择框架。鉴于数据准备阶段中高维数据的特征选择对最终模型可解释性的影响很大,本文提出了一种高维稀疏数据特征选择框架,用于提高待建模数据集的可解释性。该框架主要针对具有稀疏性的高维数据的特征选择。它集成了去稀疏列特征、Filter方法和Wrapper方法。同时还对实际应用中常用的一种特征选择算法(SFS算法)进行了改进,并将改进后的SFS算法应用在该高维特征选择框架中。实验证实该特征选择框架具有较高的有效性。(4)提出了一种基于人分类学习的黑盒模型解释方法。鉴于可解释性与人的认知能力相关,该黑盒模型解释方案通过集成人分类学习理论中的原型理论、范例理论和选择性注意理论对黑盒分类器进行解释,它包括原型解释和范例解释。当解释一条数据时,首先使用原型进行解释,如果该数据不符合原型解释,则采用范例进行解释。实验表明该方法能够比较有效地解释黑盒分类器的分类结果。(5)提出了一种基于用户满意度的聚类方法。由于无监督学习的可解释性研究相对较少,而聚类是无监督学习的代表,其可解释性研究具有重要的应用价值。因此,本文对聚类的可解释性进行了研究。鉴于目前还没有一个通用的指标去评估一个聚类的好坏,本文提出将用户满意度作为评价聚类结果的指标,同时将可解释性纳入满意度指标中。然后根据该指标,提出了基于用户满意度的聚类方法,实验表明该方法能有效地提高聚类的可解释性。本文关于数据挖掘过程可解释性问题的研究在一定程度上弥补了现有研究的不足,其研究结果为数据挖掘领域可解释性研究提供了有价值的线索。(本文来源于《重庆大学》期刊2018-10-01)

徐延强,张苗[8](2018)在《数据挖掘技术在建材装备制造过程质量控制中的应用研究》一文中研究指出基于我国社会主义市场经济体制的不断完善,我国企业之间的竞争逐步朝着产品质量的方向发展。在这样的大环境下,企业为保障自身的效益逐步强化质量控制工作,并合理运用各类质量数据资料,确保质量管理作业效益的进一步提升。本文基于此,着重分析数据挖掘技术,并就该技术在建材装备制造领域中的运用进行分析,希望由此带动更高经济效益的取得。(本文来源于《中国建材科技》期刊2018年04期)

郝建军[9](2018)在《服装营销过程中的数据挖掘算法分析》一文中研究指出当今信息化发展速度惊人,大数据、云计算、人工智能技术应用于各行各业,给社会的发展带来了很多便利,也为我国经济的快速发展注入了新的血液。在服装行业中,我国是一个纺织服装生产大国,又是一个纺织服装消费与出口大国,将大数据技术应用于纺织服装生产与销售中可以给纺织服装产业带来更大的利润,本文主要研究在众多的数据挖掘算法中,适合服装营销的挖掘算法。(本文来源于《电脑迷》期刊2018年08期)

魏志杰,金涛,王建民[10](2018)在《基于临床数据挖掘的医疗过程异常发现方法及应用》一文中研究指出为了如何充分挖掘数据本身的信息来合理抽象医疗过程,发现可解释的、定位更准确的医疗异常,在考虑医疗数据的语义、次序和频率信息的基础上,提出一种改进的医疗过程异常发现方案。假设大多数医生按正常程序诊疗,只有少数异常。首先利用LDA主题模型对诊疗活动进行主题聚类,得到患者每天的诊疗主题分布;然后,基于此分布利用K-means++对天进行聚类,以聚类结果标识患者的每一天;最后,以天为单位利用IMi挖掘到的过程模型作为大多数患者遵循的诊疗过程,通过基于对齐的合规性检查发现异常行为的位置和异常程度。实验结果表明,所提方案能够得到可解释的、定位更准确的医疗异常,可以辅助医保审查。(本文来源于《计算机集成制造系统》期刊2018年07期)

数据挖掘过程论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着信息科技的发展,数据挖掘技术已经融入到各个各业的不同领域中,并以自身特性发挥出至关重要的作用。在电力行业中,为了满足日常生产生活中的用电需求、降低电网负担、增强管理水平,也应当对技术方法进行开发,并尝试在电网运营监管的过程中使用数据挖掘技术,顺应时代发展规律,实现管理方法升级。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

数据挖掘过程论文参考文献

[1].张路.基于数据挖掘的选煤生产过程智能诊断研究[D].中国矿业大学.2019

[2].李田.数据挖掘技术及其在电力行业过程监控中的应用[J].科技与创新.2019

[3].杜佳晨.基于数据挖掘的单晶硅等径生长过程“掉苞”预测方法研究[D].浙江大学.2019

[4].唐云凯,王芳,刘淑英.海量数据挖掘过程相关技术研究进展[J].电脑知识与技术.2018

[5].首新,何鹏,陈明艳,胡卫平.基于教育数据挖掘的“探索和理解”问题解决过程研究——以PISA(2012)新加坡、日本、中国上海Log数据为例[J].现代教育技术.2018

[6].冯岳辰.数据挖掘技术在旅游企业营销过程中的应用[J].科技创新与生产力.2018

[7].全文君.数据挖掘过程中的可解释性问题研究[D].重庆大学.2018

[8].徐延强,张苗.数据挖掘技术在建材装备制造过程质量控制中的应用研究[J].中国建材科技.2018

[9].郝建军.服装营销过程中的数据挖掘算法分析[J].电脑迷.2018

[10].魏志杰,金涛,王建民.基于临床数据挖掘的医疗过程异常发现方法及应用[J].计算机集成制造系统.2018

论文知识图

纸机浆池卸料泵负荷Fig.4-2Loadofmac...们这里所说会计29低风险实施说的低风...天气温度的线性插值与样条插...蒸汽单耗与VIP指标后5位变量的趋...操作流程图一8过程数据

标签:;  ;  ;  ;  ;  ;  ;  

数据挖掘过程论文_张路
下载Doc文档

猜你喜欢