分布式决策树算法论文-母亚双

分布式决策树算法论文-母亚双

导读:本文包含了分布式决策树算法论文开题报告文献综述及选题提纲参考文献,主要关键词:决策树,分布式计算,分类器设计,分类问题

分布式决策树算法论文文献综述

母亚双[1](2018)在《分布式决策树算法在分类问题中的研究与实现》一文中研究指出分类问题是模式识别、机器学习、图像处理以及信息检索等数据挖掘领域中一个重要的研究课题。在众多分类算法中,决策树(Decision Trees)是最有效且应用最为广泛的经典算法之一,其具有分类精度高、参数少、可解释性强等优点。决策树在商业、医疗、制造和生产、金融分析、遥感影像分类、分子生物学等方面已经有了广泛的应用并且取得了显着的成效。随着科技的进步和网络的发展,日常生活中产生的数据正在急剧增长,这为决策树解决大规模数据分类问题带来了机遇与挑战。然而由于内存空间、时间复杂度以及数据复杂度等限制,传统的决策树算法还无法直接应用于大规模数据集的分类问题。为有效进行大规模数据集的分析与处理,算法分布式化研究的重要性日益显着。本文针对分类问题,对决策树算法的分布式化进行了研究与实现,主要研究工作包括以下几个方面:(1)为应对C4.5决策树在处理大规模数据分类问题时所面临的挑战,提出了一种基于C4.5决策树的分布式化方法。本算法将Map-Reduce技术应用于决策树构造的每一个树节点中,构建了两个分布式算法:一个分布式算法用于树节点分裂属性和分裂点的选择,另一个用于数据的分割。其中在分裂属性和分裂点的选择上,假设在Map-Reduce框架下原数据可以被随机分成若干子数据集,首先在Map阶段对子数据集的每个属性根据信息增益确定最优分裂点,并计算信息增益率;然后在Reduce阶段将所有子数据集对应属性上的信息增益率相加,对应的最优分裂点求平均值或并集,选择使信息增益率和最大的属性以及相应分裂点作为树节点的最终分裂属性和分裂点。树的深度、节点处的样本数以及节点处最大类的比例等被设计为决策树构造的终止条件用于避免可能的过拟合问题。与经典C4.5算法的比较结果验证了所提分布式算法的可行性和有效性;对叁个并行性能指标的讨论分析了所提算法的并行效果。(2)经典有序互信息决策树在节点分裂时需要对所有属性和属性值遍历计算有序互信息,但是有序互信息的计算是非常耗时的,为提升树的构造速度和处理大规模数据集的能力,提出快速有序互信息决策树及其分布式实现。该方法从两个方面对经典有序互信息决策树的节点分裂进行加速,首先通过最大相关最小冗余准则删除节点中数据的冗余属性得到候选属性;然后利用FCM聚类算法对每个候选属性上的数据进行聚类,将聚类中心作为属性的候选分裂点;最后仅对候选属性和候选分裂点计算有序互信息。同时在Map-Redcue框架下对快速有序互信息决策树进行了分布式实现。通过与经典有序互信息决策树进行对比分析,所提算法能在保证分类精度的情况下,大大缩短决策树的构造时间;与传统一般决策树和传统单调决策树的对比实验还讨论了所提算法的可行性和有效性;在大规模数据集上的实验分析对所提算法分布式实现的可行性和良好的并行性能进行了验证。(3)为拓宽皮尔逊相关系数的应用范围,丰富决策树算法的研究与应用,提出了一种新的基于皮尔逊相关系数的决策树及其分布式实现。在该方法中,首先对数据的决策属性进行数值映射,利用皮尔逊相关系数在条件属性和决策属性之间建立了一种杂质不纯度度量;然后应用该度量设计了一个新的树节点分裂准则,并基于该分裂准则对决策树进行递归构建。另外为提升对大规模数据集的处理能力,对所提算法在Map-Reduce框架下的分布式实现步骤进行了介绍。在多个评价指标上与几种传统决策树方法进行了对比,实验结果表明所提算法具有较强的可行性;通过多组实验分析了所提决策树分布式实现方案在处理大规模数据集时的并行性能,特别是在节省时间和避免内存限制上所具备的优势。(本文来源于《大连理工大学》期刊2018-11-28)

石红姣[2](2017)在《基于改进随机决策树算法的分布式数据挖掘》一文中研究指出随着大数据时代带来的数据量激增问题,该研究以随机决策树算法为基础,通过分析单个树与多个树的概率估计,利用无监督局部敏感哈希函数(LSH)处理大数据敏感分类,在对分布式数据挖掘过程中,采用超平面hash减少超平面的可能空间和增加系数处理密集数据类型,结合Sim Hash间接生成随机向量,Fast Hash将整数映射到位图处理稀疏数据类型。最后,在Spark平台上运行8个小数据集和6个大数据集的模拟结果显示:改进后的算法不需要构造很多深度树,检验了改进算法运行在配置不同数量节点的集群上的可扩展性。(本文来源于《计算机与数字工程》期刊2017年09期)

沈建涛[3](2017)在《基于分布式运算的决策树算法的研究与实现》一文中研究指出摒弃决策树算法中一般常用的递归运算,利用网络中的任意台计算机,采用C/S结构模式,由服务器主要存储决策树的节点信息,客户机并行计算出决策树的分割属性及其分支,以解决计算过程中的内在崩溃现象。实践表明,C/S结构模式可建立于局域网、广域网,且可充分利用云计算平台上的高性能虚拟网络,具有结构简单、灵活,适应面广等特点,在相同样本数据集上,测试正确率较高,算法切实可行。(本文来源于《南通职业大学学报》期刊2017年01期)

琚春华,肖亮[4](2011)在《基于地域因素的连锁商业分布式决策树算法》一文中研究指出连锁商业数据的"分布异构"和"地域差异"特性,使得传统决策树算法难以满足其跨区域的数据挖掘要求.通过分析不同地域经济水平、人口规模等地域经济因素对连锁商业网点销售行为的影响特征,提出将地域因素引入到连锁商业的分布式数据挖掘模型中;并在定义地域因子、决策树特征和决策树特征差异率等概念的基础上,提出了由地域分枝算法模块、特征差异算法模块和分店子树构造算法模块构成的RDT算法.通过在浙江某连锁商业集团杭州、绍兴、宁波、温州、台州、丽水和金华七个地市门店的实证分析,充分验证了算法模型的有效性.(本文来源于《系统工程理论与实践》期刊2011年06期)

彭国星[5](2008)在《分布式关联规则算法和分布式决策树算法的对比研究》一文中研究指出随着计算机技术,网络技术的飞速发展以及广泛采用的分布式计算环境,DDOS网络攻击的行为也越来越多,入侵检测已经是非常重要的防御基础设施中的一种方式。但随着呈指数级增长的数据,传统的方式不能解决目前大规模分布式环境下的网络安全问题。数据挖掘,能够从大量的网络检测数据中找到隐含的有用的知识,与入侵检测技术结合,可有效地提高入侵数据的分析、判断效率和精度。本文阐述了分布式关联规则算法(FDM)、分布式分类决策树算法(SPRINT)。对这两种算法的特点作了详细的分析和比较,指出了它们各自的优势和不足。并参考这两种算法作者提出了在分布式入侵检测环境下的改进型的分布式关联规则算法(TFDM)、改进型的分布式决策树算法(TSPRINT)。算法使用Microsoft Visual C++6.0开发。试验数据用XML统一格式。通过对算法性能的比较和实验结果表明:TFDM算法优于FDM算法,TSPRINT算法优于SPRINT算法,对分布式的大数据集的挖掘TFDM算法优于TSPRINT算法。(本文来源于《中南大学》期刊2008-06-30)

孔忠勇[6](2008)在《基于地域因素的分布式决策树算法与其网格模型研究》一文中研究指出随着信息技术的发展,经济全球化进程的加快,连锁商业企业纷纷崛起,大量分布的连锁分店、配送中心与总店间通过网络互连,形成了分布型的商业共享数据环境。这种环境下,商业数据库中的数据存储形成了以下几个重要的特点:(1)每天都会有新的经营数据存入,数据量越来越大;(2)数据分布在各分店内,难以集中到统一的数据中心;(3)各区域数据特性不一致,具有分布分析的价值;(4)数据存储形式不一致,数据异构性与差异性大。本文针对这些数据存储的特点分析了传统的各种决策树算法,包括集中式决策树算法(如ID3、C4.5算法等)和分布式决策树算法(如SPRINT、SLIQ等),这些算法不是针对连锁商业企业的应用环境而研究的,难以满足日益复杂的连锁分布数据挖掘。本文深入讨论了面向连锁商业企业内部的分布式数据库之间存在的联系,认为不同地域之间由于生活习惯、经济水平、人口因素等原因的存在使得不同地域之间的消费习惯不同。因此,不同地域之间存储的消费数据会存在不同的特征。因此,本文提出了基于地域因素的分布式决策树ZDT算法,该算法针对连锁商业企业的地域分布特点,在J4.8算法的基础上加入地域因素,并将地域因素作为首要的分支属性,然后再以信息增益率为其它属性的选择标准,最后生成一棵基于地域因素的决策树,实现面向连锁商业企业的分布式的决策树挖掘。文中引入了地域因子和决策树特征差异的概念,并给出了决策树特征差异算法,通过地域分支算法获得决策树的地域分支头部,通过决策树特征差异率计算不同地域之间生成的决策树的特征相同程度。最后,对特征差异率超过指定阀值的决策树分支进行合并,由此避免生成的决策树过于庞大。本文在ZDT算法的实现过程中利用网格技术,实现基于网格技术的ZDM系统,即GZDM系统。GZDM利用多种优秀开源的工具,实现ZDT算法的分布式计算;GZDM实现BCS(Browse-Client-Server)结构,该结构保证用户可以通过浏览器对网格资源进行操作。第五章详细分析了GZDM的概念模型、基于VO-BUS的拓扑结构、ZDT算法在GZDM中的执行流程。最后通过实验测试GZDM与ZDT算法的可行性。经过实验的测试与分析,可以知道GZDM模型与ZDT算法在一定程度上是切实可行的,为连锁商业企业的分布式商业数据挖掘的应用提供了可操作的理论与实践模型。(本文来源于《浙江工商大学》期刊2008-02-01)

戴南,吉根林[7](2005)在《分布式决策树算法研究与实现》一文中研究指出提出了一种基于分布多库环境下的决策树生成算法DDTA(D istributed D ecision Tree A lgorithm).该算法使用基于信息熵增益的思想分割各个分布的、同构训练样本集,各分布站点利用服务器传来的分割属性分割自己的样本集,服务器则通过对所有分布站点传来的信息计算各个属性的信息熵增益得到分割属性.实验表明DDTA算法能对分布同构样本集进行有效决策树挖掘,分布多库环境下生成的决策树是正确的.与算法INDUS相比,该算法的通信代价小.(本文来源于《南京师范大学学报(工程技术版)》期刊2005年04期)

段红勇[8](2005)在《分布式关联规则算法和分布式决策树算法的对比研究》一文中研究指出随着计算机技术,网络技术的飞速发展以及广泛采用的分布式计算环境,DDOS网络攻击的行为也越来越多,入侵检测已经是非常重要的防御基础设施中的一种方式。但随着呈指数级增长的数据,传统的方式不能解决目前大规模分布式环境下的网络安全问题。数据挖掘,也叫数据库中的知识发现,能够从大量的数据中找到隐含的有用的知识,数据挖掘有很多种挖掘方式。例如:分类、关联、聚集、序列等。 本文阐述了分布式关联规则算法(FDM)、分布式分类决策树算法(SPRINT)。对这两种算法的特点作了详细的分析和比较,指出了它们各自的优势和不足。并参考这两种算法作者提出了在分布式入侵检测环境下的改进型的分布式关联规则算法(TFDM)、改进型的分布式决策树算法(TSPRINT)。两种算法使用Microsoft Visual C++6.0开发。试验数据用XML统一格式。通过对这两种算法性能的比较,我们得出结论。实验结果表明对分布式的大数据集的挖掘TFDM算法优于TSPRINT算法。(本文来源于《中南林学院》期刊2005-04-01)

分布式决策树算法论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着大数据时代带来的数据量激增问题,该研究以随机决策树算法为基础,通过分析单个树与多个树的概率估计,利用无监督局部敏感哈希函数(LSH)处理大数据敏感分类,在对分布式数据挖掘过程中,采用超平面hash减少超平面的可能空间和增加系数处理密集数据类型,结合Sim Hash间接生成随机向量,Fast Hash将整数映射到位图处理稀疏数据类型。最后,在Spark平台上运行8个小数据集和6个大数据集的模拟结果显示:改进后的算法不需要构造很多深度树,检验了改进算法运行在配置不同数量节点的集群上的可扩展性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

分布式决策树算法论文参考文献

[1].母亚双.分布式决策树算法在分类问题中的研究与实现[D].大连理工大学.2018

[2].石红姣.基于改进随机决策树算法的分布式数据挖掘[J].计算机与数字工程.2017

[3].沈建涛.基于分布式运算的决策树算法的研究与实现[J].南通职业大学学报.2017

[4].琚春华,肖亮.基于地域因素的连锁商业分布式决策树算法[J].系统工程理论与实践.2011

[5].彭国星.分布式关联规则算法和分布式决策树算法的对比研究[D].中南大学.2008

[6].孔忠勇.基于地域因素的分布式决策树算法与其网格模型研究[D].浙江工商大学.2008

[7].戴南,吉根林.分布式决策树算法研究与实现[J].南京师范大学学报(工程技术版).2005

[8].段红勇.分布式关联规则算法和分布式决策树算法的对比研究[D].中南林学院.2005

标签:;  ;  ;  ;  

分布式决策树算法论文-母亚双
下载Doc文档

猜你喜欢