并行决策树论文-郑少微,孔华锋

并行决策树论文-郑少微,孔华锋

导读:本文包含了并行决策树论文开题报告文献综述及选题提纲参考文献,主要关键词:MapReduce模型,ID3算法,Hadoop平台,并行化

并行决策树论文文献综述

郑少微,孔华锋[1](2019)在《基于MapReduce的ID3决策树算法并行化》一文中研究指出Hadoop提供了MapReduce并行的计算模型,适用于海量数据集的并行计算。ID3决策树分类算法可以简洁明了地构建决策树,在各行各业中被广泛地应用。但通常意义下的ID3决策树分类算法为单机算法,只能进行小数据集的处理。通过MapReduce与ID3决策树算法实现并行化,为此问题提供了解决方法。通过ID3算法与MapReduce并行计算模型相结合,实现并行化计算,验证了ID3算法的可扩展性、高效性。(本文来源于《电脑编程技巧与维护》期刊2019年07期)

孟广婷,王红,刘海燕[2](2018)在《融合并行投票决策树和半监督学习的鼠标轨迹识别方法》一文中研究指出本文针对已有鼠标轨迹识别方法存在的问题,提出了一种基于并行投票决策树的半监督鼠标轨迹识别方法.首先,本文对鼠标轨迹进行分析,根据多尺度特征思想提取出包括局部轨迹在内的105个特征,并对鼠标轨迹特征进行了划分.其次,本文提出了鼠标轨迹识别的半监督学习方法,避免过拟合和数据噪声的影响.最后,为了提高方法的效率,本文提出并行投票决策树模型,训练多尺度特征,对人的鼠标轨迹和机器鼠标轨迹进行分类.实验结果显示,本文方法具有较好的性能.(本文来源于《小型微型计算机系统》期刊2018年09期)

姜如霞[3](2018)在《基于YARN框架下决策树算法的并行化研究》一文中研究指出随着信息技术的不断进步与发展,各类有效的、有用的数据数量不断激增。这些数据中蕴含着丰富的知识,而当前最急迫的任务就是从海量数据中发现有价值的信息,把这些信息转化成有组织的知识。对于不同类型的数据需要运用不同的数据挖掘方法。决策树算法是分类的一种重要方法,也是一种典型的数据挖掘技术。决策树算法作为一种简单高效并且具有强解释性的模型,广泛应用于数据分析领域。对于海量数据来说,传统的决策树算法已经无法对它进行有效的处理。从某种意义上来说,并行化运算是当前处理海量数据的一种新模式。基于以上背景,本文重点研究以下叁个方面:第一,深入研究决策树算法,对C4.5算法进行优化(C4.5_YH算法)。将C4.5_YH算法应用到葡萄牙某银行挖掘认购存款的潜在用户上,实验结果表明,C4.5_YH算法计算量减少,分类准确率也有提高,构建的决策树贴合实际。第二,对当前Hadoop框架技术进行深入探讨。阐述了MapReduce的编程思想,工作原理等,然后又详细的介绍了YARN框架结构,工作原理等。并对Hadoop1.0与YARN进行了比较,事实表明YARN框架在海量数据的处理上具有明显的优势。第叁,通过对决策树算法过程的详细研究,对其过程进行并行化设计,包括属性并行、连续属性离散化并行、节点并行、剪枝并行等过程,之后以C4.5_YH算法为例详细介绍了并行化的实现。并利用Hadoop平台的YARN框架实现C4.5_YH算法的并行化计算的实验,实验结果表明,基于YARN框架下决策树算法的并行计算的高效性,可靠性。(本文来源于《南昌大学》期刊2018-06-02)

吕涛[4](2018)在《基于Hadoop平台的并行决策树算法研究》一文中研究指出科学技术的发展给人们带来便利的同时,也会给我们提出新的问题,新的挑战。当我们使用互联网进行信息传递与交互的时候,会产生大量的数据信息,传统的单机算法已无法满足现在的计算需求。这就促使人们寻求新的技术来实现对大量数据的处理与分析。并行计算和大数据平台的应用成为目前最好的解决方案。分类算法用于对事务的分类和预测,对人类认识事物做出正确的指引,是重要的数据挖掘任务。Hadoop是一种分布式系统基础架构,具有可跨平台性、高容错性等优点。采用分布式数据块存储,能够高并发、高容错的处理大规模数据。文中将主要分两部分来展开对Hadoop上分类并行算法的研究工作。(1)在研究C4.5算法的基础上,提出了基于Hadoop的并行分类算法HD_C4.5,并进行了 MapReduce的并行化实现。算法HD_C4.5充分利用MapReduce计算框架将属性选择度量的关键任务进行最大化的并行处理,有效的解决了选取最佳分裂属性对计算机资源的占用,提高了效率。在构建的完全分布式Hadoop集群中完成了实验,经过对比分析,结果显示本文提出的算法性能更优。(2)提出一种基于Hadoop的并行共享决策树挖掘算法的剪枝改进算法。该算法在决策树实现对共享知识的并行挖掘下,通过将不确定概率误差分类数作为剪枝选择依据,对决策树剪枝,减少训练集不可靠性对模型的影响来提升算法性能,而且随着数据集的增大,改进算法的优越性更加明显。在搭建的大数据Hadoop平台框架下,进行了对比实验。结果显示,改进之后的算法用时更少、效率更高,能更好的适应大数据处理需求。(本文来源于《西安科技大学》期刊2018-06-01)

余新华[5](2018)在《数据挖掘网格中决策树并行算法设计及性能分析》一文中研究指出数据挖掘网格中的决策树算法属于并行算法,它能够保证传统串行分类算法在多台PC计算机与服务器所组建的数据挖掘网格中实现对并行数据的深度挖掘。本文就简要阐述了数据挖掘网格中的决策树并行算法及其数据试验过程,并对它的算法性能进行分析。(本文来源于《中国新通信》期刊2018年04期)

张永潘[6](2017)在《基于大数据平台的决策树分类算法及并行化研究》一文中研究指出随着数据库、物联网技术及各种信息技术的迅猛发展,越来越多的数据从各行各业(如:电信运营商、证券金融银行、互联网终端等)当中产生。海量的数据在日积月累不断地爆发式增长,我们必须探求如何在大数据中获得更多的价值,可见对海量数据的处理和分析的需求迫在眉睫。大数据的主要特点有:海量(volume)、高速(velocity)、准确(veracity)、多样(variety)等,大数据技术发展的起步阶段,国内外研究的主要侧重点是处理海量数据和处理多样的数据类型。然而在当前互联网时代下的大数据大多都存在于金融股票、运营商网络流量、网站实时请求、交通数据流等业务背景下,数据的形式大多是以高速的流式数据形态传递。与存储在传统数据库中的静态数据不同,流式数据作为一种新的数据形态,对数据分析过程的高速性和准确性要求更加的严格。对于流式数据的分析处理需要我们能够快速的记录实时数据流信息并更加准确的保证信息的时效性。本文对以上问题进行了深入的调研与分析,充分研究国内外流数据处理平台和方法的特点与优势,并提出一种大数据环境下的流式数据概念漂移检测算法和并行化的决策树分类算法,主要用于解决不稳定流数据的隐含概念漂移检测和处理。在提出的P-HT并行化决策树分类算法基础上,设计了一种基于分布式流处理平台的流数据并行化建模算法及实时分类评估框架。首先本文将对传统的分类算法进行增量化的改进以适应流数据处理的需求,其次,根据流数据的特点提出概念漂移检测的ADDS算法和基于Storm平台的并行化P-HT决策树分类算法。最后,将两种算法分别进行了实验分析,实验结果ADDS算法有较好的概念漂移探测效果,P-HT决策树分类算法有较高的效率和抗概念漂移性能。(本文来源于《南京邮电大学》期刊2017-10-26)

魏小燕[7](2016)在《非规则齿轮行星系扎穴机构设计——基于粒计算决策树并行算法》一文中研究指出作为占据世界21%人口的农业大国,中国要发展先进的现代农业,需要合理使用化学肥料,提高肥料的使用效率。与固态肥料相比较,液态更容易被作物吸收,肥料利用更直接,效率较高,经济成本更低。在国际上,俄罗斯、美国、澳大利亚等国家已经率先使用了液态肥料。为了节省肥料、提高农作物对肥料的吸收利用率、节省经济成本及降低对土壤的污染,基于粒计算决策树并行算法,设计了非规则齿轮行星系扎穴机构。该扎穴装置在作业中,化学肥液浪费较少、吸收效率较高。(本文来源于《农机化研究》期刊2016年11期)

周浩,刘萍,邱桃荣,白小明[8](2015)在《基于粒计算的决策树并行算法的应用》一文中研究指出针对传统的决策树分类算法不能有效解决海量数据挖掘的问题,结合并行处理模型MapReduce,研究基于粒计算的ID3决策树分类的并行化处理方法。基于信息粒的二进制表示来构建属性的二进制信息粒向量,给出数据集的二进制信息粒关联矩阵表示;基于二进制信息粒关联矩阵,提出属性的信息增益的计算方法,设计基于MapReduce的粒计算决策树并行分类算法。通过使用标准数据集和实际气象领域的雷电真实数据集进行测试,验证了该算法的有效性。(本文来源于《计算机工程与设计》期刊2015年06期)

王姗姗[9](2015)在《MapReduce框架下并行有序决策树及有序决策森林》一文中研究指出传统的有序决策树能有效处理单调分类问题。然而,从大数据集中用这些算法学习单调决策树却是非常困难的。为了解决从大数据集中生成有序决策树的问题,本文在MapReduce框架下,提出了一种并行处理方法。和传统的有序决策树归纳算法类似,我们用有序互信息作为启发式来选择扩展属性。和现存的有序决策树归纳算法计算互信息的方法不同,本文应用属性并行化策略计算有序互信息。在人工生成的大数据集上的实验结果显示本文提出的算法是可行的,而且从加速比(speed-up),扩展比(scale-up)和承载比(size-up)叁方面证实本文提出的算法是行之有效的。基于VC-DRSA理论完成有序随机森林算法,并结合MapReduce计算框架,在Hadoop平台上对有序随机森林算法进行了并行化,提高了算法的运行效率;实验结果也证实了该算法的可行性及有效性。(本文来源于《河北大学》期刊2015-05-01)

李力[10](2015)在《基于Hadoop的决策树分类算法的并行化研究》一文中研究指出随着计算机和网络技术的迅速发展,数据呈爆炸式增长。大数据的有效存储和处理成为各大企业当前面临的最艰巨的任务之一。如何高效、低成本的从海量数据中挖掘出潜在、有用的信息是数据挖掘技术当前面临的一大难题。在数据挖掘算法中决策树分类算法占有重要地位,决策树分类算法被视为是一种重要的分类和预测手段。但传统的决策树分类算法为内存驻留算法,在单机环境下,由于内存的限制,只能处理小规模的数据;其次,决策树分类算法最耗时的阶段为分割指标的计算阶段;再者,决策树的生成过程是一个递归过程,时间复杂度高。因此本文旨在解决传统决策树算法不能处理大规模数据的问题,以及如何高效的处理大规模数据的问题。近来,云计算的出现,为数据挖掘技术的进一步发展带来了新的前景。因为云计算不仅具有海量存储的能力,而且还提供并行处理的能力;其次,云计算系统可以构建在普通的、廉价的PC机上,代替高性能计算机,大大降低了成本。因此,云计算的出现,使数据挖掘技术进入了云挖掘的时代。Hadoop是Apache基金会开发的一个分布式系统基础框架,其中,HDFS分布式存储文件系统和Map Reduce分布式计算框架是Hadoop最重要的设计。其次,Hadoop使得用户在进行分布式程序开发的时候可以不用了解分布式的底层细节,并提供了一种高效、低成本、可扩展的计算模式。本文通过分析算法本身的特点,结合Map Reduce编程模式,将决策树分类算法移植到Hadoop平台上,从而实现了高效、低成本的数据挖掘工作。本文的主要工作如下:(1)针对传统的ID3决策树分类算法不能处理大规模数据的问题,通过引入云计算的并行化思想,提出了一种基于Hadoop平台的并行决策树分类算法H_ID3H_ID3算法利用Map Reduce编程模型,实现了数据集纵向划分的并行化、横向划分的并行化以及决策树同一层所有节点最佳分裂属性选择的并行化。通过算法的实现及相关实验,验证了算法的可行性,其次还可以得到如下结论:H_ID3算法能够处理大规模的数据集,且具有良好的可扩展性和高加速比;其次,在处理的数据集规模较大时,H_ID3算法的效率明显高于ID3算法。(第3章)(2)针对传统C4.5决策树分类算法不能处理大规模数据的问题,提出了一种基于Hadoop平台的决策树分类算法H_C4.5H_C4.5算法和H_ID3算法的并行化思想大致相同,只是最佳分裂属性的选择标准不同。同样,通过算法的实现及相关实验,验证了算法的可行性,以及H_C4.5算法具有的高效性、高扩展性和高加速比。(第4章)(3)针对传统CART决策树分类算法不能处理大规模数据的问题,提出了一种基于Hadoop平台的决策树分类算法H_CARTH_CART算法利用Map Reduce模型,实现了对数据集的并行划分,以及利用Map Reduce本身具有的排序功能,实现对连续属性值的并行化排序;其次,同样也实现了决策树同一层所有节点最佳分裂属性的并行化计算,大大提高了算法效率。通过算法的实现和相关实验,验证了算法的可行性和H_CART算法具有的高效性、高可扩展性和高加速比。(第5章)(本文来源于《四川师范大学》期刊2015-04-24)

并行决策树论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文针对已有鼠标轨迹识别方法存在的问题,提出了一种基于并行投票决策树的半监督鼠标轨迹识别方法.首先,本文对鼠标轨迹进行分析,根据多尺度特征思想提取出包括局部轨迹在内的105个特征,并对鼠标轨迹特征进行了划分.其次,本文提出了鼠标轨迹识别的半监督学习方法,避免过拟合和数据噪声的影响.最后,为了提高方法的效率,本文提出并行投票决策树模型,训练多尺度特征,对人的鼠标轨迹和机器鼠标轨迹进行分类.实验结果显示,本文方法具有较好的性能.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

并行决策树论文参考文献

[1].郑少微,孔华锋.基于MapReduce的ID3决策树算法并行化[J].电脑编程技巧与维护.2019

[2].孟广婷,王红,刘海燕.融合并行投票决策树和半监督学习的鼠标轨迹识别方法[J].小型微型计算机系统.2018

[3].姜如霞.基于YARN框架下决策树算法的并行化研究[D].南昌大学.2018

[4].吕涛.基于Hadoop平台的并行决策树算法研究[D].西安科技大学.2018

[5].余新华.数据挖掘网格中决策树并行算法设计及性能分析[J].中国新通信.2018

[6].张永潘.基于大数据平台的决策树分类算法及并行化研究[D].南京邮电大学.2017

[7].魏小燕.非规则齿轮行星系扎穴机构设计——基于粒计算决策树并行算法[J].农机化研究.2016

[8].周浩,刘萍,邱桃荣,白小明.基于粒计算的决策树并行算法的应用[J].计算机工程与设计.2015

[9].王姗姗.MapReduce框架下并行有序决策树及有序决策森林[D].河北大学.2015

[10].李力.基于Hadoop的决策树分类算法的并行化研究[D].四川师范大学.2015

标签:;  ;  ;  ;  

并行决策树论文-郑少微,孔华锋
下载Doc文档

猜你喜欢