树挖掘算法论文-杨洁

树挖掘算法论文-杨洁

导读:本文包含了树挖掘算法论文开题报告文献综述及选题提纲参考文献,主要关键词:云计算,Hadoop,C4.5算法,SPRINT算法

树挖掘算法论文文献综述

杨洁[1](2017)在《基于云计算的决策树挖掘算法研究》一文中研究指出随着计算机技术、通信技术以及Internet技术的飞速发展,全球内的数据量呈现出爆炸式增长。如何在海量数据中提取隐含在其中的、有价值的信息成为当今数据挖掘领域面临的一大难题。云计算凭借其强大的运算能力和巨大的存储能力为解决海量数据挖掘领域的难题提供了全新的思路。Hadoop是当前应用最广泛的云计算平台,由Apache基金会参考Google云实现的云计算解决方案,具有成本低廉、高通用性、高可靠性和可伸缩性等优势。决策树算法是数据挖掘算法中最容易理解且应用最普遍的算法模型。但是传统的决策树算法是运行在单机下的,受到CPU和内存制约,仅适用于小规模数据集的处理。本文介绍了Hadoop云计算平台,并对其中的两大关键技术HDFS和MapReduce作了详细的论述。本文选择了决策树算法中的C4.5算法和SPRINT算法作为研究对象。首先,对C4.5算法进行了改进,提出了选用两层信息增益率的新方法(D-C4.5算法),并对改进后的算法进行了并行化设计。同时,针对SPRINT算法中Gini指数存在的多值偏向问题,提出了计算两层Gini指数的新策略(D-SPRINT算法),并对该算法进行了并行化设计。为了更进一步的提高决策树算法的准确率,本文通过结合D-C4.5算法和D-SPRINT算法,提出了一种选择节点分裂属性的新方法(D-CS算法)。然后,对D-CS进行了并行化设计,使该算法更好的在Hadoop平台上执行。最后,通过实验表明D-C4.5算法和D-SPRINT算法比未改进的算法具有更高的准确率,并行化后的算法运行速度更快。D-CS算法的准确率高于D-C4.5算法和D-SPRINT算法,并行化的HD-CS算法具有较高的加速比,更适合处理海量数据。(本文来源于《南京邮电大学》期刊2017-10-26)

唐知毅[2](2016)在《闭合频繁子树挖掘算法研究》一文中研究指出互联网技术飞速发展使我们进入了一个大数据时代,大数据应用已经无时无刻、无处不在地改变着我们的日常生活。伴随着互联网技术的深入应用,互联网上的半结构化数据急剧增加,如何高效地挖掘利用半结构化数据已经成为了学术界的研究热点。随着频繁模式挖掘算法的不断发展,对树结构进行挖掘已经成为处理半结构化数据的有效手段。对频繁子树的挖掘,能够有效地提取半结构化数据中隐藏的信息,因而被广范应用于医疗、互联网、通信、生物信息、web挖掘等领域中。本文主要研究闭合频繁子树挖掘算法,文中提出了一种闭合频繁子树挖掘算法——PCTM算法。PCTM算法采用了模式增长策略,算法的主要思想是对数据集中的数据,从频繁度最大开始,逐步降低频繁度,在每次迭代中,将满足本次频繁度的边进行压缩,每轮将挖掘被压缩的树结构中的频繁子树。在频繁度逐步下降的过程中,每棵树结构都会被压缩,当树结构的所有边都被处理完成时,整棵树会被压缩为一个节点。当数据集中的所有树都压缩完成时,算法终止从而得到了所需要的频繁子树集合。PCTM算法采用了一种自上而下的方法,先从最大的支持度的边开始,不断地处理大支持度的边,同时,由于采用了压缩的树结构模型,每次迭代的过程中,可以压缩处理多条边而不是一次产生处理一个节点,这样在算法的过程中,会快速的处理多个节点,提高了算法的效率。在得到压缩的子结构后,对于整体不是频繁的子结构,需要判断该子结构是否含有频繁子树,通过前缀匹配的方法,依次以该压缩结构中的节点作为根节点,来生成频繁子树。在每次构建新的频繁子树的过程中,依次将不频繁子结构中的节点作为根节点来寻找可能的频繁子树,在较小的数据集上挖掘频繁子树,有效地降低了问题的复杂度,保证了算法能够快速地挖掘所有可能的频繁子树。最后在人工生成数据和真实数据集上进行实验,验证了PCTM算法的可行性与高效性。(本文来源于《吉林大学》期刊2016-10-01)

潘大胜,屈迟文[3](2016)在《一种改进ID3型决策树挖掘算法》一文中研究指出分析经典ID3型决策树挖掘算法中存在的问题,对其熵值计算过程进行改进,构建一种改进的ID3型决策树挖掘算法.重新设计决策树构建中的熵值计算过程,以获得具有全局最优的挖掘结果,并针对UCI数据集中的6类数据集展开挖掘实验.结果表明:改进后的挖掘算法在决策树构建的简洁程度和挖掘精度上,都明显优于ID3型决策树挖掘算法.(本文来源于《华侨大学学报(自然科学版)》期刊2016年01期)

李全[4](2015)在《适用于协议特征提取的多级T+序列树挖掘算法》一文中研究指出网络流量识别对于网络规划、网络管理和安全监测等非常重要。基于应用层的协议特征检测技术已成为网络流量识别的主流方法。但是在高速的网络流量识别的过程中,针对传统协议特征提取算法效率较低、可信度较差等问题,提出了一种适用于协议特征提取的多级T+序列树挖掘算法。该方法首先将序列数据库装入内存,构建多级T+序列树,接着对该树进行裁剪,然后通过构建投影T+序列树和连接等操作得到协议特征序列,最后通过一个实例说明了该算法的执行过程。实验结果表明:该算法较基于Prefix Span的协议识别算法能有效地减少扫描和产生序列数据库的次数,降低磁盘I/O操作的时间,提高了运行效率,从而保证了提取不同协议特征的正确性和可靠性。(本文来源于《计算机技术与发展》期刊2015年10期)

赵振崇[5](2015)在《基于Hadoop的决策树挖掘算法的研究》一文中研究指出当前,我们所面对的是一个逐渐开启的大数据时代。云计算与数据价值相辅相成,云计算技术趋于成熟为数据挖掘开辟了新的方向,大数据隐藏在深层次的宝贵价值推动着云计算技术的快速进步。数据挖掘算法对数据加工处理后,挖掘隐藏的数据价值,这有助于企业在这些数据价值基础上做出重大决策,促进社会的发展。但目前的常规挖掘算法在处理大数据时性能不高。将其结合当前炙热的云技术进行改进可较好适用大数据的处理,挖掘数据价值。Hadoop云平台的核心组成部分为HDFS和M apReduce,它是基于Java的分布式开源系统框架。底层的HDFS提供了具有高容错、高吞吐率的文件存储读写服务;MapR-educe模型的特性是将系统底层实现透明化,用户只需关注于应用程序。Hadoop提供的大数据存储平台和并行化计算平台,为传统数据挖掘算法能够处理大数据提供了基础。本文首先对云计算技术和数据挖掘技术的国内外现状进行探究,在此基础上,对当前的成熟的云计算平台进行研究分析的基础上,详细分析了Hadoop平台的关键技术HDFS文件系统和MapReduce编程模型。然后,较为深入地研究当前数据挖掘算法的详细情况,特别对目前成熟的决策树分类算法展开分析。接着本文论述了典型的决策树分类算法SPRINT算法和分类算法框架RainForest的原理,在此基础上,提出了SPRINT算法基于RainForest框架的优化算法RSPRINT,并通过实验进行验证优化的效果,实验表明IRSPRINT算法较于RainForest框架,有更好的伸缩性,即有效减少了算法在建树时的耗费时间。但在试验中我们发现IRSPRINT算法在处理一定大数据量时,其时间耗费优化效果不明显,我们通过分析IRSPRINT算法的并行性,提出了IRSPRINT算法在Hadoop平台上并行化算法HIRSPRINT,以进一步增加算法的扩展性,并用实验验证HIRSPRINT算法的改善效果和其并行化效率。实验结果表明,当数据量增加到一定值时,HIRSPR NT比IRSPRINT算法在时间耗费上有了明显的改善,而且随着并行节点数的增加有较好的并行化效率,即在Hadoop平台上拥有比较高的加速比。总而言之,本文有效的减少了SPRNT算法构建决策树的时间,并且能够有效处理海量数据,有效的提高了决策树算法处理大数据的能力。(本文来源于《兰州大学》期刊2015-04-01)

陈湘涛,张超,韩茜[6](2013)在《基于Hadoop的并行共享决策树挖掘算法研究》一文中研究指出共享知识挖掘是指通过学习不同事物之间的共享知识,将学习到的知识应用到未知事物来加快认知未知事物。针对大数据集中串行共享知识挖掘算法效率低下的问题,结合云计算技术,提出了一种基于Hadoop的并行共享决策树挖掘算法(PSDT)。该算法采用传统的属性表结构实现并行挖掘,但其I/O操作过多,影响算法性能,为此,进一步提出了一种混合并行共享决策树挖掘算法(HPSDT)。该算法采用混合数据结构,在计算分裂指标阶段使用属性表结构,在分裂阶段采用数据记录结构。数据分析表明,HPSDT算法简化了分裂过程,其I/O操作是PSDT的0.34左右。实验结果表明,PSDT和HPSDT都具有良好的并行性和扩展性;HPSDT比PSDT性能更好,并且随着数据集的增大,HPSDT的优越性更加明显。(本文来源于《计算机科学》期刊2013年11期)

张超[7](2013)在《基于Hadoop的共享决策树挖掘算法研究》一文中研究指出共享知识挖掘是指通过学习不同事物之间的共享知识,将学习到的知识应用到未知事物来加快认知未知事物。目前,已经有学者对共享知识挖掘进行了研究,并提出了共享挖掘算法。但是现有的共享挖掘算法都是串行的挖掘算法,只能处理小规模的数据集,已经无法满足数据急剧增长的需求。为此,本文主要针对共享知识挖掘算法的并行化做了一系列的研究,主要工作和贡献包括以下几点:(1)针对大数据集中共享知识串行挖掘算法效率低下的问题,通过引入云计算技术和决策树挖掘算法的并行思想,提出一种基于hadoop的并行共享决策树挖掘算法(PSDT),该算法基于MapReduce并行模型,采用传统的属性表结构实现共享决策树挖掘过程中的属性并行性和节点并行性;同时,利用MapReduce模型独特的排序机制实现了预排序属性表的并行处理。实验结果表明,相比串行的共享决策树挖掘算法(SDT),并行的PSDT算法能够处理更大规模的数据,具有良好的可扩展性;在处理较大规模的数据集时,PSDT算法的运行效率明显高于SDT算法。(2)针对Hadoop集群的性能瓶颈——I/O,从减少I/O的角度出发,采用“CPU换I/O”策略,提出了一种新颖的混合数据结构。基于混合数据结构的并行共享决策树挖掘算法(HPSDT),在计算分裂指标阶段使用属性表结构进行并行计算,在分裂阶段采用数据记录结构进行分裂。相比传统的属性表结构,混合数据结构既减少了数据冗余又简化了分裂过程,大大减少了I/O操作。数据分析表明,HPSDT算法简化了分裂过程,其I/O操作是PSDT的0.34左右。实验结果表明,HPSDT具有良好的并行性和扩展性。(3)在分析比较HPSDT挖掘算法和PSDT挖掘算法时间性能的基础上,进行试验验证。实验结果表明,对于同一数据集,HPSDT挖掘算法的时间性能要优于PSDT挖掘算法。在数据集的大小为917M时,PSDT与HPSDT的运行时间比率即达到了2.45,并且随着数据集的增大,HPSDT的优越性愈加明显。(本文来源于《湖南大学》期刊2013-05-08)

戴小廷,陈荣思,肖冰[8](2012)在《基于信息熵的决策树挖掘算法在智能电力营销中的应用》一文中研究指出针对目前电力营销管理系统缺少有效的营销数据决策支持的问题,将基于信息熵的决策树挖掘算法应用于电力营销中,并建立电力客户分类模型.实际应用结果表明,该分类模型具有较好的预测分类能力,能够满足电力营销工作中的客户及时准确分类的需要.(本文来源于《郑州轻工业学院学报(自然科学版)》期刊2012年03期)

唐德权,谢文君[9](2012)在《一种新的频繁子树挖掘算法研究与实现》一文中研究指出为提高频繁子树挖掘算法效率,结合原有频繁子树挖掘算法FSubtreeM的相关技术提出了新的全局树引导结构及其相关引理,并证明了其正确性。最后提出了新的频繁子树挖掘算法FSM_CGTG,并通过实验证明了该算法在现实数据集上的有效性且比现有频繁子树挖掘算法FSubtreeM性能优越。(本文来源于《计算机应用与软件》期刊2012年04期)

韩心慧,龚晓锐,诸葛建伟,邹磊,邹维[10](2011)在《基于频繁子树挖掘算法的网页木马检测技术》一文中研究指出针对目前互联网安全的主要威胁之一网页木马,基于网页木马的树状链接结构特征,引入频繁子树挖掘算法,对前期积累的4万多个恶意网页木马场景进行子树模式挖掘,提取了35个网页木马场景共同子树结构特征,利用这些特征在网页木马动态分析过程中辅助检测。实验表明:在加入基于子树特征的检测方法判定的网页木马中,动态检测方法有近20%的漏报。因此,基于子树特征的检测方法有效地提高了动态检测的检测能力和效率,同时挖掘出的典型子树模式提供了网页木马分类和溯源的依据。(本文来源于《清华大学学报(自然科学版)》期刊2011年10期)

树挖掘算法论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

互联网技术飞速发展使我们进入了一个大数据时代,大数据应用已经无时无刻、无处不在地改变着我们的日常生活。伴随着互联网技术的深入应用,互联网上的半结构化数据急剧增加,如何高效地挖掘利用半结构化数据已经成为了学术界的研究热点。随着频繁模式挖掘算法的不断发展,对树结构进行挖掘已经成为处理半结构化数据的有效手段。对频繁子树的挖掘,能够有效地提取半结构化数据中隐藏的信息,因而被广范应用于医疗、互联网、通信、生物信息、web挖掘等领域中。本文主要研究闭合频繁子树挖掘算法,文中提出了一种闭合频繁子树挖掘算法——PCTM算法。PCTM算法采用了模式增长策略,算法的主要思想是对数据集中的数据,从频繁度最大开始,逐步降低频繁度,在每次迭代中,将满足本次频繁度的边进行压缩,每轮将挖掘被压缩的树结构中的频繁子树。在频繁度逐步下降的过程中,每棵树结构都会被压缩,当树结构的所有边都被处理完成时,整棵树会被压缩为一个节点。当数据集中的所有树都压缩完成时,算法终止从而得到了所需要的频繁子树集合。PCTM算法采用了一种自上而下的方法,先从最大的支持度的边开始,不断地处理大支持度的边,同时,由于采用了压缩的树结构模型,每次迭代的过程中,可以压缩处理多条边而不是一次产生处理一个节点,这样在算法的过程中,会快速的处理多个节点,提高了算法的效率。在得到压缩的子结构后,对于整体不是频繁的子结构,需要判断该子结构是否含有频繁子树,通过前缀匹配的方法,依次以该压缩结构中的节点作为根节点,来生成频繁子树。在每次构建新的频繁子树的过程中,依次将不频繁子结构中的节点作为根节点来寻找可能的频繁子树,在较小的数据集上挖掘频繁子树,有效地降低了问题的复杂度,保证了算法能够快速地挖掘所有可能的频繁子树。最后在人工生成数据和真实数据集上进行实验,验证了PCTM算法的可行性与高效性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

树挖掘算法论文参考文献

[1].杨洁.基于云计算的决策树挖掘算法研究[D].南京邮电大学.2017

[2].唐知毅.闭合频繁子树挖掘算法研究[D].吉林大学.2016

[3].潘大胜,屈迟文.一种改进ID3型决策树挖掘算法[J].华侨大学学报(自然科学版).2016

[4].李全.适用于协议特征提取的多级T+序列树挖掘算法[J].计算机技术与发展.2015

[5].赵振崇.基于Hadoop的决策树挖掘算法的研究[D].兰州大学.2015

[6].陈湘涛,张超,韩茜.基于Hadoop的并行共享决策树挖掘算法研究[J].计算机科学.2013

[7].张超.基于Hadoop的共享决策树挖掘算法研究[D].湖南大学.2013

[8].戴小廷,陈荣思,肖冰.基于信息熵的决策树挖掘算法在智能电力营销中的应用[J].郑州轻工业学院学报(自然科学版).2012

[9].唐德权,谢文君.一种新的频繁子树挖掘算法研究与实现[J].计算机应用与软件.2012

[10].韩心慧,龚晓锐,诸葛建伟,邹磊,邹维.基于频繁子树挖掘算法的网页木马检测技术[J].清华大学学报(自然科学版).2011

标签:;  ;  ;  ;  

树挖掘算法论文-杨洁
下载Doc文档

猜你喜欢