并行关联规则挖掘论文-刘莉萍,章新友,牛晓录,郭永坤,丁亮

并行关联规则挖掘论文-刘莉萍,章新友,牛晓录,郭永坤,丁亮

导读:本文包含了并行关联规则挖掘论文开题报告文献综述及选题提纲参考文献,主要关键词:Spark,并行,关联规则挖掘,Apriori

并行关联规则挖掘论文文献综述

刘莉萍,章新友,牛晓录,郭永坤,丁亮[1](2019)在《基于Spark的并行关联规则挖掘算法研究综述》一文中研究指出关联规则挖掘是数据挖掘的一个重要分支,但随着数据的快速增长,传统关联规则挖掘算法不能很好地适应大数据的要求,需要在分布式、并行计算的平台上寻找突破。Spark是专门为大数据处理而设计的一个适合迭代运算的并行计算模型,相比MapReduce具有更高效、充分利用内存、更适合迭代计算和交互式处理的优点。对已有的基于Spark的并行关联规则挖掘算法进行了分类和综述,并总结了各自的优缺点和适用范围,为下一步的研究提供参考。(本文来源于《计算机工程与应用》期刊2019年09期)

许德心,李玲娟[2](2019)在《基于Spark的关联规则挖掘算法并行化研究》一文中研究指出关联规则挖掘是一项重要的数据挖掘任务,关联规则挖掘算法能从数据中挖掘出潜在的关联关系,其中Apriori算法是典型代表。Spark平台是一个分布式的基于内存的适合迭代计算的大数据框架。以提高强关联规则的挖掘效率为目标,设计了一种Apriori算法基于Spark的并行化方案。该方案利用Spark平台的分布式架构以及集群调度机制,将事务数据集分发给多个子节点,各子节点调用transformation操作求得局部候选项集及支持度,并存储于内存中;汇总节点中的局部候选项集产生全局候选项集和全局频繁项集;不断迭代,直到下一级候选项集不存在为止。性能测试实验结果表明,基于Spark平台的并行化Apriori算法可以有效地分析大型数据项集之间的频繁项集和提取强关联规则,具有较高的准确性和时效性。(本文来源于《计算机技术与发展》期刊2019年03期)

李琪[3](2018)在《基于MapReduce并行的关联规则挖掘算法研究与应用》一文中研究指出随着计算机软硬件技术和互联网的普及与发展,来自各行各业的海量数据被记录和存储了下来,并呈现出爆炸式的增长。随着数据量的不断增长和数据内容越来越全面,从中我们可以了解到用户的行为习惯、用户的价值观念等重要的信息,这是传统的数据所不具备的。而这些信息和知识又反过来可以指导公司或者厂商进行对应的改进,获得更高的收益。所以说,海量的数据背后隐藏着巨大的价值,亟待被挖掘和开发。因此,数据挖掘方面的研究日渐成为人们所聚焦的对象。身为数据挖掘一个重要组成部分的关联规则挖掘,也日益被人们所重视。鉴于原有的静态数据挖掘中获取频繁模式效率较低的问题,本文围绕着关联规则算法的优化和改进进行了一系列的分析和研究。首先,简要介绍了有关数据挖掘的知识和技术,以及关联规则所涉及的相关内容,包括各种不同种类的算法、步骤等。然后本文详细介绍了用于关联规则挖掘的经典算法Apriori以及目前较为流行的基于压缩矩阵的关联规则挖掘算法,并针对他们的问题进行分析和探讨,从而提出了一种改进和优化的MAR-DPS算法。MAR-DPS算法不仅具有一系列的深度剪枝策略,从而尽可能的减少候选项集的生成,而且还可以根据不同数据集的特点,选择不同的生成频繁2-项集的方式,从而尽可能的节约时间。我们在之后的实验部分分别使用了 3个数据集来验证算法的良好性能。考虑到现在的数据挖掘所面对的是比过去大几十倍甚至更多的数据量,现有的单节点的挖掘方式在执行时间和效率上已经不能满足我们的要求,因此,并行计算技术成为我们可以尝试的选择。目前成熟和流行的可以进行并行计算的分布式框架主要有Apache Hadoop和Apache Spark。两个不同框架的特点各不相同:Hadoop适合于离线数据的计算处理、不需要多次迭代的场景,而Spark基于内存进行计算的模式更加适应迭代计算。而且相比Hadoop提供的低抽象层次的模型,Spark提供的多种算子可以让使用者更专注于任务而不是代码本身。因此,我们尝试将MAR-DPS算法迁移到Spark分布式平台上,从而更加从容的面对海量数据所带来的困难和压力,并高效的搜寻出海量数据中的关联规则。(本文来源于《北京邮电大学》期刊2018-03-14)

邵全义,郭雯雯[4](2018)在《Map Reduce计算模型下并行关联规则挖掘算法研究》一文中研究指出随着大数据时代的来临,数据的量呈现出了爆炸式的增长,在数据挖掘技术上面,传统的算法的弊端逐渐暴露。对于数据挖掘来说,其中最为核心就是关联规则的挖掘,大数据下对数据挖掘的要求不断增加,开发分布式以及并行的关联规则挖掘算法已经逐渐成为当下数据挖掘的重要课题,而Map Reduce就是一种现今较为流行的分布式并行的计算模型,该文就以Map Reduce计算模型进行探讨,对相关的概念进行介绍,并对未来的数据挖掘算法的走向进行展望,希望能够促进关联规则挖掘算法的发展。(本文来源于《电脑知识与技术》期刊2018年05期)

肖文,胡娟,周晓峰[5](2018)在《基于MapReduce计算模型的并行关联规则挖掘算法研究综述》一文中研究指出随着数据的爆炸式增长,传统的算法已不能适应大数据挖掘的需要,需要分布式、并行的关联规则挖掘算法来解决上述问题。MapReduce是一种流行的分布式并行计算模型,因其使用简单、伸缩性好、自动负载均衡和自动容错等优点,得到了广泛的应用。对已有的基于MapReduce计算模型的并行关联规则挖掘算法进行了分类和综述,对其各自的优缺点和适用范围进行了总结,并对下一步的研究进行了展望。(本文来源于《计算机应用研究》期刊2018年01期)

张玲[6](2017)在《基于Hadoop平台并行关联规则挖掘算法研究》一文中研究指出数据规模的爆炸性增长给传统计算机技术和串行算法带来挑战,同时也带来了新的发展机遇。“大数据”顺应而生。大数据使串行化关联规则算法需要重写,串行算法的并行化迫在眉睫,并行计算和大数据平台的应用是好的解决方案。关联规则用于发现信息与信息之间存在的关系,是重要的数据挖掘任务。关联规则传统算法Apriori算法和FP-Growth算法处理大数据时,单机处理发生内存溢出情况。使用Hadoop进行关联规则研究,降低编程难度,数据分片,因此Hadoop上关联规则并行算法研究是一个重要课题。针对此问题,本文进行了如下研究:(l)研究了 H-Apriori(Apriori algorithm based on Hadoop)算法并改进其算法。大数据环境下,Apriori串行算法难以处理海量数据,H-Apriori算法的中间过程产生大量值为1的键/值对,并且读取全部的事务,以致产生了大量的候选项并消耗了运算时间。本文采用删除非频繁项达到减少冗余数据的目的。重构数据库,优化读取事务步骤,提出了基于Hadoop的改进算法。有效约简了事务数据库,使用哈希树计数减少计数时间,提高了算法效率。(2)提出了一种基于Hadoop平台的负载均衡数据分割FP-Growth的改进算法。大数据环境下,FP-Growth串行算法难以处理海量数据,PFP(ParallelFP-Growth)难以处理一定量的数据。改进算法使用负载量估计、改进的均衡化分组方法进行均衡化分组,克服了 PFP数据量增大不能处理、负载不均衡的缺点。改进算法可以有效平衡集群各节点的负载,缩短整个集群的算法运行时间。搭建大数据Hadoop平台框架后,进行了对比实验。通过权威数据验证算法实效性。实验表明,改进算法能够更好的适应大数据,并且效率较高。(本文来源于《西安科技大学》期刊2017-06-01)

于跃[7](2017)在《基于Hadoop平台的并行化分布式关联规则挖掘算法研究》一文中研究指出随着近些年科学技术的飞速发展,人们日常生活中通过计算机、手机等终端平台进行的一系列行为都会产生大量的数据,而产生数据、获取数据的方式也在与日俱增。在当今这个数据时代的大背景下,各种数据都以急速的势态不断增长,能够达到日产数据量几百TB乃至PB级别的大型网络企业屡见不鲜。如何从如此庞大的数据库中快速、高效、准确地获取信息,是现今计算机科学研究的热点之一。并行化分布式挖掘算法是针对可能存在的跨地域的海量数据进行分析的一种重要手段,具有非常重要的研究意义和实用价值。关联规则挖掘算法是经典的数据挖掘算法之一,具有很强的学习价值和参考价值。传统的关联规则挖掘算法会将候选集一一缓存输出,在并行化的前提下还要进行网络交换。但是在大数据量的背景下,生成的候选项目集会出现暴增的情况,容易对机器的内存造成负担,影响算法的效率。针对算法原有的缺陷,本文提出一种优化算法Y-IDA算法,直接在内存中将合并计数的过程完成,替代传统的将候选集逐一输出的方法来优化算法,同时修改Hadoop接口,改变Map Reduce的读入模式,利用生成的首个频繁项集对数据库进行清洗,降低了内存消耗和CPU占用时间,提高了算法的执行效率。本文主要工作包括:1)实现基本算法串行Apriori,为后续并行化打下基础;2)针对并行化的Apriori算法提出了优化算法Y-IDA,该算法在内存中将合并计数的的过程完成,替代传统的将候选集逐一输出的方法,同时改变Map Reduce传统的读入模式,减少执行过程中的通讯量,并且在生成候选1项集后对数据进行清洗,去除无效数据;3)在Hadoop平台上实现关联规则算法的并行化,在现有的实验条件下提出实验方案,验证了Y-IDA算法的结果与经典算法相同,分别在时间效率、内存消耗、磁盘读写、CPU占用等方面进行详细比对。结合本文工作,通过Hadoop完全分布式平台,采用数据挖掘离散测试数据进行实现,可以得到的结果是:改进后的算法可以缩短执行时间,在内存消耗、CPU占用、磁盘I/O读写方面都有较好的表现,得到改进的算法具有可行性和普遍意义的结论。(本文来源于《吉林大学》期刊2017-04-01)

张晓东[8](2016)在《基于自适应算法和并行计算的类关联规则挖掘研究》一文中研究指出随着科技的进步和人类社会文明程度的不断提高,人们需要处理的数据量越来越大。在数据量如此丰富的信息时代,如何从如此浩瀚的数据中挖掘出我们所需要的知识和信息成为一个十分现实和重要的问题。关联规则的挖掘是数据挖掘中的一个重要分支。而在现实生活中,我们更需要考虑关联规则和分类之间是否存在某种对应关系,这就是一种特殊的关联规则——类关联规则。一方面在现实生活中,描述数据元素的属性可能是随时变化的,变化的属性会增加很多有用的信息,但是也会增加挖掘的难度和复杂度。另一方面,现有的类关联规则挖掘算法大多都是顺序算法,即使用一个处理器从头到尾按部就班的执行,这种算法在当今计算机普遍采用多处理机系统的条件下显得格格不入,效率低下,不利于实际的应用。本文针对以上两点问题,把自适应挖掘算法和并行思想融入到类关联规则的挖掘之中,改进了传统的CAR-Miner算法。主要研究内容如下:⒈简单介绍了数据挖掘、关联规则和类关联规则的相关概念和定义,以及类关联规则挖掘问题的国内外研究现状。⒉传统的类关联规则挖掘算法只保证了挖掘结果的完备性,前提是描述数据元素的属性集固定不变。而在实际情况中,用于描述数据集中数据元素的属性数量可能会动态增加,这时如果重新运行一遍传统算法需要花费太多的时间。因此,针对属性增加的情况,我们提出了一种自适应类关联规则挖掘算法,这种算法能够对变化的属性做出较快的反应,只挖掘那些之前没有产生的新规则,这样就充分利用了第一次的挖掘结果,提高挖掘效率的同时,保证了挖掘结果的完备性。⒊针对传统的顺序算法效率低下的缺点,本文用并行思想对其进行改进。我们采用了独立类和共享类两种并行策略,对算法做并行化处理,并通过实验验证了两种策略的有效性。之后,我们又对共享类进行了改进,使其能够在更小的粒度上进行操作,我们又通过仿真实验对传统算法、共享类和新算法的效率进行了对比。通过分析仿真实验的结果可以得出,改进的算法具有现实的可行性和有效性,大大提高了类关联规则的挖掘效率。但是我们的研究也并不完善,仍然有很多不足和需要改进的地方,比如我们提出的改进算法只适用于旧有属性及其取值保持不变而新属性及对应的取值加入数据集的时候,这就使我们提出的自适应算法的适用范围受到了极大的限制;我们也没有考虑到对挖掘结果施加限制条件,筛选出用户所需要的规则等等。这些都是我们以后需要进一步研究的方向。(本文来源于《青岛理工大学》期刊2016-10-01)

刘智勇[9](2016)在《关联规则挖掘的并行化算法研究》一文中研究指出随着信息技术的不断发展,各行各业己经积累了大量的数据,为了将这些数据转化为有用的知识,产生了数据挖掘技术。然而,传统的串行化数据挖掘技术在面对海量数据时效率难以让人满意。并行化技术近年来发展迅速,可以有效提升算法效率,是处理海量数据的利器,因此,使用并行化技术提升数据挖掘算法效率成为时下的研究热点。关联规则挖掘技术是数据挖掘的一个重要分支,主要研究的是事务数据库中有利用价值项之间的关系。频繁项集挖掘是关联规则挖掘中最重要的环节,因此本文中的关联规则挖掘算法其实也是针对如何挖掘频繁模式的频繁模式挖掘算法。关联规则挖掘中的基本算法主要有多候选产生算法(Apriori,划分,抽样等),模式增长算法(FP-growth, HMine, FPMax, Close+等)和垂直格式算法(Eclat, CHARM等)。本文旨在将部分关联规则挖掘算法与并行计算技术相结合,介绍若干个关联规则挖掘算法的并行化方案。本文分别探讨了基于CPU、GPU和分布式环境下的并行关联规则挖掘算法,介绍了相关的并行化技术,并对本文中用到的两个重要技术GPU-CUDA并行计算框架和MapReduce-Spark并行计算框架做了详细介绍。FP-growth算法是一种基于内存的频繁模式挖掘算法。然而,当数据集很大或者支持度阈值太小时,构造基于主存的全局频繁模式树是不现实的。FP-growth算法扩展化方案将大数据集切分成小数据集,然后通过在这些小数据集执行FP-growth算法来解决此问题。本文在分析研究FP-growth算法扩展化方案的基础上,采用并行投影的核心思想,介绍了一种简单分组算法。在考虑节点间负载均衡的基础上,对简单分组算法改进,介绍了一种负载均衡的分组算法。基于上述分组算法,实现了基于Spark的并行FP-growth算法-Spark-FP-growth算法,该算法通过分组算法将大数据集切分成小数据集,然后分别在小数据集上并行执行FP-growth算法得到频繁项集。为了进一步提升算法效率,本文又引入Topk聚集的思想,将小数据集上的FP-growth算法提升为Topk-FP-growth算法,加强了算法的可用性和速度性能。基于上述算法,本文又研究了关联规则挖掘算法在Spark-GPU平台上的并行化方案。在分析研究众多Spark和GPU融合技术的基础上,采用Spark RDD pipe接口调用GPU-CUDA程序实现Spark和GPU的结合。基于Spark-GPU平台的关联规则挖掘算法-Spark-GPU-Apriori算法依然采用Spark-FP-growth算法的分组模型,但将小数据上的FP-growth算法替换为使用CUDA加速的Apriori算法。Spark-GPU-Apriori算法展现了一种涵盖多种并行级别,将Spark和GPU有机结合的并行关联规则挖掘算法。以Spark-Apriori算法和Spark-mblib-FP-growth算法作为基准算法。本文分别测试对比了Spark-SPFP-growth算法、Spark-BPFP-growth算法和Spark-GPU-Apriori算法的速度性能和扩展性性能。实验结果表明:Spark-FP-growth算法在速度性能和扩展性性能方面均明显优于Spark-Apriori算法,在大型数据集和低支持度情况下也优于Spark-mblib-FP-growth算法。Spark-GPU-Apriori算法在速度性能和扩展性性能方面优于Spark-Apriori算法,但比Spark-mblib-FP-growth算法稍差。(本文来源于《东南大学》期刊2016-06-01)

熊富蕊[10](2016)在《关联规则挖掘中的MapReduce并行架构与隐私保护研究》一文中研究指出随着信息网络技术的快速发展,全球数据量呈现爆炸式增长,如何从海量数据中快速的挖掘出有用信息是当今社会亟待解决的问题。关联规则是数据挖掘中一个非常重要的技术,被广泛的应用于各个领域。如何使用关联规则正确地挖掘是数据挖掘的首要任务,也是本文的研究重点。由于传统关联规则算法在挖掘海量数据时,效率较低且大多会出现内存不足的现象,而并行技术可以高效处理海量数据,因此,并行关联规则算法的研究具有重大实际意义。同时,随着数据挖掘技术的不断提高,用户的隐私可能会遭到泄露,实现数据的隐私保护也是必要的。因此,本文针对隐私保护和海量数据挖掘问题,提出了基于隐私保护的并行PRRCHA算法和基于MapReduce的并行MRFP算法。本文的主要研究工作如下:(1)传统的Apriori算法需要生成大量的候选项目集,并且对计算机内存要求较高。针对Apriori算法的这些缺点,本文提出了基于MapReduce的并行PCHA算法。首先对Apriori算法采用比较方法和hash树结构优化得到CHA算法,简化了最大频繁项目集的生成步骤,减少了候选项目集的生成数目,并精确地获得所有频繁项目集。其次,利用MapReduce编程模式分析CHA算法的频繁模式挖掘过程,进行数据的独立分组,保证算法的完备性并实现算法的每步并行化,最后,通过实验验证PCHA算法不仅具有高效处理海量数据的能力,且可以有效地解决Apriori算法在挖掘海量数据时内存不足的问题。(2)针对传统Fp-growth算法在生成Fp-tree时,需要大量遍历共享前缀的问题,本文首先给出了基于Fp-growth的排序优化RFP算法,通过重新排序整个数据集,缩减遍历共享前缀的时间,提高构造Fp-tree的效率。然后,将MapReduce编程模式与RFP算法进行结合,提出了基于MapReduce的并行PRFP算法,实现了数据的独立分组和算法的完备性。最后,通过实验验证,并行PRFP算法具有高效处理海量数据的能力,且可以有效地解决Fp-growth算法在挖掘海量数据时内存不足的问题。(3)由于挖掘能力的提高以及大量个人信息被收集,因此隐私保护问题已经成为数据挖掘技术发展中的一项重要课题。目前国内外研究了许多隐私保护技术来解决这个问题,但该技术无法高效处理大数据。因此,本文提出了一种基于隐私保护的并行数据挖掘算法--PRRCHA算法。PRRCHA算法不仅可以保护数据的隐私,而且可以高效的处理大数据,并通过实验验证PRRCHA算法的时间复杂度大幅度降低。(本文来源于《北京交通大学》期刊2016-05-01)

并行关联规则挖掘论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

关联规则挖掘是一项重要的数据挖掘任务,关联规则挖掘算法能从数据中挖掘出潜在的关联关系,其中Apriori算法是典型代表。Spark平台是一个分布式的基于内存的适合迭代计算的大数据框架。以提高强关联规则的挖掘效率为目标,设计了一种Apriori算法基于Spark的并行化方案。该方案利用Spark平台的分布式架构以及集群调度机制,将事务数据集分发给多个子节点,各子节点调用transformation操作求得局部候选项集及支持度,并存储于内存中;汇总节点中的局部候选项集产生全局候选项集和全局频繁项集;不断迭代,直到下一级候选项集不存在为止。性能测试实验结果表明,基于Spark平台的并行化Apriori算法可以有效地分析大型数据项集之间的频繁项集和提取强关联规则,具有较高的准确性和时效性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

并行关联规则挖掘论文参考文献

[1].刘莉萍,章新友,牛晓录,郭永坤,丁亮.基于Spark的并行关联规则挖掘算法研究综述[J].计算机工程与应用.2019

[2].许德心,李玲娟.基于Spark的关联规则挖掘算法并行化研究[J].计算机技术与发展.2019

[3].李琪.基于MapReduce并行的关联规则挖掘算法研究与应用[D].北京邮电大学.2018

[4].邵全义,郭雯雯.MapReduce计算模型下并行关联规则挖掘算法研究[J].电脑知识与技术.2018

[5].肖文,胡娟,周晓峰.基于MapReduce计算模型的并行关联规则挖掘算法研究综述[J].计算机应用研究.2018

[6].张玲.基于Hadoop平台并行关联规则挖掘算法研究[D].西安科技大学.2017

[7].于跃.基于Hadoop平台的并行化分布式关联规则挖掘算法研究[D].吉林大学.2017

[8].张晓东.基于自适应算法和并行计算的类关联规则挖掘研究[D].青岛理工大学.2016

[9].刘智勇.关联规则挖掘的并行化算法研究[D].东南大学.2016

[10].熊富蕊.关联规则挖掘中的MapReduce并行架构与隐私保护研究[D].北京交通大学.2016

标签:;  ;  ;  ;  

并行关联规则挖掘论文-刘莉萍,章新友,牛晓录,郭永坤,丁亮
下载Doc文档

猜你喜欢