闭频繁项集论文-冯忠慧,尹绍宏

闭频繁项集论文-冯忠慧,尹绍宏

导读:本文包含了闭频繁项集论文开题报告文献综述及选题提纲参考文献,主要关键词:数据流,滑动窗口,垂直数据格式,并行计算

闭频繁项集论文文献综述

冯忠慧,尹绍宏[1](2018)在《数据流中闭频繁项集的并行挖掘算法》一文中研究指出闭频繁项集包含了关于频繁项集的完整信息,可显着减少频繁项集挖掘所产生的模式数量,在一定程度上降低了内存开销、提高了时间效率。数据流的特性决定了它需要更高效的挖掘算法,为此使用分治策略,提出一种并行化闭频繁项集挖掘算法PCFI。该算法采用垂直数据格式存储项集的事务,通过对事务集的集合运算,可快速得到项集的支持度计数,合并具有相同事务集的频繁项,得到初始生成子,降低了搜索空间的规模。采用分治策略对初始生成子进行并行处理,得到约简前序集和约简后序集,在挖掘过程中不断地对每一生成子的搜索空间进行减枝,得到更小的约简后序集,从而减少对冗余数据的处理。实验分析表明,该算法的性能优于先前设计的算法。(本文来源于《软件工程》期刊2018年08期)

党红恩,赵尔平,刘炜,雒伟群[2](2018)在《利用数据变换与并行运算的闭频繁项集挖掘方法》一文中研究指出针对传统闭频繁项集(CFI)挖掘方法耗时长、效率低的问题,提出一种基于数据变换与并行运算(DTPC)的新型挖掘方法:设计基于质数对数运算的数据变换方法,将大量数据转换成简单的数字;利用Spark并行框架中的平方/开方运算将这些数字转换成频繁项集.3 000万篇文章的大数据集实验结果表明,提出的DTPC算法可以大幅度提升数据挖掘效率,同时减少计算资源的不必要浪费.(本文来源于《湘潭大学自然科学学报》期刊2018年01期)

陈亮,张静,杨冠灿,雷孝平[3](2016)在《基于专利文本的闭频繁项集在技术演化分析中的应用》一文中研究指出[目的 /意义]将闭频繁项集挖掘技术应用于专利文本,进而分析技术的演化发展趋势,从微观层次描绘既定领域中主要的技术发展脉络。[方法 /过程]在进行闭频繁项集挖掘过程中,以专利文本的术语为事务、术语中的单词作为项,继而使用闭频繁项集之间的关联规则建立起术语层次网络,最后以术语层次网络为依托创建技术路线图。[结果 /结论]实证结果表明,该方法应用于硬盘驱动器磁头领域,能够刻画出不同术语的融合、派生过程,从而描绘出更加符合技术演化真实情况的技术路线图。(本文来源于《图书情报工作》期刊2016年06期)

张炘,王会勇[4](2014)在《频域徙动运动参数闭频繁项集挖掘算法》一文中研究指出高速多目标运动状态监测过程,运动参数的频域徙动导致参数估计和挖掘困难,传统方法对高速频率徙动运动目标参数的挖掘采用MapReduce框架的并行FP-Growth算法,算法需要对运动目标的速度和加速度进行预估计,实现困难。基于多普勒扩散的项集期望支持数模型,提出一种改进的基于闭频繁项集挖掘的高速多目标的运动参数挖掘算法,构建高速多目标运动参数信号模型,采用普勒频率模糊数搜索的方法完成高速多目标的频域徙动动态平滑,准确挖掘出运动参数的相位、时延、速度和频率等相关信息。研究结果表明,该算法能准确拟合时延、速度等运动参数,拟合值与真实值相同,对高速运动目标的运动参数估计精确,在高速运动目标参数挖掘和精确制导等方面具有较高的应用价值。(本文来源于《科技通报》期刊2014年10期)

徐杰[5](2014)在《分布式环境下的闭频繁项集挖掘算法研究》一文中研究指出随着大数据时代的到来人们拥有的数据越来越多,如何管理和运用这些数据成为人们迫切需要解决的问题。大数据的特点之一就是数据容量大,甚至大到无法在一个数据中心进行存储,因此分布式技术成为处理大数据的最优方案之一。针对不同的应用场景人们提出了不同的分布式解决方案,如网格,集群,云计算等。分布式存储系统解决了大数据的存放问题,使人们可以更安全,更高效的管理数据,但是仅仅拥有数据还是不够的,更重要的是从海量的数据里挖掘出对人们有用的信息。数据挖掘研究的内容就是从数据里搜索出对人们有用的知识,数据挖掘也成为知识发现。数据挖掘早期的研究着重于单机环境下的数据处理,但是随着数据的分布存储和数据数量的指数增长传统的数据挖掘算法以不能适用于当前的环境,因此许多学者针对不同的分布式环境和数据挖掘里的不同分支研究了新的能高效运行于分布式环境的数据挖掘算法。闭频繁项集挖掘是数据挖掘领域里的重要分支,也是许多挖掘算法里的必不可少的内容。但是闭频繁项集挖掘过程复杂包含了大量的计算,如何利用分布式巨大的数据处理能力来挖掘闭频繁项集成为人们研究的热点。本文利用几种新的数据结构研究了在分布式环境下的闭频繁项集挖掘算法,提高了分布式环境下闭频繁项集挖掘的效率。频繁模式树最初用于挖掘频繁项集,能够很好的保存项集之间的映射关系,本文第叁章通过将频繁模式树进行垂直划分提出了一种改进的频繁模式树结构,称为垂直频繁模式树,并研究了基于该结构的分布式闭频繁项集挖掘算法DVFP。DVFP同时采用数据并行和任务并行的策略进行分布式的挖掘。第叁章还提出了一种新的序列化方法来对VFP树进行编码,大大减少了处理节点间的通信开销。增量式的挖掘可以灵活的处理一些动态变化的数据集,本文的第四章提出了一种增量式闭频繁项集挖掘的算法,该算法是基于一种改进的投影前缀树结构来搜索闭频繁项集。使用投影技术表示冗余节点,减少了存储空间同时在需要时又可以迅速找到相关节点,不丢失有用信息。使用投影前缀树结构还可以避免子集检测,大大减少运行时间。混合异构计算可以充分利用CPU与GPU的处理计算能力,实现高速的并行计算。本文第五章提出了一种利用改进的垂直型数据结构在异构平台上分布式并行挖掘闭频繁项集的算法。垂直型数据格式是闭频繁项集挖掘算法里的一种重要的数据类型,这种数据结构加快了候选项集的筛选速度,通过项之间的“与”和“或”操作就能快速的找出闭频繁项集。但是垂直型的数据结构会浪费大量的存储空间,在处理大数据和稀疏型数据时这种空间的浪费会使某些基于垂直型数据结构的算法无法运行。针对垂直型数据结构的缺点,本文第五章利用分层策略提出了一种改进的垂直型数据结构,改进后的数据结构可以有效的压缩存储空间,提高内存使用率。在改进的垂直型数据结构基础上提出了一种新的闭频繁项集挖掘算法,该算法不仅能处理密集型数据,而且在稀疏型数据上也具有很高的效率。在处理大数据时,利用该算法在图形处理器上进行闭频繁项集的挖掘可以达到较高的加速比。(本文来源于《扬州大学》期刊2014-05-01)

王远敏[6](2013)在《使用FP树挖掘闭频繁项集的方法研究》一文中研究指出数据挖掘可以在现有的大量数据中提取有用的信息和知识。数据挖掘包括很多知识提取、模式分析的方法,其中挖掘频繁模式对于分析数据之间的关联和其他联系起着重要作用。本文研究讨论了在已有的FP增长策略的基础上增加剪枝的步骤,来挖掘存在的闭频繁模式,从而减少可能产生的大量频繁项集,使得挖掘出的闭频繁模式更加有针对性和有效性。(本文来源于《数字技术与应用》期刊2013年10期)

陈亮,张志强,尚玮姣[7](2013)在《基于闭频繁项集挖掘的技术演化研究方法》一文中研究指出本文以专利中的技术术语作为事务、以术语中的词汇作为项,通过闭频繁项集挖掘方法,对专利文献中的技术术语的结构变化情况进行时序分析,以从新的角度来研究技术演化趋势,之后以硬盘驱动器磁头技术为例进行实证分析,实证结果表明,该方法能够对技术演化过程中所产生的技术变化进行有效识别。(本文来源于《图书情报工作》期刊2013年19期)

唐颖峰,陈世平[8](2014)在《一种基于后缀项表的并行闭频繁项集挖掘算法》一文中研究指出对现有的基于MapReduce的并行频繁项集挖掘算法进行了研究,提出一种基于后缀项表的并行闭频繁项集挖掘算法,通过后缀项表的引入及以闭频繁项集挖掘的形式,减少组分间的数据传送量,提高挖掘效率。实验表明,该算法可以有效缩短平均挖掘时间,对于高维大数据具有较好的性能。(本文来源于《计算机应用研究》期刊2014年02期)

吴建章,韩立新,曾晓勤[9](2013)在《一种基于多核微机的闭频繁项集挖掘算法》一文中研究指出随着数据量的增长,如何快速有效发现频繁项集已成为挖掘关联规则的核心问题,而并行计算和闭频繁项集分别是一种处理大量数据直接有效的方法和频繁项集的无失真信息最小集合。分析一些经典闭频繁项集算法和并行关联规则算法及其不足,提出一种基于多核微机的并行闭频繁项集挖掘算法,提高了闭频繁项集挖掘的效率。(本文来源于《计算机应用与软件》期刊2013年03期)

毛伊敏,陈志刚[10](2013)在《在线挖掘数据流闭频繁项集的高效算法》一文中研究指出数据流闭频繁项集挖掘算法得到了广泛的研究,其中一个典型的工作就是NewMoment算法。针对New-Moment算法存在搜索空间大而造成算法时间效率低的问题,提出了一种改进的数据流闭频繁项集挖掘算法A-New-Moment。它设计了一个二进制位表示项目与扩展的频繁项目列表相结合的数据结构,来记录数据流信息及闭频繁项集。在窗体初始阶段,首先挖掘频繁1-项集所产生的支持度为最大的最长闭频繁项集,接着提出新的"不需扩展策略"和"向下扩展策略"来避免生成大量中间结果,快速发现其余闭频繁项集,达到极大缩小搜索空间的目的。在窗体滑动阶段,提出"动态不频繁剪枝策略"来从已生成的闭频繁项集中快速删除非闭频繁项集,并提出"动态不搜索策略"来动态维护所有闭频繁项集的生成,以降低闭频繁项集的维护代价,提高算法的效率。理论分析与实验结果表明,A-New-Moment算法具有较好的性能。(本文来源于《计算机科学》期刊2013年02期)

闭频繁项集论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

针对传统闭频繁项集(CFI)挖掘方法耗时长、效率低的问题,提出一种基于数据变换与并行运算(DTPC)的新型挖掘方法:设计基于质数对数运算的数据变换方法,将大量数据转换成简单的数字;利用Spark并行框架中的平方/开方运算将这些数字转换成频繁项集.3 000万篇文章的大数据集实验结果表明,提出的DTPC算法可以大幅度提升数据挖掘效率,同时减少计算资源的不必要浪费.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

闭频繁项集论文参考文献

[1].冯忠慧,尹绍宏.数据流中闭频繁项集的并行挖掘算法[J].软件工程.2018

[2].党红恩,赵尔平,刘炜,雒伟群.利用数据变换与并行运算的闭频繁项集挖掘方法[J].湘潭大学自然科学学报.2018

[3].陈亮,张静,杨冠灿,雷孝平.基于专利文本的闭频繁项集在技术演化分析中的应用[J].图书情报工作.2016

[4].张炘,王会勇.频域徙动运动参数闭频繁项集挖掘算法[J].科技通报.2014

[5].徐杰.分布式环境下的闭频繁项集挖掘算法研究[D].扬州大学.2014

[6].王远敏.使用FP树挖掘闭频繁项集的方法研究[J].数字技术与应用.2013

[7].陈亮,张志强,尚玮姣.基于闭频繁项集挖掘的技术演化研究方法[J].图书情报工作.2013

[8].唐颖峰,陈世平.一种基于后缀项表的并行闭频繁项集挖掘算法[J].计算机应用研究.2014

[9].吴建章,韩立新,曾晓勤.一种基于多核微机的闭频繁项集挖掘算法[J].计算机应用与软件.2013

[10].毛伊敏,陈志刚.在线挖掘数据流闭频繁项集的高效算法[J].计算机科学.2013

标签:;  ;  ;  ;  

闭频繁项集论文-冯忠慧,尹绍宏
下载Doc文档

猜你喜欢