频繁闭合项集论文-明媚,缪裕青,李世令,李云辉

频繁闭合项集论文-明媚,缪裕青,李世令,李云辉

导读:本文包含了频繁闭合项集论文开题报告文献综述及选题提纲参考文献,主要关键词:隐私保护,关联规则,频繁闭合项集,差集协议

频繁闭合项集论文文献综述

明媚,缪裕青,李世令,李云辉[1](2014)在《垂直分布下的隐私保护频繁闭合项集挖掘算法》一文中研究指出针对垂直分布下的隐私保护关联规则挖掘算法效率低、安全性不高的问题,提出一种隐私保护频繁闭合项集的挖掘算法。算法利用挖掘频繁闭合项集代替频繁项集,IT-Tree作为搜索空间,Diffsets作为压缩结构,采用基于RSA可交换加密算法的隐私保护集合差集协议。实验结果表明,算法具有较好的隐私性、准确性、高效性。(本文来源于《桂林电子科技大学学报》期刊2014年04期)

汤春明,王培义,曲英涛[2](2012)在《在线挖掘数据流闭合频繁项集CMNL-SW算法》一文中研究指出提出了一种新的CMNL-SW(Closed map and num list-sliding window)挖掘算法。具体使用数据结构Closedmap存储挖掘到的闭合项集和Num list存储所有不同项的序号,通过对添加新事务和删除旧事务包含的项序号进行简单的并集和该事务与之相关已经挖掘到的闭合项集进行交集运算来更新当前滑动窗口,使之能够根据用户任意指定的支持度阈值在线输出数据流上闭合频繁项集信息。通过理论分析和对真实数据集Mushroom,Retail-chain和人工合成数据集T40I10D100K的挖掘结果表明,提出的算法在时空效率上明显优于同类经典算法Moment和CFI-Stream,并且随着数据流上处理事务数的递增和快速改变表现出良好的稳定性。(本文来源于《数据采集与处理》期刊2012年04期)

王培义[3](2012)在《在线挖掘数据流闭合频繁项集算法的研究》一文中研究指出近年来,随着计算机存储和网络通信技术的快速发展,数据流逐渐出现在日常生活中的各个领域,比如大型商场的售货记录,环境温度的检测数据,交易所的股票价格信息等。人们需要对海量的动态数据进行实时连续的收集与分析,进而挖掘数据流上的频繁模式得到越来越多的关注。与传统静态数据库相比,数据流具有持续不断、高速运行、无限到达的特点。数据流中的数据随时间的推移不断更新,而用户通常只关注近期有价值的模式。本文研究的是数据流频繁项集挖掘的一个主要方面:数据流闭合频繁项集挖掘。它是针对数据流频繁项集挖掘中得到大量冗余的频繁项集,造成内存过多的消耗和挖掘速度的极大下降而提出的。闭合频繁项集包括了挖掘出的所有频繁项集的完全集,从而避免了冗余频繁项集的产生,可以大大节省存储空间,提高挖掘效率,但是又不会丢失任何有用信息。数据流快速无限的特点及其应用领域的不断扩增,使数据流的在线挖掘技术越来越具有挑战性。提出了一种新的CMNL-SW挖掘算法(Closed Map and Num List-SlidingWindow),它沿用Moment算法的滑动窗口技术和CFI-Stream算法只维持闭合项集信息的方法,但与之不同的是,CMNL-SW算法不需产生事务的子集,也不需搜索每个子集的超集。算法使用数据结构Closed Map存储挖掘到的闭合项集和Num List存储所有不同项的序号,通过对添加新事务和删除旧事务包含的项序号进行简单的并集和该事务与之相关已经挖掘到的闭合项集进行交集运算来更新当前滑动窗口,使之能够根据用户任意指定的支持度阈值实时输出数据流上闭合频繁项集信息。通过理论分析和对真实数据集Mushroom、Retail-chain以及人工合成数据集T40I10D100K的挖掘结果表明,提出的算法在时空效率上明显优于同类经典算法Moment和CFI-Stream,并且随着数据流上处理事务数的递增和快速改变有很好的稳定性。(本文来源于《哈尔滨工程大学》期刊2012-03-01)

李海峰[4](2011)在《基于GPU的闭合频繁项集挖掘方法》一文中研究指出提出一种采用图形处理器挖掘闭合频繁项集的方法,用二进制数据表示项集,利用单指令多数据的体系结构实现并行计算,结合项集索引树,可以提高项集支持度计算和项集查找的速度。在2种数据集上的实验结果表明,该方法能够用更少的空间保存频繁项集的全部信息,并减少挖掘时间。(本文来源于《计算机工程》期刊2011年14期)

史建军,缪裕青[5](2011)在《微阵列数据中Top-k频繁闭合项集挖掘》一文中研究指出现有大部分微阵列数据中频繁闭合项集的挖掘需要事先给定最小支持度,但在实际应用中该最小支持度很难确定。针对该问题,提出top-k频繁闭合项集挖掘算法,基于自顶向下宽度优先搜索策略挖掘项集长度不小于min_l的top-k频繁闭合项集,并对搜索空间进行有效修剪,从而提高搜索速度。实验结果表明,该算法的时间性能在多数情况下优于CARPENTER算法。(本文来源于《计算机工程》期刊2011年02期)

史建军[6](2010)在《基因表达数据的频繁闭合项集挖掘算法研究》一文中研究指出基因表达数据蕴含丰富的生物信息,但由于其高维且数据量大的特点,生物信息的挖掘成为极具挑战性的课题。关联分析由于形式简单且结果易于理解,已逐渐成为基因表达数据重要的分析方法之一。频繁闭合项集挖掘是关联分析中的重点和难点之一。本文对基因表达数据中频繁闭合项集挖掘算法做了全面深入的研究。针对当前算法中存在的一些不足提出改进算法。针对目前基因表达数据的频繁闭合项集挖掘均需先设定最小支持度,提出挖掘基因表达数据中top-k频繁闭合项集问题,并设计了相关算法。本文主要研究工作如下:(1)对现有频繁项集和频繁闭合项集挖掘算法进行深入剖析。从已有算法使用的策略和数据结构着手分析算法的优缺点,重点研究了基因表达数据频繁闭合项集挖掘算法。(2)采用行枚举空间搜索时,已有自底向上策略并未有效利用最小支持度阈值对搜索空间进行修剪,导致算法的时空性能较差。基于自顶向下策略的频繁闭合项集挖掘算法TP+close较好地解决了此问题。然而,TP+close算法在对项集进行闭合性检测时,要对已输出的频繁闭合项集进行扫描,影响了算法性能。通过对TP+close算法和数据结构TP+-tree深入分析,提出改进的数据结构TTP+tree和基于该结构的改进算法TTP+close。算法TTP+close引入了一种新的闭合性检测方法,即基于痕迹的闭合性检测方法,避免对已输出的频繁闭合项集扫描来判别将输出项集的闭合性。(3)已有大多数挖掘基因表达数据的频繁闭合项集需先设定最小支持度,但在实际应用中确定合适的最小支持度并不容易。本文提出在基因表达数据中挖掘top-k频繁闭合项集问题,并设计了挖掘算法TBtop。算法使用自顶向下宽度优先搜索策略挖掘项集长度不小于给定值min_l的top-k频繁闭合项集,并对搜索空间进行了有效修剪。(本文来源于《桂林电子科技大学》期刊2010-04-07)

颜伟,苏兆锋,周钦亮[7](2009)在《基于优化的FP-Tree的频繁闭合项集挖掘算法》一文中研究指出在经典的频繁闭合项集挖掘算法中,如Closet与Closet+,当条件模式数据库很庞大时,频繁项集的数目将会急剧增长,算法的效率会逐步恶化,并且算法挖掘结果的有效性也随着大量冗余模式的产生而下降.本文首先针对传统的FP-tree的算法,给出了一种改进的FP-tree算法,然后在新算法的基础上,提出新的频繁闭合项集挖掘算法,该算法只需把FP-Tree中所有由叶子结点到根结点的路径遍历一遍,就可以得到各项的所有子条件模式基,避免了传统FP-tree算法在同一条路径上向前回溯比较的繁琐.实验表明优化后的算法避免了资源的耗费,减少了频繁闭合项集挖掘的运算开销,大大提高了数据挖掘的效率.(本文来源于《曲阜师范大学学报(自然科学版)》期刊2009年02期)

奚培[8](2009)在《一种数据流频繁闭合项集挖掘算法的研究》一文中研究指出随着信息技术的飞速发展,许多领域产生的数据是在时间维度上严格有序、在数值上不断变化的无限的数据序列,由此产生数据流模型。数据流频繁项集挖掘作为数据流挖掘的一个新兴研究热点,挖掘得到的项集与关联规则的数量往往大得惊人,而且难以理解与运用,这就需要一种更先进的数据流频繁项集挖掘技术的出现。数据流频繁闭合项集挖掘技术应运而生。CFI-Stream算法是一种在线挖掘最近的频繁闭合项集的算法。分析该算法发现,它存在两个极其影响算法性能的问题:其一,该算法存在一个很大的性能瓶颈——递归调用Add函数,并且递归的深度和次数随着事务长度的增加而呈指数级增长,这极大地影响了算法的时间和空间复杂度。其二,该算法中对于事务的最大项集及其子集的闭包检查,每次都是全局遍历,造成很多不必要的检查,影响了时间效率。针对上述两个方面的问题,本论文提出一种新的频繁闭合项集挖掘算法,采用有序字典序树的数据结构和差集结点的形式作为算法的数据结构。采用分而治之的策略,对每一个分支进行独立的挖掘,从一个分支结束到转向另一个分支时,会根据两个分支之间的不同前缀,选择合适的子集进行递归调用,大大的减少了递归的次数和深度。采用宽度优先搜索和深度优先搜索相结合的方法,其中,深度优先搜索的策略能够保证在进行交集运算的同时记住需要进行递归调用的子集,此子集在很大程度上缩短了长度,因为它省去了自根结点起的所有前缀的项目,只保留差集。实验表明新的频繁闭合项集挖掘算法在一定程度上降低了时空复杂度,尤其在稀疏型数据集环境下,该算法所体现的优越性更加突出。(本文来源于《哈尔滨工程大学》期刊2009-03-02)

陈俊波[9](2009)在《频繁闭合项集挖掘算法及应用研究》一文中研究指出频繁项集的挖掘是数据挖掘中的一个基础和核心问题,具有广泛的应用领域。由于它是关联性挖掘过程中最耗时的部分,挖掘算法的好坏直接影响数据挖掘的效率和应用范围。因此,频繁项集挖掘算法的研究具有重要的理论和应用价值。频繁项集挖掘输出的项集集合通常非常庞大。在生成的频繁集中,有相当大一部分是冗余的信息。这不仅带来了时间和空间上效率低下的问题,而且会导致生成许多冗余的关联规则。针对这个问题,存在两种解决方案。一种称为最大频繁项集,即挖掘频繁项集晶格中的最小元素。另一种称为闭合频繁项集,即挖掘Galois算子定义的频繁项集等价类内部的最小元素。闭合频繁项集保证没有任何信息损失,而最大频繁项集挖掘则无法保证。在广泛查阅国内外文献的基础上,围绕“频繁闭合项集”的概念,从传统的批量式算法,在线的增量式算法,具备高容错性的近似算法,以及频繁闭合项集在推荐系统中的应用这四个角度出发,展开系统的讨论:1.批量式算法:提出一个简单高效的频繁闭合项集的批量式算法FCⅡ。FCⅡ基于一种与目标问题等价的新表达方式,并采用深度优先的先序搜索策略以及高效的冗余信息检测技术。理论分析得出,FCⅡ可以在线性时间内找到所有的频繁闭合项集。实验数据表明,FCⅡ在标准数据集上的测试结果比业界领先的同类算法,如CLOSET+,FPCLOSE等有更好的性能。而且,FCⅡ可以增量式的处理列维度的数据添加行为。最后,FCⅡ可以同时得到项集维度与事务集维度的双重信息,这是传统的频繁闭合项集挖掘算法无法做到的。2.增量式算法:数据流环境具有海量数据,快速输入,动态变化等特性。这些特性给传统的数据挖掘算法提出了巨大的挑战。传统的数据挖掘算法允许多次遍历数据集,但在数据流环境下,因为海量数据与动态变化的特性,数据流中的每一个数据元素只能访问一次;而且快速输入的特性给数据挖掘算法提出很高的实时性要求。GC-Tree以及GC-Tree2.0是工作在数据流滑动窗口模型下的增量式算法。GC-Tree在内存中维持一棵树状结构,树中的节点与数据集中的闭合项集一一对应,并且从每一个节点到根节点的序列构成了该节点对应的闭合项集唯一的有序生成项集序列。在该树状结构的基础上,GC-Tree算法设计高效的搜索空间裁剪策略以及节点更新技术。理论分析表明,GC-Tree的计算复杂度为事务的平均长度的二次方函数。在GC-Tree的基础上,提出了改进算法GC-Tree2.0。该算法通过简单的交集操作来发现所有新增的闭合项集。理论分析表明,GC-Tree2.0的时间复杂度为闭合项集平均长度的线性函数。上述的理论分析均可以得到实验数据的有力支持。3.近似算法:由信息缺失,测量误差导致的噪音数据广泛的存在于各种数据库中。最近的理论研究表明,这些噪音和误差使得频繁项集挖掘得到的模式严重失真,并且将较长的频繁模式切割成许多对数级别大小的碎片。若能有效的去除噪音,则不仅可以恢复真实的频繁模式,而且可以将数据挖掘输出项集的数量成倍的减少。因此,开发具有高容错性的频繁闭合项集挖掘算法是一个重要的课题。AFCIM是工作在噪音环境下的近似频繁闭合项集挖掘算法。AFCIM算法是FCII算法的一个变种。该算法在搜索频繁闭合项集的同时检测数据集中的噪音数据,一旦发现噪音数据,立即更新数据集并动态更新已经发现的频繁闭合项集的集合。每一次这样的噪音数据修正迭代,都能恢复一部分真实的频繁模式,并将大量减少潜在的频繁闭合项集的数量。实验结果表明在输出结果的质量得到保证的前提下AFCIM的性能远远高于同类算法AFI与AC-CLOSE。4.在推荐系统中的应用:介绍了推荐系统的研究现状,并分析了传统的推荐系统存在的两个内在缺陷,即维度效应与数据稀疏性。为了解决这两个问题,根据“用户偏好局部性假设”,本文提出了“局部化方法”的思路。即通过AFCIM算法从整体稀疏的数据矩阵中挖掘出局部稠密的子矩阵,然后在稠密子矩阵内部建立局部的预测模型,通过计算不同局部模型的加权均值来为用户做出综合性的推荐。l-pLSI模型是局部化思路应用于传统推荐系统pLSI模型的一个例子。实验数据表明,l-pLSI局部化模型可以有效的提升推荐系统的预测准确率。(本文来源于《浙江大学》期刊2009-01-09)

李坤,王永炎,王宏安[10](2008)在《一种基于乐观裁剪策略的挖掘数据流滑动窗口上闭合频繁项集的算法》一文中研究指出在数据流滑动窗口上挖掘闭合频繁项集是数据流挖掘研究领域的一个热点问题,现有的算法如Moment算法存在着使用空间过大的问题.提出了基于Moment的OP-Moment算法(OP指乐观裁剪策略),使用OP-CET数据结构维护滑动窗口上的闭合频繁项集信息.该算法使用乐观裁剪策略来裁剪大量的非频繁节点,并在每个频繁节点上增加一个属性以跟踪被乐观裁剪的非频繁子节点的最大支持度变化情况;算法使用位图来记录滑动窗口上所有元素的信息.实验表明,OP-Moment算法在稀疏数据集和密集数据集下都能大大降低占用的空间,并且在密集数据集下也能保持较高的运行效率.(本文来源于《第二十五届中国数据库学术会议论文集(二)》期刊2008-10-24)

频繁闭合项集论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

提出了一种新的CMNL-SW(Closed map and num list-sliding window)挖掘算法。具体使用数据结构Closedmap存储挖掘到的闭合项集和Num list存储所有不同项的序号,通过对添加新事务和删除旧事务包含的项序号进行简单的并集和该事务与之相关已经挖掘到的闭合项集进行交集运算来更新当前滑动窗口,使之能够根据用户任意指定的支持度阈值在线输出数据流上闭合频繁项集信息。通过理论分析和对真实数据集Mushroom,Retail-chain和人工合成数据集T40I10D100K的挖掘结果表明,提出的算法在时空效率上明显优于同类经典算法Moment和CFI-Stream,并且随着数据流上处理事务数的递增和快速改变表现出良好的稳定性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

频繁闭合项集论文参考文献

[1].明媚,缪裕青,李世令,李云辉.垂直分布下的隐私保护频繁闭合项集挖掘算法[J].桂林电子科技大学学报.2014

[2].汤春明,王培义,曲英涛.在线挖掘数据流闭合频繁项集CMNL-SW算法[J].数据采集与处理.2012

[3].王培义.在线挖掘数据流闭合频繁项集算法的研究[D].哈尔滨工程大学.2012

[4].李海峰.基于GPU的闭合频繁项集挖掘方法[J].计算机工程.2011

[5].史建军,缪裕青.微阵列数据中Top-k频繁闭合项集挖掘[J].计算机工程.2011

[6].史建军.基因表达数据的频繁闭合项集挖掘算法研究[D].桂林电子科技大学.2010

[7].颜伟,苏兆锋,周钦亮.基于优化的FP-Tree的频繁闭合项集挖掘算法[J].曲阜师范大学学报(自然科学版).2009

[8].奚培.一种数据流频繁闭合项集挖掘算法的研究[D].哈尔滨工程大学.2009

[9].陈俊波.频繁闭合项集挖掘算法及应用研究[D].浙江大学.2009

[10].李坤,王永炎,王宏安.一种基于乐观裁剪策略的挖掘数据流滑动窗口上闭合频繁项集的算法[C].第二十五届中国数据库学术会议论文集(二).2008

标签:;  ;  ;  ;  

频繁闭合项集论文-明媚,缪裕青,李世令,李云辉
下载Doc文档

猜你喜欢