重复数据删除论文-周晓芳

重复数据删除论文-周晓芳

导读:本文包含了重复数据删除论文开题报告文献综述及选题提纲参考文献,主要关键词:舰船资料,数据库系统,重复数据,数据挖掘

重复数据删除论文文献综述

周晓芳[1](2019)在《舰船资料数据库中的数据去重复删除方法》一文中研究指出舰船资料数据库的数据存在一定量的重复,严重影响舰船资料数据库的工作效率。为了减少舰船资料数据库中的重复数据,降低存储空间,提出一种基于数据挖掘的舰船资料数据库数据去重复删除方法。首先分析当前舰船资料数据库中的数据去重复删除研究进展,找到各种方法的存在的问题与不足,然后提取舰船资料数据库的数据特征,采用数据挖掘技术计算舰船资料数据库数据特征的相似度,最后将相似度与阈值进行比较,删除大于阈值的数据,并进行仿真验证测试实验。结果表明,本文方法能够准确估计舰船资料数据库数据之间的相似度,可以很好地删除重复数据,且舰船资料数据库重复数据删除的速度快,具有一定的应用价值。(本文来源于《舰船科学技术》期刊2019年14期)

刘子浩[2](2019)在《云存储中重复数据删除技术研究》一文中研究指出随着信息技术的不断发展,使得产生数据的方式也不断变化,需要存储的数据量也不断地增加。不断积累的大数据带来了新的机遇,大数据中包含了许多传统数据无法体现的深层次的价值,对大数据进行分析和挖掘将带来巨大的商业价值。与此同时,大数据也带来了巨大的挑战,大数据的量远远超过传统的计算技术的处理能力。与此同时,海量数据催生了一种具有安全性高、收费廉价、处理速度快等优势的存储方式——云存储。研究发现,无论是云存储系统,还是传统的数据存储系统,都存在有这大量的冗余数据,有的系统中数据重复率高达70%~90%,因此对存储系统进行重复数据删除是非常迫切的也是非常必要的。去重技术可以对存储系统中冗余数据进行删除,节省存储空间的使用量,节约网络带宽,同时减少数据中心的存储花费和日常能耗。但是传统的重复数据删除技术在云储存系统进行大数据重复数据删除时面临着巨大的挑战,一是云存储中存储的数据结构更为复杂,体量更大,数据类型更加多样,二是需要合理权衡重复数据删除吞吐量和重复消除率这两个冲突目标。本文针对上述问题,做了如下工作。1、将HDFS(Hadoop Distributed File System)作为底层存储支持结构,设计了一个云存储系统重复数据删除模型HDDep。并改进了指纹索引结构,使之更加适合云存储系统。2、使用了基于文件划分的划分方式,因为在进行去重时不同文件类型之间的冗余数据几乎可以忽略不计,以此来减少指纹的查询范围。3、提出一种相似度聚类的重复数据删除策略(Similarity clustering deduplication strategy,SCDS),旨在不明显增加系统开销的前提下,删除更多的重复数据。SCDS的主要思想是通过相似度聚类算法来缩小指纹的查询范围。在数据删除时,利用相似性聚类算法将相似的数据指纹集合划分在同一个聚类(cluster)中,最后去重时只需要检测一个cluster箱中的指纹,以此来加快重复指纹的检索。实验证明,SCDS重复数据删除率优于现有的相似性去重的重复数据删除算法。(本文来源于《湘潭大学》期刊2019-06-04)

曲长萍[3](2019)在《重复数据删除技术在机车数据远程传输中的应用》一文中研究指出针对车载数据远程传输中存在大量冗余数据的问题,提出了一种基于重复数据删除技术的数据远程传输方法。在基于套接字的数据远程传输过程中,首先将待传输的车载数据进行分块处理,通过MD5算法计算数据块特征值,然后将计算的特征值发送到地面接收端,由地面接收端判断数据冗余性。针对机车车载数据长度固定但周期不同的特点,提出更适合车载数据传输的数据分块方法,并以HXD2型机车数据为例加以验证。试验结果表明,在无线传输中增加重复数据删除技术可优化传输策略、节省网络带宽、降低数据传输成本。(本文来源于《机车电传动》期刊2019年03期)

郭强[4](2019)在《基于Hadoop的重复数据删除技术研究》一文中研究指出重复数据删除技术和云计算技术正在快速发展,但是Hadoop系统也仍然存在一些影响系统归档处理效率的因素。针对这个问题,文章提出一种新的增量指纹算法和改进TTTD算法——TDOB,并将这类算法应用到Hadoop分布式系统中,分析重复数据删除技术在Hadoop中的应用。(本文来源于《现代信息科技》期刊2019年03期)

张逸[5](2019)在《面向数据中心的高性能重复数据删除机制研究》一文中研究指出重复删除技术是当前去除冗余数据的一种有效的技术手段,能够为大规模数据存储节省存储空间,减少了存储开销。随着数据中心的发展,重复删除技术得到了广泛的关注和应用。现在的数据中心突出的特点是分布式架构、系统规模大、数据冗余度高,这给重复数据删除技术带来更大的挑战,亟需高并发的重删技术以提高数据吞吐率。为了适应数据中心的多流数据存储,基于多流排序索引的重删技术得到初步研究,具有易扩展、并行度高的特点,能够极大地提高吞吐率。在此基础上进行研究分析,我们发现多流排序索引重删算法存在着以下两个问题:1、多个客户端之间资源分配不均,可能导致单个客户端性能下降;2、多流并行重删使指纹过于分散,破坏了数据流的局部性,从而影响了存储数据的吞吐率。对此,我们提出相应算法有效解决这些问题,完善排序索引结构,进一步优化重删性能。具体研究内容如下:1)提出了一种基于指纹分布的指纹检重调度算法。首先,通过实验获取部分数据流读取的指纹页信息,分析数据流在指纹索引表上的指纹分布类型,以及不同的指纹分布类型的数据流出现时间延迟的长短。然后,利用数据流的指纹大小预测数据流的指纹分布类型设计分类器。接下来,根据预测的指纹分布类型,为每个数据流设定优先级,优先级决定读取哪一个指纹页,指纹页由顺序读取改变为按需读取,优化吞吐率。最后,采用多个数据集模拟的数据流进行实验,结果验证了算法的有效性,说明算法不仅保证并行的多个数据流的整体性能,而且优化了时延较长的单个客户端的数据流。2)提出了一种基于密度的多流并行检重算法。首先,计算排序相邻指纹的差,找出单个数据流的指纹密集区域,所有数据流的指纹密集区域组成集合。然后,计算公共指纹密集区域;只检重每个数据流在公共指纹密集区域内的指纹,其他指纹留下与新来的指纹进行新一轮的检重。最后,实验统计重删过程中读取的指纹页的数量,表明算法减少了重复指纹页的读取次数,从而极大地提高了重删吞吐率。(本文来源于《天津理工大学》期刊2019-02-01)

高继梅[6](2019)在《隐私保护数据库中自适应重复数据删除仿真》一文中研究指出针对当前隐私保护数据库中自适应重复数据删除时,存在着重复数据删除时间过长,误删率较高、内存消耗过大等问题,提出基于分数阶变换累积量的重复数据删除方法。通过对隐私保护数据库中的重复数据进行分析,得到重复数据特征区间,对区间进行特征域平滑,计算出重复数据静态量化向量方差,以方差计算结果获取隐私保护数据库中存储节点子集随机概率,构建重复数据流信息模型,引用数据分数阶变换方法对模型中重复数据信息进行滤波处理,结合4阶累积量后置聚集进行重复数据删除。实验结果表明,所提方法重复数据删除时间较短、误删率较低、内存消耗较小。(本文来源于《计算机仿真》期刊2019年01期)

杜华,刘华春[7](2019)在《云数据中心下重复数据删除技术研究》一文中研究指出云数据中心下企业数据量快速增长,使得数据中心面临严峻挑战。研究发现,存储系统中高达60%的数据是冗余的,因此云数据中心下的重复数据缩减受到越来越多的关注。以往单一存储结构模式下的存储性能评价指标(平均响应时间、磁盘I/O效率和数据冗余度),不但不能完全适应云数据这种以廉价设备为分布式存储结构的新变化,而且也难以较好地满足云服务提供商向用户做出的数据高可用性、高可靠性的SLA承诺。为此,在分析和总结云数据中心环境下数据存储的新特征之后,通过对单一存储结构下重复数据删除技术不足的剖析,提出了查询算法优化、基于SSD改进置换效率、改进的纠删码数据容错机制叁条路径,以提高云数据中心下重删系统的工作效率和工作表现。最后,通过分析云服务下不同用户对IT资源需求的区别,有针对性地自动选择合适的去重时机,为从整体上改进云数据中心环境下重复删除系统操作效率指出了进一步研究的方向。(本文来源于《计算机技术与发展》期刊2019年02期)

王玮,张佳期[8](2018)在《重复数据删除技术专利技术综述》一文中研究指出随着大数据时代的不断发展,数据存储量的增长使得存储系统面临巨大的挑战。能够有效降低数据存储量的重复数据删除技术因此成为当前的热点技术。基于重复数据删除技术的改进与应用在专利申请与授权的数量上已具备一定规模。本文梳理了存储领域中重复数据删除技术相关的专利技术,并结合专利申请情况对该技术作出了系统阐述与分析。(本文来源于《科技创新导报》期刊2018年30期)

刘红燕,咸鹤群,鲁秀青,侯瑞涛,高原[9](2018)在《基于用户定义安全条件的可验证重复数据删除方法》一文中研究指出随着云存储用户数量的不断增长,重复数据删除技术得到了广泛的应用.如何在实现高效重复数据删除的同时,更好地保护用户数据隐私、实现客户端的安全多方计算,是云计算安全领域的研究热点问题.首次考虑了用户对重复数据删除过程的控制问题,引入了基于用户属性的安全条件机制,提出了基于用户定义安全条件的重复数据删除方法.基于双线性映射构造文件标识进行数据的查询,确保标识不泄露数据的任何明文信息.采用文件级和块级相结合的重复数据删除方法,提高了重复数据删除操作效率.基于安全多方计算理论和布隆过滤器技术实现数据的所有权证明,确保仅授权用户可获取数据的访问权,防范来自恶意用户的信道监听攻击.使用广播加密方法对数据加密密钥进行保护,实现了安全高效的重复数据删除.分析并证明了方案的安全性和正确性.仿真实验验证了方案的可行性和有效性.(本文来源于《计算机研究与发展》期刊2018年10期)

张曙光,咸鹤群,王利明,于凯杰,张曼[10](2018)在《云计算中高效加密数据重复删除方法》一文中研究指出将海量数据外包至云服务器的应用模式已经被越来越多的用户所接受。然而,由于安全问题日益凸显,数据在上传至云服务器之前通常会被用户加密,这给云服务提供商带来巨大的存储压力。相同明文数据或被多个用户加密为不同密文数据,导致云服务提供商难以执行重复数据删除。目前支持加密数据重复删除的云存储系统过度依赖可信第叁方,且未考虑数据所有权问题,实用性较差。提出云计算中加密数据高效安全存储方法,使用双线性映射与基于属性代理重加密机制,设计冗余度查询标签生成算法与密钥传递算法,保证云服务提供商在无第叁方在线协助的情况下,能够验证加密数据是否冗余,并完成加密数据重复删除。构造了动态更新该数据的所有权算法,保证系统的安全性。安全分析与效率评估证明,所提方案能够在保证系统在安全性的前提下,实现存储效率最大化。(本文来源于《通信学报》期刊2018年S1期)

重复数据删除论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着信息技术的不断发展,使得产生数据的方式也不断变化,需要存储的数据量也不断地增加。不断积累的大数据带来了新的机遇,大数据中包含了许多传统数据无法体现的深层次的价值,对大数据进行分析和挖掘将带来巨大的商业价值。与此同时,大数据也带来了巨大的挑战,大数据的量远远超过传统的计算技术的处理能力。与此同时,海量数据催生了一种具有安全性高、收费廉价、处理速度快等优势的存储方式——云存储。研究发现,无论是云存储系统,还是传统的数据存储系统,都存在有这大量的冗余数据,有的系统中数据重复率高达70%~90%,因此对存储系统进行重复数据删除是非常迫切的也是非常必要的。去重技术可以对存储系统中冗余数据进行删除,节省存储空间的使用量,节约网络带宽,同时减少数据中心的存储花费和日常能耗。但是传统的重复数据删除技术在云储存系统进行大数据重复数据删除时面临着巨大的挑战,一是云存储中存储的数据结构更为复杂,体量更大,数据类型更加多样,二是需要合理权衡重复数据删除吞吐量和重复消除率这两个冲突目标。本文针对上述问题,做了如下工作。1、将HDFS(Hadoop Distributed File System)作为底层存储支持结构,设计了一个云存储系统重复数据删除模型HDDep。并改进了指纹索引结构,使之更加适合云存储系统。2、使用了基于文件划分的划分方式,因为在进行去重时不同文件类型之间的冗余数据几乎可以忽略不计,以此来减少指纹的查询范围。3、提出一种相似度聚类的重复数据删除策略(Similarity clustering deduplication strategy,SCDS),旨在不明显增加系统开销的前提下,删除更多的重复数据。SCDS的主要思想是通过相似度聚类算法来缩小指纹的查询范围。在数据删除时,利用相似性聚类算法将相似的数据指纹集合划分在同一个聚类(cluster)中,最后去重时只需要检测一个cluster箱中的指纹,以此来加快重复指纹的检索。实验证明,SCDS重复数据删除率优于现有的相似性去重的重复数据删除算法。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

重复数据删除论文参考文献

[1].周晓芳.舰船资料数据库中的数据去重复删除方法[J].舰船科学技术.2019

[2].刘子浩.云存储中重复数据删除技术研究[D].湘潭大学.2019

[3].曲长萍.重复数据删除技术在机车数据远程传输中的应用[J].机车电传动.2019

[4].郭强.基于Hadoop的重复数据删除技术研究[J].现代信息科技.2019

[5].张逸.面向数据中心的高性能重复数据删除机制研究[D].天津理工大学.2019

[6].高继梅.隐私保护数据库中自适应重复数据删除仿真[J].计算机仿真.2019

[7].杜华,刘华春.云数据中心下重复数据删除技术研究[J].计算机技术与发展.2019

[8].王玮,张佳期.重复数据删除技术专利技术综述[J].科技创新导报.2018

[9].刘红燕,咸鹤群,鲁秀青,侯瑞涛,高原.基于用户定义安全条件的可验证重复数据删除方法[J].计算机研究与发展.2018

[10].张曙光,咸鹤群,王利明,于凯杰,张曼.云计算中高效加密数据重复删除方法[J].通信学报.2018

标签:;  ;  ;  ;  

重复数据删除论文-周晓芳
下载Doc文档

猜你喜欢