聚类树索引论文-王冲

聚类树索引论文-王冲

导读:本文包含了聚类树索引论文开题报告文献综述及选题提纲参考文献,主要关键词:索引结构,Chameleon算法,人工蜂群,不确定对象

聚类树索引论文文献综述

王冲[1](2017)在《基于Chameleon聚类算法的R树索引方法研究》一文中研究指出随着GIS技术的快速发展,空间数据库在各个领域都得到了极大的发挥,其主要的任务是对空间数据实现有效的存储,进而实现高效访问的目的。空间数据具有海量性、内部结构复杂性、属性多样性等特征,如何有效的对数据进行存储,是当前空间数据库领域的一个难点问题。R树索引结构能够对高维海量空间数据实施有效的存储,且数据之间仍具有物理空间中的邻近性,主要应用于商业数据库中。针对当前R树索引结构存在的不足,本文主要按照以下叁个部分进行研究:首先,针对传统R树构建以及分裂方法的不足,本文结合Chameleon聚类算法对其进行预处理,实现一种批量生成索引结构的技术。利用聚类结果中簇内相似性高,簇间相似性低的特点,可以减小节点的MBR(最小外包矩形)面积以避免重迭,提高算法的效率。经聚类后的节点之间相似性较低,查询过程中避免多路径检索,提高查询效率。其次,针对Chameleon算法的时间复杂度较高,通过人工蜂群方法得到一次聚类之后的质心,并作为下次聚类的初始解。利用K-means算法进行下次聚类,有效避免了任意初始值和噪声点对R树节点的影响,同时减少了构建索引结构的时间,使得静态R树在处理大数据过程中具备伸缩性。最后,针对不确定数据存储复杂的问题,本文结合聚类算法和Hilbert曲线降维方法,利用最大最小矩形剪枝策略,减少算法中积分的运算量,提高构建Hilbert-R树的效率。使用Chameleon聚类算法可以使数据之间更加紧凑,可以使除根节点以外的数据都是满容量的,提升了节点的空间利用率。同时,考虑到了节点之间的互连性,以便于发现相邻位置数据之间的潜在联系。(本文来源于《哈尔滨理工大学》期刊2017-03-01)

崔环宇[2](2016)在《基于改进聚类的R树索引方法研究》一文中研究指出随着地理信息系统技术的快速发展,空间索引技术应用的领域越来越广泛,其主要的功能是实现对数据的有效存储,进而提高更新和查询的效率。空间对象具有异构性、复杂性、不确定性,以及空间关系复杂等特点,如何构建有效的空间索引结构进行查询和更新数据,已成为当前空间数据库领域的一个难点问题。R树是一种高度平衡树,能够有效的储存空间数据,弥补了传统关系型数据库处理空间数据的不足,主要应用于商业空间数据库中。对于空间数据库中索引结构构建和查询方法,本文主要分以下几个部分进行研究:首先,对于经典R树索引动态生成算法的不足,提出一种静态批量生成算法。引入CURE聚类算法对数据进行预处理,利用收缩因子使数据更加紧凑,提高了节点的空间利用率。通过聚类之后,叶子节点之间相似度较低,有效的降低MBR的重迭率。其次,针对K-means算法处理空间数据有初始值选择和孤立点敏感的不足,本文利用CURE算法对K-means进行改进,避免了任意初始值和噪声点对聚类结果的影响,而且降低了层次聚类时间复杂度。利用改进后的聚类算法构建R树,提升了索引构建和节点查询的效率。最后,为了对高维不确定数据进行有效的存储,本文根据Hilbert曲线的降维特点,通过对不确定数据进行编码,避免计算每个数据点之间的期望距离,减少计算量。引入CURE聚类方法,使该索引结构可以较有效的处理孤立点以及海量不确定数据集。提出了可以有效存储不确定数据的索引结构和相应的概率阈值查询算法。(本文来源于《哈尔滨理工大学》期刊2016-03-01)

孙永伟[3](2011)在《基于最小包围盒及自适应聚类的叁维R~*-树索引结构》一文中研究指出针对目前逆向工程中索引结构在进行空间数据存储、管理和查询时存在的自适应性差、空间利用率低等问题,提出一种基于最小包围盒及自适应聚类分簇的叁维R*-树索引结构(R*OA-树),该索引结构根据不同点云分布特点将其分为正态分布点云和非正态分布点云,分别采用主元分析算法和最小二乘圆柱拟合算法构建散乱点云最小包围盒,基于最小包围盒获取数据局部坐标系,并在局部坐标下建立索引结点轴向包围盒,有效提高了索引结点空间利用率,降低了结点间重合度;同时基于间隙统计法获取结点分裂最佳簇数,采用k-均值算法实现最佳簇数下结点分裂,实现R*OA-树的结点自适应聚类分簇,提高了结点分裂质量及自适应性。本课题提出一种高效稳定的空间索引结构R*OA-树,以满足逆向工程领域对数据的空间存储、管理和查询需要,主要研究内容及成果如下:1.针对目前间隙统计法获取最佳聚类簇数时存在的计算繁琐、运行效率低等问题,对传统间隙统计法进行了优化,提出了间隙量计算的数学表达式,解决了以往根据随机采样获取参考数据带来的计算误差,提高了基于间隙统计法获取聚类最佳簇数的精度;同时简化了间隙统计算法计算步骤,提高了获取最佳聚类次数的效率。2.针对目前结点分裂过程中存在的参数依赖性强等问题,提出了结点自适应聚类分簇算法,基于聚类评价函数及间隙统计函数获取最佳聚类簇数,采用k-均值算法进行最佳聚类簇数下的结点分裂,实现结点自适应聚类分簇,降低了聚类的参数依赖性,解决了用户设置簇数与最佳簇数不一致所造成的聚类质量下降,并能有效防止聚类陷入局部最优。3.针对目前R*-树结点重合度高、空间利用率低等问题,提出整体最小包围盒、局部轴向包围盒的R*OA-树构建算法,根据点云集合分布状态,将其划分为正态分布和非正态分布两类数据,分别采用主元分析和最小二乘圆柱拟合算法计算最小包围盒,并基于最小包围盒获取点集局部坐标系,进而实现局部坐标系下的R*OA-树构建。本课题通过对R*-树索引结构结点分裂、全局优化等步骤进行优化研究,形成了新的索引结构R*OA-树,基于该索引结构可有效提高各类数据的空间查询效率及其在逆向工程领域的适用性。(本文来源于《山东理工大学》期刊2011-04-20)

聚类树索引论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着地理信息系统技术的快速发展,空间索引技术应用的领域越来越广泛,其主要的功能是实现对数据的有效存储,进而提高更新和查询的效率。空间对象具有异构性、复杂性、不确定性,以及空间关系复杂等特点,如何构建有效的空间索引结构进行查询和更新数据,已成为当前空间数据库领域的一个难点问题。R树是一种高度平衡树,能够有效的储存空间数据,弥补了传统关系型数据库处理空间数据的不足,主要应用于商业空间数据库中。对于空间数据库中索引结构构建和查询方法,本文主要分以下几个部分进行研究:首先,对于经典R树索引动态生成算法的不足,提出一种静态批量生成算法。引入CURE聚类算法对数据进行预处理,利用收缩因子使数据更加紧凑,提高了节点的空间利用率。通过聚类之后,叶子节点之间相似度较低,有效的降低MBR的重迭率。其次,针对K-means算法处理空间数据有初始值选择和孤立点敏感的不足,本文利用CURE算法对K-means进行改进,避免了任意初始值和噪声点对聚类结果的影响,而且降低了层次聚类时间复杂度。利用改进后的聚类算法构建R树,提升了索引构建和节点查询的效率。最后,为了对高维不确定数据进行有效的存储,本文根据Hilbert曲线的降维特点,通过对不确定数据进行编码,避免计算每个数据点之间的期望距离,减少计算量。引入CURE聚类方法,使该索引结构可以较有效的处理孤立点以及海量不确定数据集。提出了可以有效存储不确定数据的索引结构和相应的概率阈值查询算法。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

聚类树索引论文参考文献

[1].王冲.基于Chameleon聚类算法的R树索引方法研究[D].哈尔滨理工大学.2017

[2].崔环宇.基于改进聚类的R树索引方法研究[D].哈尔滨理工大学.2016

[3].孙永伟.基于最小包围盒及自适应聚类的叁维R~*-树索引结构[D].山东理工大学.2011

标签:;  ;  ;  ;  

聚类树索引论文-王冲
下载Doc文档

猜你喜欢