基于距离的聚类论文-王秀慧,赵治军

基于距离的聚类论文-王秀慧,赵治军

导读:本文包含了基于距离的聚类论文开题报告文献综述及选题提纲参考文献,主要关键词:频繁项集,聚类,词集距离,簇间相似系数

基于距离的聚类论文文献综述

王秀慧,赵治军[1](2019)在《改进的基于词集距离的FTC聚类算法》一文中研究指出针对FTC在实现聚类的过程中忽略了文本词语有序性这一特征,结合算法时间复杂度,提出基于词集距离的WSD-FTC文本聚类算法。在采用FP-Growth挖掘频繁项集的过程中通过限制词集距离得到质量更高、数量更少的频繁项集,以此作为聚类依据。通过定义簇间相似系数保证多主题文本归入不同簇中,实现一定程度的软聚类。实验结果表明,WSD-FTC具有更好的聚类效果及更优的时间开销。(本文来源于《计算机工程与设计》期刊2019年11期)

刘丛,陈倩倩,陈应霞[2](2019)在《多距离聚类有效性指标研究》一文中研究指出现有的聚类有效性指标大都是基于欧氏距离而设计.虽然对超球型数据效果较好,但对非超球型数据效果并不理想.基于此,提出一种基于多目标进化算法的多距离聚类有效性指标(MoMDVI).首先使用两种距离设计两个聚类目标,并使用类代表点代替类中心点;其次使用一组实数设计染色体,该组实数可解码成代表点序号的形式;然后使用基于正则化的分布估计算法(RMMEDA)对两个目标进行优化.在进化算子中,加入差分进化算子对RMMEDA算法进行改进,以提高算法的收敛速度.将MoMDVI与现有算法在不同结构的数据上对比可知,MoMDVI不仅可以自动检测超球型数据聚类数目,也可以自动检测非超球型数据聚类数目.(本文来源于《小型微型计算机系统》期刊2019年10期)

冯科,曾德明[3](2019)在《技术融合距离的聚类特征与影响因素——基于大规模专利数据的实证研究》一文中研究指出建设工业4. 0需要推动新兴信息技术与其他领域技术的深度融合。然而跨领域、远距离的技术融合面临较大的风险与挑战。采用电子信息、汽车、装备制造产业1985-2014年约240万专利数据,以叁大产业中的技术领域为研究对象,基于聚类分析研究其技术融合距离动态发展过程中的聚类特征,利用Tobit模型解析其技术融合距离的影响因素。实证研究表明,融合距离最远的技术领域,其动态发展过程表现出多元化、差异化的聚类特征;申请人合作团队规模、产学合作、专利积累、政府科技计划投入显着促进技术融合距离的延伸;发明人团队规模则对技术融合距离先提升、后抑制。应鼓励合作创新、优先关注前期积累丰富的技术领域、构建多目标结合的融合性技术领域财政资金投入组合。(本文来源于《管理评论》期刊2019年08期)

杨威,龙华[4](2019)在《基于加权距离进行密度计算的聚类方法研究》一文中研究指出本文主要研究了初始聚类中心选取对于K-means算法性能的影响,并通过更好的初始化技术来增强算法性能。研究发现,在进行K-means聚类时,通过使用加权距离密度计算方法,对数据集的密度计算,使得在传统K-means聚类算法过程局部最优、簇内方差较大所带来的聚类结果不佳的缺陷得到了显着改善。实验结果表明,在使用本改进方法进行聚类时,聚类结果的簇内方差较传统方法降低了15%左右,对聚类中心的聚集性更加紧密,使算法性能得到了较好的提升。(本文来源于《数据通信》期刊2019年04期)

张璐,孔令臣,陈黄岳[5](2019)在《基于距离相关系数的分层聚类法》一文中研究指出随着大数据时代的到来,各个领域涌现出海量数据且结构复杂.如变量的维数不同、尺度不同等.而现实中变量之间往往存在着不确定关系,经典的Pearson相关系数仅能反映两个同维变量间的线性相关关系,不足以完全刻画变量间的相关关系.2007年Szekely等提出的距离相关系数则能描述不同维数变量间的非线性关系.为了探索变量之间的内在信息,本文基于距离相关系数提出了最大距离相关系数法对变量聚类,且有超度量性和空间收缩性.为充分发挥距离相关系数的优势,对上述方法改进得到类整体距离相关系数法.该方法在刻画两类间相似性时,将每类中的所有变量合并成一个整体,再计算这两个不同维数的整体间的距离相关系数.最后,将类整体距离相关系数法应用到几个实际问题中,验证了算法的有效性.(本文来源于《计算数学》期刊2019年03期)

高军波,李书覃,张迁,王嘉宝[6](2019)在《空间距离聚类视角下平原农区空心化微观机理研究——以河南5地市村庄为例》一文中研究指出以河南省5地市村庄为例,借助空间分析及数理统计技术,量化测算村庄空废宅基地与其他村庄要素空间距离;基于因子分析和聚类,探索了平原农区农村空心化模式及微观机理.研究发现,河南省平原农区农村空废宅基地至田地、主干道、村庄道路、使用中宅基地的平均距离分别是84、25、134、19 m,存在交通导向型、生产导向型、混合型叁种村庄空心化模式,是经济因素、区位条件、规划管理及农村居民居住理念等因素共同作用的结果.最后从培育农村新业态、发展城乡大农业、创新体制机制及政策体系视角提出发展对策,促进村域资源利用,助推乡村振兴.(本文来源于《信阳师范学院学报(自然科学版)》期刊2019年03期)

林萱,毛钦辉,王薇[7](2019)在《基于球面距离的K-means聚类任务打包》一文中研究指出针对深圳、广州、佛山等地大量"拍照赚钱"任务点打包问题,引入了基于球面距离的K-means聚类.考虑到K值的选择困难,算法对初始聚类中心的敏感性,对K-means聚类进行改进,聚类结果给出了较好的任务分配方案.(本文来源于《嘉兴学院学报》期刊2019年06期)

张弛,张贯虹[8](2019)在《基于词向量和多特征语义距离的文本聚类算法》一文中研究指出针对传统文本聚类算法中存在语义相似度计算向量维度高、忽视特征词词频、位置、词距和语义缺失等问题,提出了一种基于词向量和多特征语义距离的文本聚类算法(M-W2-KS)。首先使用Word2Vec训练语料库中的所有特征词,以向量形式进行表征;然后综合考虑特征词的词频、位置、词距信息以及特征词间的欧式距离,计算文本间的语义相似度,并将其应用到K-means算法中,实现文本的聚类。实验结果表明,运用M-W2-KS算法,可以有效提升聚类效果,使聚类结果更加准确。(本文来源于《重庆科技学院学报(自然科学版)》期刊2019年03期)

邵俊健[9](2019)在《高维数据的聚类算法及其距离度量的研究》一文中研究指出目前,高维数据在我们的日常生活随处可见,如何从高维数据中获取我们所需要的信息是当前研究的一个热点。对于高维数据的聚类问题,可以通过降维后使用传统的聚类算法,也可使用子空间聚类算法进行聚类,亦可使用新的距离度量方式来计算各样本点之间的距离从而来衡量相似性。本文的工作主要包括以下两个方面。(1)合适的距离度量函数对于聚类结果有重要的影响。针对大规模高维数据集,使用增量式聚类算法进行距离度量的选择分析。SpFCM算法是将大规模数据集分成小样本进行增量分批聚类,可在有限的计算机内存中获得较好的聚类结果。在传统的SpFCM算法的基础上,使用不同的距离度量函数来衡量样本之间的相似性,以得出不同的距离度量对SpFCM算法的影响。在不同的大规模高维数据集中,使用欧式距离、余弦距离、相关系数距离和扩展的杰卡德距离来计算距离。实验结果表明,后叁个距离度量相对于欧式距离可以很大程度提高聚类效果,其中相关系数距离可以得到较好的结果,余弦距离次之,扩展的杰卡德距离效果比较一般。(2)针对含有高斯噪声的高维数据的聚类问题,提出一种使用新的距离度量方式的增量式聚类算法(Anti-noise fuzzy(c+p)-means clustering,ANFCM(c+p))。由于传统的模糊C均值聚类算法对初始化聚类中心比较敏感,所提出的聚类算法结合SpFCM的增量方法与FCPM中的初始化聚类中心的方法,即将先前数据块的聚类中心附近的几个样本点添加到下一个数据块以进行聚类,以避免FCM对噪声的敏感性。此外,提出的聚类算法使用一种新的改进后的距离度量的同时,并且使用改进的约束条件和目标函数。通过以上改进,可以有效的区分已知类和未知类在算法中的不同影响程度,同时加强已知类和未知类之间的影响程度。实验结果表明,该算法对高维且含有高斯噪声的数据集有很好的聚类效果,并且具有鲁棒性。(本文来源于《江南大学》期刊2019-06-01)

刘颖,梁楠楠,李大湘,杨凡超[10](2019)在《基于光谱距离聚类的高光谱图像解混算法》一文中研究指出为了解决实际高光谱解混(HU)中噪声对解混精度的影响和光谱、空间信息利用不足的问题,提出了一种改进的基于光谱距离聚类的群稀疏非负矩阵分解的解混算法。首先,引入了基于最小误差的高光谱信号辨识算法(Hysime),通过计算特征值的方式估计信号矩阵和噪声矩阵;然后,提出了一种简单的基于光谱距离的聚类算法,对多个波段生成的光谱反射率距离值小于某一值的相邻像元进行合并聚类生成空间群结构;最后,在生成的群结构基础上进行稀疏化非负矩阵分解。实验分析表明,对于模拟数据和实际数据而言,该算法都比传统算法产生更小的均方根误差(RMSE)和光谱角距离(SAD),能够产生优于同类算法的解混效果。(本文来源于《计算机应用》期刊2019年09期)

基于距离的聚类论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

现有的聚类有效性指标大都是基于欧氏距离而设计.虽然对超球型数据效果较好,但对非超球型数据效果并不理想.基于此,提出一种基于多目标进化算法的多距离聚类有效性指标(MoMDVI).首先使用两种距离设计两个聚类目标,并使用类代表点代替类中心点;其次使用一组实数设计染色体,该组实数可解码成代表点序号的形式;然后使用基于正则化的分布估计算法(RMMEDA)对两个目标进行优化.在进化算子中,加入差分进化算子对RMMEDA算法进行改进,以提高算法的收敛速度.将MoMDVI与现有算法在不同结构的数据上对比可知,MoMDVI不仅可以自动检测超球型数据聚类数目,也可以自动检测非超球型数据聚类数目.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

基于距离的聚类论文参考文献

[1].王秀慧,赵治军.改进的基于词集距离的FTC聚类算法[J].计算机工程与设计.2019

[2].刘丛,陈倩倩,陈应霞.多距离聚类有效性指标研究[J].小型微型计算机系统.2019

[3].冯科,曾德明.技术融合距离的聚类特征与影响因素——基于大规模专利数据的实证研究[J].管理评论.2019

[4].杨威,龙华.基于加权距离进行密度计算的聚类方法研究[J].数据通信.2019

[5].张璐,孔令臣,陈黄岳.基于距离相关系数的分层聚类法[J].计算数学.2019

[6].高军波,李书覃,张迁,王嘉宝.空间距离聚类视角下平原农区空心化微观机理研究——以河南5地市村庄为例[J].信阳师范学院学报(自然科学版).2019

[7].林萱,毛钦辉,王薇.基于球面距离的K-means聚类任务打包[J].嘉兴学院学报.2019

[8].张弛,张贯虹.基于词向量和多特征语义距离的文本聚类算法[J].重庆科技学院学报(自然科学版).2019

[9].邵俊健.高维数据的聚类算法及其距离度量的研究[D].江南大学.2019

[10].刘颖,梁楠楠,李大湘,杨凡超.基于光谱距离聚类的高光谱图像解混算法[J].计算机应用.2019

标签:;  ;  ;  ;  

基于距离的聚类论文-王秀慧,赵治军
下载Doc文档

猜你喜欢