不均衡数据分类论文-袁泉,郭江帆,赵学华

不均衡数据分类论文-袁泉,郭江帆,赵学华

导读:本文包含了不均衡数据分类论文开题报告文献综述及选题提纲参考文献,主要关键词:数据流,概念漂移,集成学习,不均衡

不均衡数据分类论文文献综述

袁泉,郭江帆,赵学华[1](2019)在《一种基于集成的不均衡数据流分类算法》一文中研究指出目前数据流分类算法大多是基于类分布这一理想状态,然而在真实数据流环境中数据分布往往是不均衡的,并且数据流中往往伴随着概念漂移。针对数据流中的不均衡问题和概念漂移问题,提出了一种新的基于集成学习的不均衡数据流分类算法。首先为了解决数据流的不均衡问题,在训练模型前加入混合采样方法平衡数据集,然后采用基分类器加权和淘汰策略处理概念漂移问题,从而提高分类器的分类性能。最后与经典数据流分类算法在人工数据集和真实数据集上进行对比实验,实验结果表明,本文提出的算法在含有概念漂移和不均衡的数据流环境中,其整体分类性能优于其他算法的。(本文来源于《计算机工程与科学》期刊2019年08期)

童威,黄启萍[2](2019)在《优化BP神经网络在非均衡数据分类中的应用》一文中研究指出基于预处理结果将降噪BP神经网络方法应用于非均衡数据分类。通过SGD方法获取最小代价的函数损失值。引入学习率自适应更新方法对SGD方法中的学习率进行更新,给出非均衡数据分类流程,实现非均衡数据分类。(本文来源于《长春工业大学学报》期刊2019年03期)

张明,胡晓辉,吴嘉昕[3](2019)在《一种基于混合采样的非均衡数据集分类算法》一文中研究指出在非均衡数据集中,针对使用单一的过采样或欠采样方法可能造成少数类样本过拟合或者丢失含有重要信息样本的问题.提出了一种新的基于混合采样的随机森林算法(USI).首先通过引进"变异系数"检测出样本集的稀疏域和密集域,然后对稀疏域中的少数类样本,提出了一种改进的过采样方法(USMOTE);对密集域中的多数类样本,提出了一种改进的欠采样方法(IS),最后将平衡后的数据集送入随机森林分类器中进行训练.通过实验表明,该算法与传统算法相比,取得了更高的Gmean值,F-value值,具有更高的综合分类准确率.(本文来源于《小型微型计算机系统》期刊2019年06期)

郭江帆[4](2019)在《面向概念漂移和不均衡数据流的分类算法研究》一文中研究指出近年来随着大数据和云计算的迅速发展,在互联网等方面源源不断地产生大量的数据流。学者们为了获取并分析这些领域的数据流中隐含的大量的有用信息,为此对数据流挖掘领域展开了深入研究。然而,静态数据与数据流并不完全相同,数据流的特点是快速性、连续性、多变性、无限性等。特点的不同决定了数据流挖掘算法并不能完全沿用传统的数据挖掘算法。不仅如此,数据流中会产生概念漂移现象即数据的分布会随着时间的变化而随之变化,这一现象无形中对数据流挖掘也造成了巨大的难度。与静态数据相同的是,数据流中也存在类不均衡现象,这些都是流挖掘过程中不得不面对和迫切需要解决的重点和难点问题。因此,本文主要围绕以上问题,对数据流中的概念漂移现象和类不均衡问题展开深入研究,其主要的工作内容包括:针对数据流中概念漂移问题,本章介绍了基于数据分布的概念漂移检测算法,主要分为概念漂移检测模块和概念重现检测模块。该算法不仅能处理数据流中的概念漂移现象,还可以检测到重现概念问题。首先利用概念漂移检测算法检测出数据流中的概念漂移问题,然后在概念重现模块中解决重现漂移的问题。最后在数据流机器学习实验分析平台MOA上对该算法进行大量验证与分析。结果表明该算法具有低误报、低漏报和低检测时延,不仅有效地提高了分类的性能指标,还发现了概念漂移现象中的重现概念问题。针对存在类不均衡问题的数据流中概念漂移的分类问题,本章提出一种基于集成学习的不均衡数据流分类算法。该算法首先处理数据流中类不均衡问题,先采用上采样技术,再采用下采样技术,增加正样本,减少负样本,减少过拟合,均衡数据流。其次采用集成方式周期更新分类器权值应对概念漂移。动态更新分类器权值时,不仅考虑了分类器对当前数据块的分类正确率,还引入了分类器对当前数据块的错误分类的代价。在分类器的淘汰策略中,计算分类器在集成分类器中的贡献值,根据贡献值替换分类器。最后在数据流机器学习实验分析平台MOA上对本文算法进行大量验证与分析,结果表明该算法具有较高的分类正确率。(本文来源于《重庆邮电大学》期刊2019-06-02)

赵慧[5](2019)在《基于非均衡数据的传统分类模型研究》一文中研究指出随着现代科技的迅猛发展和数据业务的不断增多,大量数据不断积累的同时数据类型也越来越多样化。其中具有代表性的非均衡数据现在越来越多的出现在医疗、金融、保险、生物等相关领域,给这些领域中实际业务数据的分类预测带来了困难。传统分类器的分类预测大都是基于均衡数据集,数据的非均衡性使传统的分类器忽视少数类样本,分类性能下降。本文对如何处理非均衡数据的相关问题进行了研究,主要从数据层面和算法层面来提高基于非均衡数据传统分类模型的分类性能,从而提升传统分类模型在非均衡数据集上的应用价值。本文的主要研究成果有:(1)在数据层面,本文提出了SMOTE-EN+F方法。该方法在SMOTE过采样法的基础上,结合Easy Ensemble欠采样法中集成(Ensemble)思想,以传统分类模型为子模型,以反映少数类样本分类性能的_1F-value值为权重,改善了样本非均衡性的同时提高了传统分类模型的分类性能。通过UCI数据集的实验证明,SMOTE-EN+F法提高了BP神经网络、支持向量机(SVM)和Logistic分类模型对非均衡数据的分类性能。(2)在算法层面,本文研究了基于非均衡数据的Logistic分类模型,为了解决Logistic分类模型在处理非均衡数据时,默认阈值不能合理划分分类变量的问题,本文给出确定分类阈值的方法—置信度阈值法。此方法先计算非均衡数据中各分类样本的置信度,然后将样本置信度作用于默认阈值0.5上,使阈值带有样本信息,进而使得Logistic分类模型能有效的处理非均衡数据的分类问题。同样通过UCI数据集验证了置信度阈值法的合理性。最后,本文使用前面提出的SMOTE-EN+F法和Logistic分类模型的置信度阈值法,基于BP神经网络分类器、支持向量机(SVM)分类器和Logistic分类器,研究非均衡信贷数据中客户是否逾期的分类预测问题。实际应用得出:相比于SMOTE过采样法,SMOTE-EN+F法可以提升传统分类模型对信贷数据的分类准确度且能够更好的识别非均衡信贷数据中的逾期客户,同时得到基于SMOTE-EN+F的SVM信用评分模型;采用本文提出的置信度阈值法可以提升Logistic分类器在实际非均衡信贷数据集上的适用性。(本文来源于《山西大学》期刊2019-06-01)

黄禹侨[6](2019)在《高维不均衡数据情形下一种基于随机投影的决策树集成分类方法》一文中研究指出随着时代的发展,高维不均衡数据越来越频繁地出现在各个领域,比如基因数据、信号数据、金融数据等;如何有效地对高维不均衡数据进行分类是一个重要的研究方向。为此,本文提出一种基于随机投影的决策树集成分类方法;并利用阈值移动的方式将该方法推广到高维不均衡数据的情形。在第二章,针对于高维数据的分类问题,本文提出一种基于随机投影的决策树集成学习方法Projection Forest(PJForest)。该方法以决策树为基分类器,利用一系列随机投影对数据进行降维,基于降维后的数据构建相应的一系列决策树,而后通过集成学习构造集成分类器。利用随机投影对数据进行降维,能保持数据几何结构的信息;更重要的是,随机投影通过对原始数据进行扰动,能丰富一系列决策树的多样性,经过集成可有效克服噪音的影响,进而提升PJForest的泛化能力。本文证明了PJForest泛化误差的极限性质,得到一定意义下泛化误差的收敛速度。本文做了大量的模拟研究,并对实际数据进行了实证分析。模拟研究的结果表明,PJForest能有效地对包含大量噪音的高维数据进行分类,比起已有的诸如随机森林、Xgboost等方法,有更好的分类性能。在第叁章,本文将PJForest方法推广到了高维不均衡数据的情形下,提出一种基于阈值移动的均衡化PJForest方法,Banlanced Projection Forest(BPJForest)。该方法通过改变投票阈值,移动决策边界,进而增强对少数类样本的分类表现,这使得BPJForest能对高维不均衡数据进行分类。当以均衡分类准确率(Balanced accuracy)作为不均衡数据分类的评价指标时,本文给出了一个最优阈值的选择方法。本文将PJForest泛化误差的极限性质推广到了BPJForest下,得到了相似的理论结果。本文做了模拟研究,模拟研究的结果表明,BPJForest能有效地对高维不均衡数据进行分类,比起已有的PJForest、RPF等方法,有更好的分类性能。(本文来源于《中国科学技术大学》期刊2019-05-14)

齐利泉[7](2019)在《基于类中心插值的非均衡数据分类算法》一文中研究指出在传统的随机森林算法中,随机森林由多棵决策树组成,分类的结果由所有的决策树共同投票决定。随机森林算法在训练决策树的过程中,单棵决策树训练样本的随机采样使得训练产生的决策树模型分类性能有所差别。训练样本的非均衡性会使随机森林模型更偏向大数据样本,使得小样本数据分类性能欠佳。为此,提出了KC-RF算法。该算法的过采样数据分为两部分:第一部分利用k-means对小样本数据进行聚类,在聚类中心周围根据欧式距离采样部分数据,用以表征样本;第二部分以小样本数据中心CM和大样本数据中心间的类间距作为标准进行样本插值。将过采样产生的两部分数据和原来的小样本数据共同组成训练样本,再使用随机森林进行分类。通过在KEEL数据集上的实验证明,所提算法的分类精度提高明显。(本文来源于《通信技术》期刊2019年03期)

王馨月,景丽萍[8](2019)在《基于分层抽样的不均衡数据集成分类》一文中研究指出不均衡数据分类是数据挖掘领域的一个难点问题,对多数类样本进行降采样可简单且有效地解决不均衡数据处理面临的两大核心问题,即如何从数类占绝对优势的数据集合中最大程度地挖掘少数类信息;如何确保在不过度损失多数类信息的前提下构建学习器.但现有的降采样方法往往会破坏原始数据结构特性或造成严重的信息损失.本研究提出一种基于分层抽样的不均衡数据集成分类方法 (简记为EC-SS),通过充分挖掘多数类样本的结构信息,对其进行聚类划分;再在数据块上进行分层抽样来构建集成学习数据成员,以确保单个学习器的输入数据均衡且保留原始数据的结构信息,提升后续集成分类性能.在不均衡数据集Musk1、Ecoli3、Glass2和Yeast6上,对比EC-SS方法与基于随机抽样的不均衡数据集成分类方法、自适应采样学习方法、基于密度估计的过采样方法和代价敏感的大间隔分类器方法的分类性能,结果表明,EC-SS方法能有效提升分类性能.(本文来源于《深圳大学学报(理工版)》期刊2019年01期)

王虎[9](2018)在《大数据下不均衡数据碎片分类识别算法》一文中研究指出提出一种基于决策准则优化的不均衡数据碎片分类识别算法,首先对一般的大数据环境下不均衡数据碎片分类识别过程进行描述,分析其存在问题,在此基础上,提出通过决策准则优化算法进行不均衡数据碎片识别的算法,通过优化决策准则中的决策阈值和错分代价,从而优化分类准则,通过对自适应随机子空间不均衡数据碎片分类识别算法的描述,完成大数据环境下不均衡数据碎片分类识别。实验结果表明,所提算法能够提高分类识别的准确性,且其所占内存空间较小,为该领域的研究发展创造条件。(本文来源于《科技通报》期刊2018年12期)

张旭,周新志,赵成萍,邵伦[10](2019)在《基于犹豫模糊决策树的非均衡数据分类》一文中研究指出为优化针对非均衡数据的分类效果,结合犹豫模糊集理论与决策树算法,提出一种改进的模糊决策树算法。通过SMOTE算法对非均衡数据进行过采样处理,使用K-means聚类方法获得各属性的聚类中心点,利用2种不同的隶属度函数对数据集进行模糊化处理。在此基础上,根据隶属度函数和犹豫模糊集的信息能量求得各属性的犹豫模糊信息增益,选取最大值替代Fuzzy ID3算法中的模糊信息增益作为属性的分裂准则,构建一个用于非均衡数据分类的犹豫模糊决策树模型。实验结果表明,基于犹豫模糊决策树的分类器在AUC评价指标上相对于C4.5、KNN、随机森林等传统分类算法平均提高了12.6%。(本文来源于《计算机工程》期刊2019年08期)

不均衡数据分类论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

基于预处理结果将降噪BP神经网络方法应用于非均衡数据分类。通过SGD方法获取最小代价的函数损失值。引入学习率自适应更新方法对SGD方法中的学习率进行更新,给出非均衡数据分类流程,实现非均衡数据分类。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

不均衡数据分类论文参考文献

[1].袁泉,郭江帆,赵学华.一种基于集成的不均衡数据流分类算法[J].计算机工程与科学.2019

[2].童威,黄启萍.优化BP神经网络在非均衡数据分类中的应用[J].长春工业大学学报.2019

[3].张明,胡晓辉,吴嘉昕.一种基于混合采样的非均衡数据集分类算法[J].小型微型计算机系统.2019

[4].郭江帆.面向概念漂移和不均衡数据流的分类算法研究[D].重庆邮电大学.2019

[5].赵慧.基于非均衡数据的传统分类模型研究[D].山西大学.2019

[6].黄禹侨.高维不均衡数据情形下一种基于随机投影的决策树集成分类方法[D].中国科学技术大学.2019

[7].齐利泉.基于类中心插值的非均衡数据分类算法[J].通信技术.2019

[8].王馨月,景丽萍.基于分层抽样的不均衡数据集成分类[J].深圳大学学报(理工版).2019

[9].王虎.大数据下不均衡数据碎片分类识别算法[J].科技通报.2018

[10].张旭,周新志,赵成萍,邵伦.基于犹豫模糊决策树的非均衡数据分类[J].计算机工程.2019

标签:;  ;  ;  ;  

不均衡数据分类论文-袁泉,郭江帆,赵学华
下载Doc文档

猜你喜欢