分布式分类论文-冯学晓,刘翠芳

分布式分类论文-冯学晓,刘翠芳

导读:本文包含了分布式分类论文开题报告文献综述及选题提纲参考文献,主要关键词:预先分类,分布式,多维数据,并向调度

分布式分类论文文献综述

冯学晓,刘翠芳[1](2019)在《基于预先分类的分布式水下网络空间多维数据并行调度方法》一文中研究指出水下网络数据调度方法存在网络空间多维数据调度策略异常、交互资源槽分布调度存在资源均衡分布异常的状况,导致数据交互调度能力下降,数据间交互延迟增大,多维数据类别化调度准确率受到影响。针对问题提出基于预先分类的分布式水下网络空间多维数据并行调度方法,首先,对调度数据类别进行资源槽的类别优化处理,通过引入资源槽与分类调度算法,理顺资源槽交互类别数据集;接着对网络空间多维数据进行调度逻辑的计算,根据网络数据传输特点,引入多维数据分布式云并行调度算法,对网络空间中的并行数据流进行优化,实现多维数据的并行调度;最后,通过设计1 000~2 000组的实验数据,对提出方法的可行性进行证明,证明方法具有可行性高、数据并行调度效率高、稳定好的特点。(本文来源于《舰船科学技术》期刊2019年20期)

张艾伦[2](2019)在《基于概率神经网络分类器的Φ-OTDR分布式光纤扰动传感系统模式识别研究》一文中研究指出分布式光纤传感系统具有无需外场供电、抗电磁干扰能力强、探测灵敏度高、监测范围广、便于集成等优势,已经成为了传感器领域的研究热点之一。目前,分布式光纤传感系统己广泛应用于油气管道状态检测、大型结构探伤、国土安全监控等诸多领域。在众多类型的分布式光纤传感技术中,基于相位敏感光时域反射器(Φ-OTDR)的传感系统凭借着其空间分辨率高、系统结构简单、可同时定位多个扰动事件等优点,成为当前长距离分布式光纤传感系统研究的主流方向之一。本文针对Φ-OTDR分布式光纤传感系统在实际应用中遇到的误报率较高、对于扰动事件是否有害判别不清的问题,提出了基于概率神经网络(PNN)模型分类器的扰动事件模式识别方法,有效实现了对不同类型的扰动事件的区分。本文主要完成的研究工作如下:(1)在理论研究Φ-OTDR分布式光纤传感系统的原理及其系统的输出信号特征的基础上,构建了基于Φ-OTDR分布式光纤传感实验平台,实验采集浇水、攀爬、敲击与碾压四类扰动信号以及无扰动时的输出信号,研究了时域信号及时域差分信号相应的特征值的提取并将扰动信号划分为测试样本,为后续扰动信号模式识别研究奠定了基础。(2)提出了基于概率神经网络模型的扰动事件模式识别方法,并通过样本数据加以实验验证。实验结果表明该方法对于五种事件类型(浇水、攀爬、敲击、碾压与无扰动)的平均识别正确率达到了 97.57%、95.68%、99.92%、99.08%、99.97%,该方法可以有效区分不同扰动事件,但实时性较低。网络模型的建立与识别的平均时间为1.1369秒。(3)根据概率神经网络模型的工作流程,为了实现在保证识别准确性的前提下改善算法的实时性,提出了通过使用平均影响因子的改进方案与通过使用主成分分析方法的改进方案,并通过仿真实验对两种方案加以验证。两种方案的对五种情况的平均识别正确率分别达到了 93.36%、92.48%、97.01%、96.99%、99.60%和96.80%、94.13%、99.36%、98.45%、99.95%,两种改进方案的识别时间分别为 0.8745秒和0.9308秒,较原始模型有所提高。(4)根据现有样本数据探索一种“删减-放回”的样本库构建方法,并利用这种方法建立起两种改进模型样本占总样本比重为70%、60%、50%、40%的样本库,并加以实验验证分析。试验结果表明在现有数据基础上,在使用占比为50%以上的样本库进行识别工作仍可以得到90%以上的正确率。(本文来源于《北京交通大学》期刊2019-06-01)

张慧芳,宗彩乐,张晓琳[3](2019)在《基于分布式框架下的中文文本特征分类》一文中研究指出研究运用复旦中文文本及搜狗中文文档作为研究对象,提高了中文文本分类精确度及召回率,分析得出特征词的最佳贡献值。应用朴素贝叶斯分类方法和改进的TFIDF关键字提取及权重计算,提出TNBIF模型分类方法,在Spark平台上并行分类实现。实验结果表明:应用TNBIF模型实行中文文本分类,精确度高达95.49%,比传统文本分类方法精确度提高5.41%,召回率提高了6.64%。本研究得出最佳贡献值为0.95。(本文来源于《电脑与电信》期刊2019年05期)

孙璞[4](2019)在《基于Φ-OTDR分布式光纤传感系统扰动信号的分类算法及实现》一文中研究指出随着科学技术的发展,光纤传感技术与机器学习算法也在不断地得到完善。其中基于相位敏感光时域反射仪(Phase-sensitive Optical Time Domain Reflectometer,Φ-OTDR)的分布式光纤传感系统由于设计结构简单、监测的距离较长、可实现多点定位等优点,在长距离机场安防、油气管道检测、涵洞隧道检测等环境中得到了广泛的应用。基于Φ-OTDR分布式光纤传感系统扰动事件的多分类逐渐成为了重要的研究方向,而本文就是基于AdaBoost(Adaptive Boosting)算法对五种扰动事件进行识别,完成的主要工作包括:(1)研究分析Φ-OTDR分布式光纤传感技术理论,对输出信号进行了简单的理论分析,提取五种情况(浇水、攀爬、敲击、碾压、无扰动)下的扰动信号。对采集到的样本信号进行数据归一化、数据分组、数据差分等预处理操作,可以消除原始数据之间的相互影响,为后续的特征提取提供便利;然后提取了扰动信号在时域方面的叁十维特征值,为扰动信号的识别分类奠定了基础。(2)提出基于投票的扰动信号分类方法,并对其实现和验证。结果表明所提出的识别方法能够有效识别五种扰动事件,对五种扰动事件的召回率分别达到91.93%、98.20%、91.57%、90.83%、99.23%,平均识别召回率达到94.35%;五种模式的识别精确率分别为94.85%、87.54%、97.76%、95.83%、99.21%,平均识别精确率为95.04%。(3)提出基于二进制编码的扰动信号分类方法,对其实现和验证。结果表明该方法能够有效的对五种扰动事件进行区分,但相比于基于投票法的扰动事件识别方法,识别率有一定的下降,对五种扰动事件的召回率分别达到89.43%、97.70%、90.90%、88.30%、99.13%,平均识别召回率为93.09%;五种模式的识别精确率分别为93.28%、87.35%、96.23%、92.75%、99.64%,平均识别精确率为93.85%。此外,由于二分类器个数的减少,所以识别的时间相对于投票法有一定的下降。(4)提出基于二进制编码与二叉树的扰动信号分类方法,对其实现和验证。结果表明该方法能够有效的对五种扰动事件进行识别,而且相比于前两种识别方法,识别率有一定的提升,对五种扰动事件的召回率分别达到92.27%、97.83%、94.47%、90.33%、98.73%,平均识别召回率为94.73%,五种模式的识别精确率分别为92.95%、90.90%、97.05%、95.67%、99.76%,平均识别精确率为95.27%。该方法的识别召回率和精确率都较优于前两种识别方法,但是识别的时间却有一定的增加,100次试验的平均识别时间为0.2325s。(本文来源于《北京交通大学》期刊2019-05-01)

王磊[5](2019)在《基于分布式大数据流分类的电网设备风险辨识模型研究》一文中研究指出由于近年来智能电网的高度发展,使得电网规模不断增加且愈加复杂,这使得对电网中输变电设备的检修与维护变得更加困难。然而为达到保障电网稳定运行,提高电能质量,降低检修成本的要求,需要对电网设备的健康状态和工作年限进一步升级改善。同时在电力系统中的风险由电网的故障和异常组成,因此实现对电网设备风险的辨识就等价于对电网设备中故障和异常的准确判断。然而随着信息采集与传输技术在电力系统中的大量应用,电网中对各个设备的在线监测系统不断完善,因此形成了大量隐含着电网设备异常信息的数据流。本文从数据流处理的角度出发,为解决针对电网设备风险的实时检测问题,进行了以下研究。针对电网设备在线监测数据流的清洗问题,本文提出了基于关联规则的电网设备数据流清洗方法。此方法利用关联规则分析数据流中各个序列的关联强度,提出异常数据检测算法来辨识异常数据,并结合改进后的小波神经网络来完成对数据流的清洗。其中根据各个序列间的关联关系,结合基于滑动窗口的异常数据筛选算法来辨识,数据流内的不良数据,通过改进后的小波神经网络对此数据进行清洗。经过实验证明此方法能够有效甄别出不良数据与由设备异常引起的故障数据,且改进后的小波神经网络具有较好的清洗效果。为解决电网设备异常的实时检测问题,本文基于上述数据清洗算法,提出基于分布式处理的数据流分类模型,为实现对电网数据流的分布式处理,设计了局部节点挖掘方法,与基于不平数据流分类的全局挖掘模式。因此本文在第四章分析了为实现对电网设备数据流的分类,需要构建基于分布式处理的数据流分类模型,然后选取相应数据序列并进行格式化抽象,设计此模型下的局部节点挖掘方法与全局挖掘模式。在局部节点挖掘器中通过对当前数据块的获取,实现块到块的挖掘策略。同时,结合聚类算法完成对局部挖掘模式的表达与实时维护,进而提高各个节点间信息的传输速率,并保证整体分类算法的时效性。针对电网设备数据流中各个类别数据分布不平衡的问题,本文在全局挖掘模式中提出基于不平衡数据流的集成分类算法。该方法首先在中心节点接收到各个局部节点传过来的微簇。然后,为对集成分类器中的基础分类器进行训练更新,提出了基于微簇的学习样本还原算法。利用还原后的数据与经过数据清洗后的异常数据集构建训练数据块,为提高分类器对电网设备风险类别的辨识精度。设计了选择性重采样机制,来平衡当前数据块中各个类别的分布,进而避免对小类别数据识别效率低下的问题。同时,为降低概念漂移给分类器精度带来的影响,针对全局挖掘模式中的集成分类器进行周期性的增量式更新,并在更新分类器时将被一个基础分类器正确预测的样本淘汰,不在用其训练其他基础分类器,以提高集成分类多样性,继而实现对概念漂移的适应。到此完成了全局挖掘模式的任务,并结合局部挖掘模式,实现了对基于分布式的大数据流分类模式的构建。以解决对电网设备风险的实时辨识问题。最后从分类模型的性能,以及对不平衡数据流与概念漂移数据流的分类效果上进行实例验证,结果验证了本文所提方法的有效性。(本文来源于《东北电力大学》期刊2019-05-01)

魏鑫[6](2019)在《脑卒中TCD数据分类及其在Hadoop分布式系统实现的研究》一文中研究指出脑卒中作为一种常见的神经系统疾病,由于其高发病率,高死亡率,高致残率和高复发率的特点,严重影响着人们的正常生活。经颅多普勒(Transcranial Doppler,TCD)技术由于具有无创性、便捷性和准确性等特色及优点,是医疗界经常采用的早期辅助诊断脑卒中的方式。目前,医护人员对脑卒中TCD数据的分析常采用人工判读结合临床经验诊断的方式,但该方式易受主观判断及是否具备丰富经验等因素的影响。近年来,如何通过对脑卒中TCD数据的准确分析,实现快速精确的辅助诊断脑卒中,已成为国内外专家重要的研究方向之一。随着人工智能技术的发展,将其用于医疗辅助诊断逐步成为提高医疗诊断效率新的发展趋势。因此如何采用人工智能技术对脑卒中患者的TCD数据进行智能分析,以提高脑卒中诊断准确率和效率,成为近年的研究热点。本文的主要目的是针对脑卒中TCD数据进行分类研究。所开展的工作主要包括脑卒中TCD数据库的搭建、非平衡脑卒中TCD数据集分类模型的构建以及大数据场景时分布式分类模型的构建叁大内容。具体研究内容如下:设计并搭建了基于Django架构的脑卒中TCD数据库。该数据库的设计采用B/S架构,主要包括前端界面设计、Django框架开发和MySQL数据库的设计等。根据后续需求,本文对数据库的核心模块进行了开发和测试,实现了对脑卒中TCD数据的采集整理功能。提出了一种适用于脑卒中TCD非平衡数据集分类的改进模糊支持向量机模型。通过分析研究传统模糊隶属度函数的设计方法,对已有的模糊隶属度函数进行改进,利用信息熵作为衡量样本点不确定性的标准,并结合非平衡调节因子,提高了模糊支持向量机对少数类样本的分类能力。通过对公共非平衡数据集和脑卒中TCD非平衡数据集进行分类实验,证明了本文方法可以有效地处理脑卒中TCD非平衡数据集。与一般的模糊支持向量机相比,在所选公共数据集中,采用该方法的模型分类性能都有所提高,最高可达17.99%,对脑卒中TCD非平衡数据集,分类性能最高可提升3.26%。设计并实现了大数据分布式处理架构Hadoop平台的搭建,完成了所需分布式编程模型的构建。为了满足对脑卒中TCD数据进行分类研究,本文利用实验室的硬件设施,构建了Hadoop分布式处理平台,保证实验的高效可靠。一方面设计了基于SVM的分布式网格寻优算法,实验表明在同样准确率的前提下,分布式网格寻优算法可以有效缩短训练时间。另一方面设计了SVM分布式编程模型,研究了训练时间与脑卒中TCD数据集大小之间的关系,验证了基于Hadoop分布式处理架构处理大规模脑卒中TCD数据的可行性。(本文来源于《太原理工大学》期刊2019-05-01)

田冬雪[7](2019)在《基于分布式存储的海量遥感影像分类方法研究》一文中研究指出随着对地观测技术的不断发展,遥感影像的分类在军事、农业等领域发挥着重要的作用。传统的遥感影像分类方法需要人工设计特征和参数,使得模型的泛化性差且分类精度低。深度学习作为一种新兴的技术,在图像分类领域取得了突破性进展,它能够自动的学习图像的深层特征,具有较高的识别准确率。由于深度学习模型参数较多,一般采用GPU服务器对其进行训练。但是遥感影像数据量较大,单GPU服务器无法高效的管理海量遥感影像。因此,本文提出了一种基于分布式存储的海量遥感影像分类方法,该方法将分布式文件系统作为底层的存储架构,在上层采用GPU服务器训练改进后的遥感影像分类模型。论文的主要研究内容如下所示:(1)为解决单GPU服务器无法高效地管理海量遥感影像的问题,本文提出了一种基于HBase的海量遥感影像并行处理方法。其利用HDFS分布式文件系统和分布式数据库HBase构造了面向遥感影像应用的并行处理架构,对大规模遥感影像进行管理。本文采用希尔伯特曲线和网格索引相结合的索引方式,保证遥感数据在HBase的物理存储结构上具有较高的空间临近性。同时在影像金字塔的构建和数据存储的过程中,本文提出了一种基于MapReduce的并行处理方法,有效的减少了数据的存储与读取时间。实验结果表明,基于HBase的并行处理遥感影像的方法,可以快速的处理大规模遥感影像。与Oracle和MongoDB存储方法相比,该方法具有较高的扩展性和较短的处理时间,能够为大规模遥感影像的分类提供良好的数据管理服务。(2)为了减少遥感影像分类模型的训练时间和提高分类精度,本文提出了一种基于迁移学习改进的U-Net网络模型。该方法首先基于分布式存储结构设计了一种并行采样算法MRSW,其充分利用了遥感影像金字塔数据,缩短了训练数据的构造时间。然后采用VGG16模型的卷积参数用于初始化U-Net模型,加速了模型的收敛速度;为了避免模型产生过拟合,本文对U-Net模型下采样前和上采样通道合并后进行Batch Normalization操作;由于遥感影像中类别分布不均衡,导致模型的分类精度较低,本文将用focal loss扩展到多分类作为损失函数,增加错分样本的损失权重提高了模型的分类精度。实验结果证明,本文提出的基于迁移学习改进的U-Net模型在训练过程中更加稳定,在减少模型训练时间的同时具有较高的泛化能力。其在测试数据集上可达到94.12%的准确率,较原始U-Net模型提高了 5.88%。(本文来源于《东北林业大学》期刊2019-04-01)

王韬[8](2019)在《互联网环境下语境分类目标信息分布式传播方法》一文中研究指出传统的语境分类目标信息传播方法无法高效提升信息传播速度,提出一种互联网环境下语境分类目标信息分布式传播方法。互联网环境下,在语境中寻找关联因子,通过关联因子对所有信息进行分类;然后根据侦查到的信息找到目标信息,利用点模式匹配方法将所得到的目标信息进行关联,验证信息的特征层、分类层、综合信息和属性信息;最后根据侦查技术和成像技术对目标信息进行传播,由于语境信息种类不同,所以传播方式为分布式传播,传播层次可以分为图像信息层次传播、特征信息层次传播和关联信息层次传播。为检验该技术效果,与传统技术进行了实验对比,结果表明,所研究的分布式传播技术可以在短时间内完成分层次传播,工作效率更高,成本更低,对于信息发展有很好的促进作用。(本文来源于《制造业自动化》期刊2019年03期)

江佳伟,符芳诚,邵蓥侠,崔斌[9](2019)在《面向高维特征和多分类的分布式梯度提升树》一文中研究指出梯度提升树算法由于其高准确率和可解释性,被广泛地应用于分类、回归、排序等各类问题.随着数据规模的爆炸式增长,分布式梯度提升树算法成为研究热点.虽然目前已有一系列分布式梯度提升树算法的实现,但是它们在高维特征和多分类任务上性能较差,原因是它们采用的数据并行策略需要传输梯度直方图,而高维特征和多分类情况下梯度直方图的传输成为性能瓶颈.针对这个问题,研究更加适合高维特征和多分类的梯度提升树的并行策略,具有重要的意义和价值.首先比较了数据并行与特征并行策略,从理论上证明特征并行更加适合高维和多分类场景.根据理论分析的结果,提出了一种特征并行的分布式梯度提升树算法FP-GBDT.FP-GBDT设计了一种高效的分布式数据集转置算法,将原本按行切分的数据集转换为按列切分的数据表征;在建立梯度直方图时,FP-GBDT使用一种稀疏感知的方法来加快梯度直方图的建立;在分裂树节点时,FP-GBDT设计了一种比特图压缩的方法来传输数据样本的位置信息,从而减少通信开销.通过详尽的实验,对比了不同并行策略下分布式梯度提升树算法的性能,首先验证了FP-GBDT提出的多种优化方法的有效性;然后比较了FP-GBDT与XGBoost的性能,在多个数据集上验证了FP-GBDT在高维特征和多分类场景下的有效性,取得了最高6倍的性能提升.(本文来源于《软件学报》期刊2019年03期)

李恒波[10](2019)在《基于分布式数据流的大数据分类算法》一文中研究指出大数据是需求驱动的概念,大数据根据主要技术特征分为分布式和流动式,随着数据库系统的升级和扩张,现有的数据处理技术已经难以满足企业对大数据应用的要求。通过对算法整体流程的设计、数据分类形成数据集再对算法的步骤进行描述,最后通过仿真实验验证该算法的可行性,不仅能大幅度地减少网络节点间的通讯代价,而且可以获得大幅度的全局挖掘精度的提升,提升在分布式数据中的查询效率,在海量的数据信息分析中具有良好的利用价值。(本文来源于《饮食科学》期刊2019年04期)

分布式分类论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

分布式光纤传感系统具有无需外场供电、抗电磁干扰能力强、探测灵敏度高、监测范围广、便于集成等优势,已经成为了传感器领域的研究热点之一。目前,分布式光纤传感系统己广泛应用于油气管道状态检测、大型结构探伤、国土安全监控等诸多领域。在众多类型的分布式光纤传感技术中,基于相位敏感光时域反射器(Φ-OTDR)的传感系统凭借着其空间分辨率高、系统结构简单、可同时定位多个扰动事件等优点,成为当前长距离分布式光纤传感系统研究的主流方向之一。本文针对Φ-OTDR分布式光纤传感系统在实际应用中遇到的误报率较高、对于扰动事件是否有害判别不清的问题,提出了基于概率神经网络(PNN)模型分类器的扰动事件模式识别方法,有效实现了对不同类型的扰动事件的区分。本文主要完成的研究工作如下:(1)在理论研究Φ-OTDR分布式光纤传感系统的原理及其系统的输出信号特征的基础上,构建了基于Φ-OTDR分布式光纤传感实验平台,实验采集浇水、攀爬、敲击与碾压四类扰动信号以及无扰动时的输出信号,研究了时域信号及时域差分信号相应的特征值的提取并将扰动信号划分为测试样本,为后续扰动信号模式识别研究奠定了基础。(2)提出了基于概率神经网络模型的扰动事件模式识别方法,并通过样本数据加以实验验证。实验结果表明该方法对于五种事件类型(浇水、攀爬、敲击、碾压与无扰动)的平均识别正确率达到了 97.57%、95.68%、99.92%、99.08%、99.97%,该方法可以有效区分不同扰动事件,但实时性较低。网络模型的建立与识别的平均时间为1.1369秒。(3)根据概率神经网络模型的工作流程,为了实现在保证识别准确性的前提下改善算法的实时性,提出了通过使用平均影响因子的改进方案与通过使用主成分分析方法的改进方案,并通过仿真实验对两种方案加以验证。两种方案的对五种情况的平均识别正确率分别达到了 93.36%、92.48%、97.01%、96.99%、99.60%和96.80%、94.13%、99.36%、98.45%、99.95%,两种改进方案的识别时间分别为 0.8745秒和0.9308秒,较原始模型有所提高。(4)根据现有样本数据探索一种“删减-放回”的样本库构建方法,并利用这种方法建立起两种改进模型样本占总样本比重为70%、60%、50%、40%的样本库,并加以实验验证分析。试验结果表明在现有数据基础上,在使用占比为50%以上的样本库进行识别工作仍可以得到90%以上的正确率。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

分布式分类论文参考文献

[1].冯学晓,刘翠芳.基于预先分类的分布式水下网络空间多维数据并行调度方法[J].舰船科学技术.2019

[2].张艾伦.基于概率神经网络分类器的Φ-OTDR分布式光纤扰动传感系统模式识别研究[D].北京交通大学.2019

[3].张慧芳,宗彩乐,张晓琳.基于分布式框架下的中文文本特征分类[J].电脑与电信.2019

[4].孙璞.基于Φ-OTDR分布式光纤传感系统扰动信号的分类算法及实现[D].北京交通大学.2019

[5].王磊.基于分布式大数据流分类的电网设备风险辨识模型研究[D].东北电力大学.2019

[6].魏鑫.脑卒中TCD数据分类及其在Hadoop分布式系统实现的研究[D].太原理工大学.2019

[7].田冬雪.基于分布式存储的海量遥感影像分类方法研究[D].东北林业大学.2019

[8].王韬.互联网环境下语境分类目标信息分布式传播方法[J].制造业自动化.2019

[9].江佳伟,符芳诚,邵蓥侠,崔斌.面向高维特征和多分类的分布式梯度提升树[J].软件学报.2019

[10].李恒波.基于分布式数据流的大数据分类算法[J].饮食科学.2019

标签:;  ;  ;  ;  

分布式分类论文-冯学晓,刘翠芳
下载Doc文档

猜你喜欢