导读:本文包含了视频语义分割论文开题报告文献综述及选题提纲参考文献,主要关键词:视频去模糊,语义分割,像素模糊,非线性核
视频语义分割论文文献综述
董飞,马源源[1](2019)在《基于语义分割和像素非线性核的视频去模糊》一文中研究指出由于相机抖动、物体运动和深度变化等因素将不可避免地造成视频模糊,论文利用每个模糊帧中的语义分割来理解场景内容,并使用不同的图像区域运动模型来实现光流估计。分析了运动模糊轨迹与光流之间的关系,并提出了一种基于像素模糊非线性核(PWNLK)模型来解释运动模糊,所提出的模糊模型基于非线性光流来更有效地描述复杂的运动模糊。对模糊视频进行了大量的实验表明,所提出的算法相对于其他方法具有更好的性能。(本文来源于《计算机与数字工程》期刊2019年10期)
樊如愿[2](2019)在《基于深度卷积神经网络的视频语义分割方法研究》一文中研究指出目前,自动驾驶领域在可行性和实用化方面都取得了突破性的进展,其对于汽车行业甚至是交通运输业有着深远的影响。那么针对图像的语义分割算法可以对图像中的目标进行像素级的高精度分类,在自动驾驶中,通过对图像的语义分割可以获取道路可行驶区域的信息,检测车道标记和交通信息等。图像语义分割是计算机视觉领域中重要的任务之一,进一步的提高其分割精度和处理速度是在实际应用中需要解决的问题。通常情况下利用视觉传感器获取的视频的数据量庞大,并且对视频处理过程的效率要求较高,而传统的图像处理方法难以满足视频分割的处理速度,且分割的精准度较低。基于此,本文基于深度卷积神经网络,分别设计了改进的U形网络和W形网络,并且利用光流场对帧与帧之间的特征进行传播和融合,使得整个方法在尽可能的保持精细的分割精度的前提下,大幅度降低实时的视频语义分割处理时间。论文的主要内容包括:首先本文基于编码器-解码器结构,设计了U形-S-A网络结构,该网络结构利用深度可分离卷积结构和通道注意力模型分别去除网络特征图中空间和通道的相关性,使得分类精度得到进一步的提升。接下来为了进一步的降低分割的处理时间,本文还设计了基于ResNet网络和Xception网络的W形卷积神经网络模型,整个模型将U形卷积神经网络的单支路扩展为双支路,分别进行快速下采样和保持大尺度的感受野,可以同时优化图像的整体感受野和细节信息。此后,为了进一步的提升分割的精度,采用了基于光流场的特征传播算法,该算法可以有效的利用帧与帧之间的相关性,视频中的前一帧通过整个W形网络进行特征提取和语义分割,得到最后的分割实验结果,而后一帧不仅通过整个W形网络进行深层的特征提取,还利用前一帧通过光流场传播的深层特征,进行相应的特征聚合之后,再进行下一步的语义分割得到实验结果。该方法与W形网络相比较,通过光流场进行特征聚合之后,可以进一步提升视频语义分割的检测精度。(本文来源于《哈尔滨工业大学》期刊2019-06-01)
赵怡堃[3](2019)在《基于全卷积神经网络的奶山羊视频语义分割方法研究》一文中研究指出通过对奶山羊室外羊舍场景的监控视频进行语义分割,观察羊舍环境和奶山羊的位置与姿态,能够及时发现奶山羊的健康问题,及时发现羊舍是否有危害羊只安全的异物侵入,对奶山羊的规模化和智能化养殖具有重要的意义。本文以奶山羊监控视频为研究对象,利用视频关键帧提取技术、全卷积神经网络模型(Fully Convolutional Network,FCN),结合生成式对抗网络模型(Generated Confrontation Network,GAN),实现了奶山羊视频的语义分割。本文的主要研究内容和结论有:(1)奶山羊视频语义分割模型数据集的制作为减少视频帧间存在的大量冗余信息,首先利用卡方(Chi-square,?~2)直方图法结合自适应阈值法,实现奶山羊监控视频的镜头分割。然后采用k-means聚类方法从每一个镜头中提取关键帧以制作用于语义分割的图像数据集。另外,为增加数据集,本文采用翻转变换和平移变换方法进行数据增强,将数据集扩充为原来5倍,从而预防语义分割结果过拟合的出现。(2)基于FCN的奶山羊视频语义分割模型设计针对用于语义分割的卷积神经网络在速度上和精度上存在不足的问题,使用VGG_16网络模型作为预训练网络采用全卷积神经网络对奶山羊视频进行语义分割,从图像级别的分类延伸到像素级别的分类。另外,针对FCN的分割结果仍存在不够精细、缺乏空间一致性等缺点,将FCN_8s模型的粗分割结果采用条件随机场模型(Conditional Random Field,CRF)进行精分割,得到一个考虑像素间关系的、边缘更加细致的语义分割结果,语义分割的像素精确度较FCN_8s提高了0.85%,平均交并比提高了0.6%。(3)基于FDGAN的奶山羊视频语义分割模型设计针对FCN_8s+CRF是一个粗分割与精分割分离的网络模型,且语义分割结果仍然存在漏分、粗糙的情况,本文提出FDGAN网络模型。本模型采用GAN的思想,以FCN_8s作为GAN的生成网络,生成语义分割结果,并使用密集卷积网络(Dense Convolutional Network,DenseNet)作为判别网络,通过两个网络的对抗式训练,语义分割的像素精确度较FCN_8s提高了2.57%,平均交并比提高了2.36%,FDGAN获得了更精细且具有空间一致性的分割结果。(本文来源于《西北农林科技大学》期刊2019-05-01)
朱梓榕[4](2017)在《基于卷积神经网络的视频语义场景分割研究》一文中研究指出随着多媒体技术和互联网的迅猛发展,以视频方式记录的信息越来越多。如何对海量的视频信息做到有效地储存和管理,如何快速的从其中检索到所需求的视频,已成为亟待解决的热点问题。经过多年以来的研究,视频镜头分割技术已逐渐趋于稳定,基于镜头分割结果的视频场景分割技术将成为更有意义的研究热点。视频场景分割技术以镜头作为研究对象,根据镜头内容和时间上的联系把相似的镜头划分为同一场景。这样可以将一段视频切分成若干个逻辑故事单元,具有重要的现实意义。首先,介绍了两种镜头分割算法。一种是本文提出基于边界系数模型的镜头分割算法,利用镜头边界系数对视频进行镜头的突变和渐变边界检测,得到视频的镜头分割结果。另一种是基于差异极值矫正的镜头边界检测算法,在进行镜头边界检测时,为了纠正由于某些原因导致属于同一镜头的两帧间距离超过阈值这一误检,算法定义了一个误差峰值,当两者之间的距离仍大于此峰值时,则认为镜头在此处确实发生了突变或渐变。其次,在确定了镜头分割算法后,提出了一种基于卷积神经网络语义分类的视频场景分割算法。首先通过利用训练视频集构造卷积神经网络,然后用训练好的网络对测试视频镜头进行处理,得到测试视频镜头关键帧的语义概念向量。最后结合本文提出的基于语义向量的镜头重迭链算法对镜头进行聚类。该方法减少了一般场景分割算法中特征选取和阈值设置不当给聚类结果带来的负面影响,通过在RAIDataset数据集上的一系列实验以及其他场景分割算法的横向比较,在实验效果上,本文算法均有着较高的分割准确率。(本文来源于《华中科技大学》期刊2017-05-18)
邢玲,马强,胡金军[5](2016)在《基于场景分割的视频内容语义管理机制》一文中研究指出针对视频内容管理在不同层面存在语义鸿沟的问题,提出基于UCL(Uniform Content Locater)的视频语义描述框架,该框架包含了叁个层次的语义:内容语义、控制语义以及物理属性信息.而视频场景的分割则通过视频内容基于时空上的相似性实现.对于每个视频场景,结合局部纹理复杂度、背景亮度和场景复杂度,选择最佳参考帧(I帧)与非最佳参考帧(非I帧)以嵌入不同的语义信息:控制语义、物理属性信息嵌入I帧,内容语义嵌入非I帧.利用数字语义水印技术来实现视频内容的语义管理,完成语义信息和载体信号的一体传输和存储.实验中采用JM参考模型进行数字水印方法的验证,结果表明该方法鲁棒性强,且不会造成视频资源质量显着下降.(本文来源于《电子学报》期刊2016年10期)
李鑫星,刘春迪,温皓杰,苏叶,傅泽田[6](2015)在《基于语音识别的蔬菜病害视频语义标注与分割方法》一文中研究指出为了向农民提供蔬菜病害知识,基于语音识别技术设计了一种蔬菜病害视频标注与分割方法,可将科研机构录制的蔬菜病害视频分割成适合手机播放的小视频段落。在前期设计的视频镜头切分方法基础上,进一步设计出基于语音识别技术的视频语义标注及视频镜头聚类方法,即首先采用成熟的语音识别技术,将视频镜头的语音讲解识别为文本形式;进而基于本体对识别文本进行相应的语义处理,从中提取出能起到指示作用的关键语义实体,并将其恰当的组织形式作为视频镜头的语义标注;最终根据用户提供的关键词并结合视频镜头的语义标注,对视频镜头进行聚类和重组,从而实现对于蔬菜病害视频的最终分割。所设计的视频镜头语义标注方法对2个测试视频的查全率分别达到96.08%、94.93%,查准率分别达到94.31%、95.98%,F-1测度也分别达到0.93和0.92;视频镜头聚类方法使得2个视频的分割查全率分别达到94.9%、98.7%,查准率分别达到92.1%、90.2%,查全率平均大于95%,查准率大于90%。证明所设计的蔬菜病害视频标注与分割方法具有理论和实用价值。(本文来源于《农业机械学报》期刊2015年09期)
金凯,丰洪才,杨亭[7](2014)在《基于语义概念的多模态视频场景分割算法》一文中研究指出为了更好地挖掘视频数据和分析视频内容,该文提出一种基于语义概念的多模态视频场景分割算法,充分考虑视频中多模态之间的时序关联共生特性,通过相似度融合算法计算得到视频镜头间的相似度关系,将降维处理得到的低维语义空间坐标作为支持向量机的输入,构造出若干不同语义概念训练分类器,预测出每个关键帧的语义概念矢量,利用语义重迭镜头链方法对镜头进行聚类得到视频场景.实验结果表明,该方法能有效地检测视频语义概念和分割视频场景,MAP值、M值分别达到50%和83.4%.(本文来源于《小型微型计算机系统》期刊2014年09期)
王华[8](2014)在《基于语义事件的手术视频内容分析和分割方法的研究》一文中研究指出随着计算机技术和网络技术的不断发展,各种新的媒体信息交换和应用形式已经完全融入了人们的日常工作、生活和娱乐之中,每天都在产生大量的视频数据。在医学领域同样也存在大量的视频用于辅助教育、术前宣教、远程医疗等。为了对蕴含了人物、场景、对象、行为和故事等丰富的语义信息的媒体数据进行高效快捷过滤、浏览和检索、非线性编辑等,人们提出并发展了视频的内容分析和基于内容的视频检索技术,以实现语义级的内容描述与应用。让计算机按照人的主观感觉和理解来表示媒体内容。如何跨越底层特征和高层语义间的语义鸿沟,以语义概念来管理、访问视频数据库,已成为多媒体领域颇具挑战的研究课题。在视频的内容分析过程中,特征的提取与描述是至关重要的一步。手术视频有其独有的特点,比如手术室中医务人员的着装颜色基本为墨绿色,手术室中的病人除了需要手术的部分,基本用手术布遮盖,有无影灯在手术过程为开的状态。根据这些特点,为了给手术事件建模,本文定义了医务人员指示器、手术部位检测器、无影灯开关指示器等视觉特征。隐马尔可夫模型作为一种统计分析模型,尽管它的状态不能直接观测到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。因此非常适合引入到基于语义的视频内容分析领域。在本文就通过将隐马尔可夫引入到基于语义的手术视频领域内容分析领域。基于隐马尔可夫模型进行基于语义事件的视频分析,不但考虑了事件特征之间的相似性,而且考虑语义事件之间的时序关系,为提高视频内容分析的准确率提供了理论上的可能。本文的实验基于五个完整的手术视频样本,并且已经人工标注过。通过样本重估了各个手术事件在各个特征的概率分布,并且通过Baum-Welch算法重估了状态转移矩阵,重估了一个隐马尔可夫模型。整个实验过程采用交叉留一验证的策略,对每一个待测试样本采用Viterbi算法来识别每个以秒为单位的视频单元,最终产生一个混淆矩阵来呈现分析的结果。目前的实验结果表明,对于选定的语义特征,有些事件的区分度比较高,则识别的正确率就比较高。一般的手术事件识别率能达到70%以上,证明采用隐马尔可夫模型对视频进行内容分析是可行的。(本文来源于《山东大学》期刊2014-05-20)
牛振兴,李洁,高新波[9](2010)在《足球视频的语义颜色提取与语义镜头分割》一文中研究指出在镜头颜色特征分析的基础上对足球视频的镜头进行了语义意义下的分割,即语义镜头分割.常用的基于主颜色的镜头分类方法只提取一种颜色作为分类特征,不能有效地处理语义颜色丰富的体育视频.将主颜色扩展为多个语义颜色,定义了颜色比例特征,再利用SVM对镜头进行分类,实验结果表明,颜色比例特征能够有效地提高镜头分类精度.考虑到视频语义颜色随时间和环境会发生变化,还给出了一种自适应的视频语义颜色提取算法,可以使语义颜色随环境的改变而自适应调整.(本文来源于《西安电子科技大学学报》期刊2010年04期)
袁正午,朱冠宇,丰江帆,任菲[10](2010)在《基于支持向量机的视频语义场景分割算法研究》一文中研究指出针对视频分割中存在的低层特征与高层语义之间"语义鸿沟"问题,在对视频进行镜头边界检测的基础上,引入视频语义概念矢量的定义,实现了一种基于支持向量机的视频语义场景构造方法。根据镜头关键帧画面语义的不同,提取镜头关键帧的颜色特征,并将其归一化;然后利用支持向量机对归一化后的特征量进行语义分类预测,从而生成语义矢量;将生成的语义矢量应用于已有的重迭镜头链方法,对镜头关键帧进行聚类,按语义差别构造出不同场景。实验结果证明了该方法的有效性。(本文来源于《重庆邮电大学学报(自然科学版)》期刊2010年04期)
视频语义分割论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
目前,自动驾驶领域在可行性和实用化方面都取得了突破性的进展,其对于汽车行业甚至是交通运输业有着深远的影响。那么针对图像的语义分割算法可以对图像中的目标进行像素级的高精度分类,在自动驾驶中,通过对图像的语义分割可以获取道路可行驶区域的信息,检测车道标记和交通信息等。图像语义分割是计算机视觉领域中重要的任务之一,进一步的提高其分割精度和处理速度是在实际应用中需要解决的问题。通常情况下利用视觉传感器获取的视频的数据量庞大,并且对视频处理过程的效率要求较高,而传统的图像处理方法难以满足视频分割的处理速度,且分割的精准度较低。基于此,本文基于深度卷积神经网络,分别设计了改进的U形网络和W形网络,并且利用光流场对帧与帧之间的特征进行传播和融合,使得整个方法在尽可能的保持精细的分割精度的前提下,大幅度降低实时的视频语义分割处理时间。论文的主要内容包括:首先本文基于编码器-解码器结构,设计了U形-S-A网络结构,该网络结构利用深度可分离卷积结构和通道注意力模型分别去除网络特征图中空间和通道的相关性,使得分类精度得到进一步的提升。接下来为了进一步的降低分割的处理时间,本文还设计了基于ResNet网络和Xception网络的W形卷积神经网络模型,整个模型将U形卷积神经网络的单支路扩展为双支路,分别进行快速下采样和保持大尺度的感受野,可以同时优化图像的整体感受野和细节信息。此后,为了进一步的提升分割的精度,采用了基于光流场的特征传播算法,该算法可以有效的利用帧与帧之间的相关性,视频中的前一帧通过整个W形网络进行特征提取和语义分割,得到最后的分割实验结果,而后一帧不仅通过整个W形网络进行深层的特征提取,还利用前一帧通过光流场传播的深层特征,进行相应的特征聚合之后,再进行下一步的语义分割得到实验结果。该方法与W形网络相比较,通过光流场进行特征聚合之后,可以进一步提升视频语义分割的检测精度。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
视频语义分割论文参考文献
[1].董飞,马源源.基于语义分割和像素非线性核的视频去模糊[J].计算机与数字工程.2019
[2].樊如愿.基于深度卷积神经网络的视频语义分割方法研究[D].哈尔滨工业大学.2019
[3].赵怡堃.基于全卷积神经网络的奶山羊视频语义分割方法研究[D].西北农林科技大学.2019
[4].朱梓榕.基于卷积神经网络的视频语义场景分割研究[D].华中科技大学.2017
[5].邢玲,马强,胡金军.基于场景分割的视频内容语义管理机制[J].电子学报.2016
[6].李鑫星,刘春迪,温皓杰,苏叶,傅泽田.基于语音识别的蔬菜病害视频语义标注与分割方法[J].农业机械学报.2015
[7].金凯,丰洪才,杨亭.基于语义概念的多模态视频场景分割算法[J].小型微型计算机系统.2014
[8].王华.基于语义事件的手术视频内容分析和分割方法的研究[D].山东大学.2014
[9].牛振兴,李洁,高新波.足球视频的语义颜色提取与语义镜头分割[J].西安电子科技大学学报.2010
[10].袁正午,朱冠宇,丰江帆,任菲.基于支持向量机的视频语义场景分割算法研究[J].重庆邮电大学学报(自然科学版).2010