多层次并行论文-方狄

多层次并行论文-方狄

导读:本文包含了多层次并行论文开题报告文献综述及选题提纲参考文献,主要关键词:HEVC并行解码,多核处理器,熵解码,CTU行像素解码

多层次并行论文文献综述

方狄[1](2016)在《基于Tilera多核处理器的HEVC多层次并行解码方法的研究与实现》一文中研究指出HEVC是面向高清和超高清视频应用的新一代视频编码标准,但其极高的运算复杂度是应用中面临的重要障碍,采用多核处理器是解决问题的有效途径。本文以TILERA公司推出的Tilera GX36多核处理器为硬件平台,对HEVC视频的并行解码技术进行了深入的研究,通过对解码器中关键模块并行化处理,实现基于Tilera多核处理器的HEVC多层次并行解码,从而达到对未使用任何并行方式编码形成的高清、超高清视频码流的实时解码目标。论文的主要工作和创新如下:1.研究并实现了解码过程中熵解码模块(ED),CTU行像素解码模块(CTU),去方块滤波模块(DF)等叁个模块的并行处理方法。基于帧类型依赖性分析和CU块数据的关联性分析,分别实现了熵解码帧级并行算法,CTU行像素并行解码算法和去方块行级并行滤波算法,在保证重建图像质量的同时,提高了解码并行加速比。2.研究并实现了基于Tilera多核处理器HEVC多层次并行解码算法。对HEVC解码器的熵解码模块(ED)、CTU行像素并行解码模块(CTU)、去方块滤波模块(DF)等加以有机结合,并通过流水线并行设计,提高多核利用率,降低各个模块之间的延时,实现了CTU级与帧级处理并存的多层次并行架构的HEVC解码算法。建立了CTU行并行加速分析的数学模型,解释了多核并行加速可能出现的瓶颈现象。3.实现了基于Tilera多核处理器的平台级优化方法。通过Tilera GX36多核处理器平台提供的多媒体应用的优化方法,实现了编译器优化、存储器优化、指令集优化、FeedBack优化等,进一步提高了HEVC并行算法的处理性能。论文通过对不同的高清视频测试序列对上述方法进行了实验和分析,验证了所提出的各并行解码方法的有效性。实验结果表明,所提出的帧级熵解码并行算法的加速比达到了1.6,CTU行像素并行解码的加速比达到了9.5,去方块并行滤波并行算法的加速比达到了2.0,提出的多层次并行解码算法对高清和超高清普通视频码流的解码最大并行加速比达到了15.9,比WPP并行方式高出37%左右,帧率达到了30帧/s以上,实现了实时解码目标。论文最后对做的工作进行了总结,并展望了未来的进一步研究方向(本文来源于《南京邮电大学》期刊2016-11-18)

张峻,代锋,马宜科,张勇东[2](2016)在《多层次细粒度并行HEVC帧内模式选择算法》一文中研究指出在众核平台上并行加速是解决高效视频编码(high efficiency video coding,HEVC)标准编码复杂度高的有效方法.传统的粗粒度并行方案如Tiles和WPP未能在并行度和编码质量之间取得较好的平衡,对编码质量影响较大或者并行度不高.充分挖掘HEVC帧内模式选择中的并行性,提出了一种在CTU内使用的多层次细粒度的帧内模式选择算法.具体说来,对帧内模式选择过程进行了子任务划分,分析并消除了相邻编码块之间多种阻碍并行计算的数据依赖关系,包括帧内预测参考像素依赖、预测模式依赖和熵编码依赖等,实现了同一个CTU内所有层次的细粒度编码块的代价计算和模式选择并行进行.将算法在Tile-Gx36平台上实现,实验结果表明此并行算法与HEVC参考代码HM相比能获得18倍的整体编码加速比而且编码质量损失较小(码率上升3%).(本文来源于《计算机研究与发展》期刊2016年04期)

黄磊,支小莉,郑圣安[3](2016)在《面向大数据应用的多层次混合式并行方法》一文中研究指出基于很多大数据应用存在对数据进行多种并行处理的需求,提出两层混合式并行方法,即执行单元的混合并行和计算模型的混合并行.通过在同一个计算节点上执行单元的混合并行,充分挖掘基础设施的计算能力,从而提高数据处理性能;采用在同一个执行引擎中集成多个计算模型的并行方法,以适合应用多样异质处理模式.不同的混合并行方法可以契合不同的数据和计算特点,以满足不同的并行目标.介绍了混合式并行方法的基本思想,并以前期开发的并行编程模型BSPCloud为基础,阐述了进程和线程混合并行、BSP和Map Reduce混合并行的主要实现机制.(本文来源于《上海大学学报(自然科学版)》期刊2016年01期)

文颖[4](2014)在《CPU的多层次并行调度优化模型仿真》一文中研究指出通过CPU多调度模式优化,提高CPU运行效率。由于海量数据进行运算的过程中,存在调试不均衡的问题,传统的CPU调度模型不能很好的均衡所有的调度任务关系,无法满足数据运算的实际需求,导致CPU负载不均衡,降低了调度效率。提出基于二叉树搜索算法的CPU多层次并行调度方法。针对CPU中不同层次的任务量进行预测,建立多层次并行调度模型,实现海量调度任务的多层次并行调度。在每个层次中,进行二叉树搜索,完成各个层次独立的CPU任务调度,将二叉树搜索方法运用到多层次并行调度模型中,完成CPU的多层次并行调度。实验结果表明,利用改进算法进行CPU多层次并行调度,能够提高调度效率,缩短调度时间,完成CPU合理调度,保证CPU的运算速率。(本文来源于《计算机仿真》期刊2014年12期)

王继刚,刘惠,姜滨[5](2015)在《基于MPI和OpenCL多层次并行图像卷积算法设计》一文中研究指出通过对图像卷积算法的分析,发现算法在对图像处理的过程中具有很高的并行性。提出了一种结合异构开发框架开放运算语言(Open CL)和并行开发库消息传递接口(MPI)的算法,在支持图形处理器(GPU)的异构集群环境下设计并实现了图像卷积算法的多层次并行实现,使得算法在处理速度上有了显着的提升。(本文来源于《中兴通讯技术》期刊2015年02期)

阳柳[6](2014)在《面向动态双模多层次并行体系结构的编译优化技术研究》一文中研究指出无线通信与视频图像处理等应用领域的快速发展对数字信号处理器(DSP)的性能提出了较高的要求。DSP因具有数据处理能力强大、可编程性良好、使用灵活等特点被广泛使用。动态双模多层次并行DSP(Dynamic dual-mode multi-level parallel DSP,DDMP-DSP)是自主设计并实现的一款面向无线通信和视频图像处理的高性能浮点数字信号处理器。DDMP-DSP采用动态双模多层次并行体系结构,基于超长指令字(VLIW)技术支持指令级并行,基于宽字向量单指令流多数据流(SIMD)技术支持数据级并行,基于动态双模技术支持任务级并行。软件工具链对于新体系结构的实用性和性能发挥非常重要。在无线通信和视频图像处理应用中,随着算法复杂程度的提升,应用开发的工作量越来越大,采用手工代码优化的方式无法满足应用开发的需求。因此,开发过程中更多地采用高级语言编译优化的方式进行应用开发,这对高级语言编译器的设计和开发提出了更高要求。动态双模多层次并行体系结构的性能发挥很大程度上依赖于编译器,采用当前已有的DSP编译优化技术无法充分利用DDMP-DSP体系结构的特点并发挥其性能优势。论文针对DDMP-DSP体系结构的编译优化技术展开研究,针对指令级并行、数据级并行和任务级并行叁种并行特征,采用建立执行模型、编程模型和代价模型的方式,从调度优化、数据重组以及循环优化等角度设计并实现了叁种编译优化技术,有效支持DDMP-DSP体系结构和指令集特征。本文的主要研究成果和创新体现在以下几个方面:1.根据DDMP-DSP体系结构特点抽象出一种动态双模多层次并行执行模型(Dualmode multi-level parallel execution model,DDMPEM),提取出VLIW、宽字向量SIMD和动态双模叁个主要执行特征,DDMPEM能够作为研究和开发编译优化技术的基础,指导编程模型和代价模型的实现。设计了一种Kernel Based编程模型(Kernel-based programming model,KBPM),程序员能够方便地利用KBPM进行应用开发,通过支持KBPM,编译器能够识别应用程序中的并行特征,更高效地进行编译优化。提出了一种多层次并行代价模型(Multi-level parallel cost model,MPCM),对指令级并行、数据级并行和任务级并行进行综合考虑,能够对编译优化进行指导。2.提出了一种支持任务级并行的动态双模优化调度技术(Dual-mode optimizing scheduling,DMCOS)。DDMP-DSP体系结构中执行并行任务的向量部件和执行串行任务的标量部件能够在紧耦合模式(Tightly coupled Mode,TCM)串行工作,也能在松耦合模式(Loosely coupled Mode,LCM)并行工作。采用DMCOS优化技术能够确定两种模式的切换时机并实现动态切换。DMCOS对使用KBPM编程模型开发的双模式区(Dual-mode code field,DMC)源代码进行独立任务双模调度(Independent dual-mode scheduling,IDS),或者根据动态双模切换代价模型(Dual-mode switching cost model,DDSCM)进行流调度(Flow scheduling,FS)和双模切换调度(Dual-mode switching scheduling,DSS)。DMCOS能够发掘应用程序中的任务级并行,并将高级语言应用程序转换为满足动态双模执行模型要求的代码。DMCOS能够更好地利用DDMP-DSP的动态双模体系结构特征,开发任务级并行。3.提出了一种支持数据级并行的宽字向量SIMD数据重组编译优化技术(Data reorganization for wide SIMD,DRWS)。DDMP-DSP体系结构中的向量部件包括一组同构的向量运算单元(VE),多个VE可组合支持宽字向量SIMD。DRWS主要包括叁个模块:基于多模的数据重组(Data reorganization based on multimodulo,DRMM)模块,宽向量填充数据重组(Data reorganization for wide vector filling,DRWF)模块和分支数据重组(Data reorganization for branch,DRB)模块,这叁个模块能够处理多种情况下的数据重组。DRWS能够支持灵活的数据重组,从而在SIMD向量化(SIMDization)时能够更好地匹配VE个数,提高DDMP-DSP中的SIMD计算资源利用率,开发数据级并行。4.提出了一种支持数据级并行和指令级并行的多层次循环优化编译技术(Multilevel loop optimization,MLOP)。MLOP有效地将多面体优化技术、SIMDization编译优化技术、面向VLIW的编译优化技术和运行时编译优化技术结合起来,包括多面体优化模块、子字与超字SIMD向量化模块(S-Ⅱ SIMDization)模块、面向VLIW的循环优化模块和运行时优化模块。使用类迭代编译的方法进行编译优化,综合多种因素,选择合适的循环展开因子并进行循环优化。MLOP能够充分利用DDMP-DSP多层次并行体系结构特点,挖掘程序中的数据级并行和指令级并行。(本文来源于《国防科学技术大学》期刊2014-10-01)

彭彪,张重阳,郑世宝,田广[7](2014)在《运动目标检测与特征提取算法的多层次并行优化》一文中研究指出针对监控视频中运动目标实时特征提取的需求,在目标检测与特征提取串行算法的基础上,提出了基于OpenMP和多核CPU平台的叁层并行优化算法。首先,在算法顶层,将串行算法抽象为两个模块组成的流水线,提出了流水线并行优化算法和相应的缓存管理策略;接着,在算法中层,考虑到特征提取模块中各子模块的功能独立性,设计了功能划分并行优化算法;最后,在算法底层,利用纹理特征提取模块的数据独立性,提出了数据划分并行优化算法。实验结果表明,该叁层双模块并行优化算法在四核CPU平台上获得了接近Amdahl极限的加速比,基本实现了实际监控视频中运动目标检测与特征提取的实时处理。该多层次多模块并行优化方法普遍适用于串行算法在多核平台上进行并行优化的分析。(本文来源于《电视技术》期刊2014年13期)

马骏,宋丽君,徐辉,赖积保,余涛[8](2013)在《基于多层次并行的风云叁号气象卫星数据定标》一文中研究指出针对风云叁号新一代极轨气象卫星遥感数据定标处理,提出了基于.NET框架使用多层次并行计算的方式对遥感数据定标处理进行加速的方案.以可见光红外扫描辐射计所得的遥感数据为测试数据,通过多层次并行计算的方式,进行了可见光近红外通道定标与红外通道定标的快速处理.最后,通过与串行实现、IDL实现的定标处理作对比,证明了.NET框架下多层次并行计算的方式具有一定的优势,所提方案具有可行性.(本文来源于《微电子学与计算机》期刊2013年12期)

穆帅,王晨曦,邓仰东[9](2013)在《基于GPU的多层次并行QR分解算法研究》一文中研究指出QR分解作为一个基本计算模块,广泛应用在图像处理、信号处理、通信工程等众多领域。传统的并行QR分解算法只能挖掘计算过程中的数据级并行。在分析快速Givens Rotation分解特征的基础上,提出了一种多层次并行算法,能够同时挖掘计算过程中的任务级并行和数据级并行,非常适合于以图形处理器(GPU)为代表的大规模并行处理器。同时,采用GPU的并行QR分解算法可以作为基本运算模块被GPU平台上的众多应用程序直接调用。实验结果显示,与CPU平台上使用OpenMP实现的算法相比,基于GPU的多层次并行算法能够获得5倍以上的性能提升,而调用QR分解模块的奇异值分解(SVD)应用可以获得3倍以上的性能提升。(本文来源于《计算机仿真》期刊2013年09期)

王宇,陈耀武[10](2014)在《基于多层次并行架构的H.264解码算法》一文中研究指出针对高清图像视频的实时解码需求,提出一种基于多层次并行流水架构的解码算法。该算法首先针对图像的宏块行实现基于功能模块的行级并行算法,并通过功能模块的二次划分进行核间负载均衡的优化,再针对解码过程中开销较大的滤波环节,利用宏块之间的依赖关系进行多核并行处理,对行级并行算法进行更深层次上的再优化设计。实验结果表明,该算法可以在TILEPro64平台上实现1 080P全高清码流的实时解码,实现了较高的并行加速比,最高达到10.01,和已有的并行解码算法相比,加速比提升80%。(本文来源于《计算机工程与应用》期刊2014年08期)

多层次并行论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

在众核平台上并行加速是解决高效视频编码(high efficiency video coding,HEVC)标准编码复杂度高的有效方法.传统的粗粒度并行方案如Tiles和WPP未能在并行度和编码质量之间取得较好的平衡,对编码质量影响较大或者并行度不高.充分挖掘HEVC帧内模式选择中的并行性,提出了一种在CTU内使用的多层次细粒度的帧内模式选择算法.具体说来,对帧内模式选择过程进行了子任务划分,分析并消除了相邻编码块之间多种阻碍并行计算的数据依赖关系,包括帧内预测参考像素依赖、预测模式依赖和熵编码依赖等,实现了同一个CTU内所有层次的细粒度编码块的代价计算和模式选择并行进行.将算法在Tile-Gx36平台上实现,实验结果表明此并行算法与HEVC参考代码HM相比能获得18倍的整体编码加速比而且编码质量损失较小(码率上升3%).

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

多层次并行论文参考文献

[1].方狄.基于Tilera多核处理器的HEVC多层次并行解码方法的研究与实现[D].南京邮电大学.2016

[2].张峻,代锋,马宜科,张勇东.多层次细粒度并行HEVC帧内模式选择算法[J].计算机研究与发展.2016

[3].黄磊,支小莉,郑圣安.面向大数据应用的多层次混合式并行方法[J].上海大学学报(自然科学版).2016

[4].文颖.CPU的多层次并行调度优化模型仿真[J].计算机仿真.2014

[5].王继刚,刘惠,姜滨.基于MPI和OpenCL多层次并行图像卷积算法设计[J].中兴通讯技术.2015

[6].阳柳.面向动态双模多层次并行体系结构的编译优化技术研究[D].国防科学技术大学.2014

[7].彭彪,张重阳,郑世宝,田广.运动目标检测与特征提取算法的多层次并行优化[J].电视技术.2014

[8].马骏,宋丽君,徐辉,赖积保,余涛.基于多层次并行的风云叁号气象卫星数据定标[J].微电子学与计算机.2013

[9].穆帅,王晨曦,邓仰东.基于GPU的多层次并行QR分解算法研究[J].计算机仿真.2013

[10].王宇,陈耀武.基于多层次并行架构的H.264解码算法[J].计算机工程与应用.2014

标签:;  ;  ;  ;  

多层次并行论文-方狄
下载Doc文档

猜你喜欢