多核异构论文-余世干,唐志敏,叶笑春,范东睿

多核异构论文-余世干,唐志敏,叶笑春,范东睿

导读:本文包含了多核异构论文开题报告文献综述及选题提纲参考文献,主要关键词:异构多核,处理器,推测机制,容错

多核异构论文文献综述

余世干,唐志敏,叶笑春,范东睿[1](2019)在《基于推测机制异构多核处理器容错方法与仿真》一文中研究指出异构多核是处理器重要方向之一,却面临着瞬态故障频发问题,传统TMR(叁模冗余)是主要解决办法,但有效率低,功耗高特点,提出基于推测机制高性能容错调度算法FTSAS。各异构核独立执行任务,记录最先完成核的状态值,采用前向推测法继续执行下一任务,采用多数一致原则,由落后的核完成结果比较,保障系统可靠性。仿真实验表明,FTSAS比当前容错方法平均性能提高了12.9%,注入200个错误时,具有相近的容错效果,但FTSAS平均执行性能提高了11.4%,平均功耗降低了15.8%。(本文来源于《系统仿真学报》期刊2019年12期)

夏军,袁帅,杨逸[2](2019)在《基于异构多核平台低能耗周期任务调度算法》一文中研究指出针对异构多核平台存在的高能耗问题,提出一种运用优化理论求解周期任务最优能耗分配方案的算法。该算法对周期任务的最优能耗问题进行建模,并对模型添加限制条件。根据优化理论将二进制整数规划问题松弛化后得到凸优化问题,通过内点法求解优化问题并得到松弛化的分配矩阵,对分配矩阵进行判决处理后得到部分任务的分配方案。在此基础上,通过迭代的方式求得剩余任务的分配方案。实验结果表明,该分配方案产生的能耗与同类优化理论算法相比能耗降低约1.4%,与能耗相当的优化理论算法相比执行时间减少86%,且仅比理论最优能耗值高2.6%。(本文来源于《计算机应用》期刊2019年10期)

孙嘉鸿[3](2019)在《针对细胞图像处理的异构多核处理器研究》一文中研究指出随着细胞图像处理在临床医疗诊断中的广泛应用,细胞图像处理的实时性要求越来越高。由于同构多核处理器在处理细胞图像时运算速度提升受限,因此研究含有不同加速指令的异构多核处理器对细胞图像处理具有重要意义。通过对多核处理器及细胞图像处理算法的研究,设计了一款应用于细胞图像处理的异构多核处理器。该处理器共有八个内核,每个内核均是两级流水处理器,第0个内核前设置输入缓冲作为细胞图像的缓存,八个内核通过交叉开关矩阵访问具有四个存储块的共享数据存储池。交叉开关矩阵对内核地址低的数据进行优先编码,当两个内核同时访问同一存储块时,地址较低的内核优先进行访问。多核处理器采用了无锁结构的生产者-消费者并行编程模型,实现多个内核存储及读取数据的配合。针对细胞图像处理的算法选用K近邻平滑滤波、全等级直方图灰度拉伸、高斯模糊、USM锐化、最大类间方差法及连通域标记等算法,并在不同内核中设计Absort指令、Inireg指令、Sumreg指令、Sum4指令、Abs指令、Mulsub指令及Mulpow指令对算法进行加速,使得运行K近邻平滑滤波算法的内核速度提升了2.66倍,运行全等级直方图灰度拉伸及高斯模糊算法内核的速度提升了1.21倍,运行USM锐化算法内核的速度提升了1.36倍,运行最大类间方差法内核的速度提升了1.17倍。异构多核处理器在UMC110nm的工艺下完成仿真及综合,其在各个内核运行对应算法时处理细胞图像速度为每秒203.11帧,相比于单核结构速度提升了10.83倍,最高时钟频率为136.98MHz,总面积为19.0mm~2。(本文来源于《西安理工大学》期刊2019-06-30)

宫磊[4](2019)在《可重构平台上面向卷积神经网络的异构多核加速方法研究》一文中研究指出卷积神经网络源自于传统的人工神经网络,其作为机器学习中的一类重要算法已经被广泛部署于人工智能、计算机视觉等应用场景中。由于现实世界中应用的复杂度与日俱增,网络模型的规模和深度也在不断增加,导致通用计算平台在处理相关任务时面临严峻性能、能效挑战。在这种背景下,基于ASIC、FPGA的硬件加速方法已经在卷积神经网络的部署中被普遍采用,并成为提高计算效率的重要手段。然而,目前主流加速器的单核片上结构和计算模式与卷积神经网络的内在计算特性存在失配性问题。尤其是在FPGA一类的可重构器件上,硬件的可重构特性将这种失配性进一步凸显,严重影响了计算效率的进一步提升。本文面向卷积神经网络的高效硬件部署,将可重构计算技术与异构多核体系结构深度结合,在静态重构和动态重构两个层面上系统性地提出了基于异构多核片上结构的加速器设计和优化方法,有效缓解了硬件加速中的软硬件特征失配问题。具体工作内容和创新点如下:·我们在静态重构层面上针对特定网络模型在特定FPGA平台上的部署提出了在片上固化全网络层的异构多核加速器结构。在该结构中,不同网络层的计算被各自映射至独享的计算核心,在局部上各片上计算核心可根据所对应网络层的并行特征进行单独部署和优化;在宏观上,不同计算核心以层间流水的方式充分挖掘了层间计算并行度;在此基础上,我们使用Roofline多核性能分析模型在宏观和局部上进行片上计算与片外访存间的相互协调。该加速器结构在高性能FPGA平台上对AlexNet和VGG16D的部署相较以往在相同FPGA平台上的单核加速器部署性能提升了2.44倍,能效提升了2.35倍。·在片上固化全网络层结构的基础上,我们在静态重构层面上提出了面向层级特征的异构多核片上结构。通过对目前常见卷积神经网络硬件加速过程的分析,我们发现了两点规律:第一,不同卷积层对不同类型数据的访存行为存在差异,从而在异构多核结构中进行分别部署可以最大程度降低访存开销;第二,尽管不同网络层在整体结构上存在差异,但在经过循环展开和分片操作后其中某些层会呈现出相似的层级特征,从而在这一类网络层间进行硬件单元复用可以达到较高的硬件资源利用效率。分别基于以上两点,我们面向网络的层级特征提出了粗粒度和细粒度的网络层聚类方法,并在此基础上将软、硬件间的特征匹配粒度增大,提出了面向层级特征的异构多核加速器部署方法。该方法在高性能FPGA平台上对AlexNet、VGG16C、VGG16D、VGG19的部署相较以往在相同FPGA平台上的单核加速器部署性能平均提升了1.64倍,能效提升了1.84倍。·在动态重构层面上,我们基于FPGA的动态部分重构技术提出了软、硬件特征动态适配的异构多核加速方法。我们首次将FPGA的动态部分重构技术引入到卷积神经网络的硬件加速器设计中,为底层硬件结构提供在运行时根据上层应用特征进行动态调整的机制。在此基础上,我们对硬件加速过程进行了面向马尔科夫决策过程的系统建模,并通过深度强化学习的方法为特定网络模型的硬件加速器部署确定最优的运行时重构策略,从而更加全面、充分地挖掘可重构硬件特性来提高计算适配性。该方法在嵌入式FPGA平台上对AlexNet和VGG16D的部署相较以往在同类型FPGA平台上的单核加速器结构性能密度平均提升了1.48倍。(本文来源于《中国科学技术大学》期刊2019-05-26)

谢达,周道逵,季振凯,戴新宇,武睿[5](2019)在《基于异构多核平台的Caffe框架物体分类算法实现与加速》一文中研究指出随着深度学习的快速发展,神经网络和深度学习算法已经广泛应用于图像处理。基于FPGA的神经网络加速设计,搭建了以快速特征嵌入的卷积结构(Caffe)框架、卷积神经网络为核心的物体识别系统,该系统使用Zynq-7000系列异构多核架构芯片实现。完成了神经网络模型与参数的移植、多层结构的神经网络构建、计算密集度分析以及硬件加速设计。结果表明,设计的基于异构多核平台的Caffe框架物体分类系统实现了物体的识别和分类,且识别速度远超传统CPU架构的识别速度,从而为后续的深入研究提供一种新思路。(本文来源于《电子与封装》期刊2019年05期)

李世清[6](2019)在《针对CPU-FPGA异构多核片上系统的自动化数据布局研究》一文中研究指出随着深度学习与大数据应用的兴起,传统的基于CPU的架构已经难以满足这些新型应用的计算要求。对此,工业界与学术界开始使用硬件加速器来弥补传统CPU架构的弊端。FPGA凭借其高能效比以及灵活的动态可重构功能(dynamic reconfiguration)得到了越来越多的关注。然而,传统的基于FPGA的设计往往需要花费大量的时间并且调试难度很大。随着FPGA的不断发展,高级综合(High Level Synthesis,HLS)工具得到了极其广泛的应用,其有效地解决了FPGA设计难于实现的问题。高级综合工具将CC++等高级语言自动转换为相对应的硬件描述语言模块,大大减少了设计实现基于FPGA的系统应用的难度,特别是针对大量的软件工程师而言。同时,高级综合工具提供了许多优化技术以便于系统设计者针对包括硬件资源消耗,性能,功耗等在内的不同优化目标进行系统优化。此外,不同于以往基于CPU的系统架构,异构系统中的存储子系统通常要复杂的多。具体而言,纯CPU系统架构下的存储体系一般由多级Cache与主存构成。而针对异构系统来说,有着软件可控的便笺式存储器(Scratchpad Memory,SPM)以及CPU端与加速器端均可访问的共享Cache。这些存储体系各具特点,对其进行合理地利用对提高整个系统性能有着重要的作用。针对CPU-FPGA异构多核片上系统.(Heterogeneous Multiprocessor system-on-chip,HMPSoC)而言,片上存储资源极其有限。因此,对其进行合理地利用尤为重要。然而当今最先进的高级综合工具都依赖于系统设计者人工决定复杂存储体系下的数据布局。在这篇论文中,我们提出了一个可以与商业化工具Vivado HLS无缝结合的自动化的数据布局框架。首先,我们基于Zedboard异构多核片上系统设计了一系列微测试程序来测量各种类型的访存延迟,如Cache命中,Cache miss,或者直接访问主存等。基于对上述存储子系统模型中数据的分析,我们得出了一些不同于传统CPU架构环境的结论:如Cache所发挥的作用没有传统环境下的那么大;针对突发模式访存来说,其访存延迟与存储资源的选择基本没有关系。因此基于这些结论,我们发现基于频率与局部性的,针对传统的CPU架构的数据布局策略直接应用于CPU-FPGA异构多核片上系统上所取得的性能并不理想。依赖于我们的存储延迟分析模型并结合LLVM编译框架,我们提出了一个基于整数线性规划(Integer linear programming,ILP)的自动化数据布局框架来决定了每一个数组对象应该经由以下哪种存储被访问:片上块存储(Block RAM,BRAM),CPU-FPGA共享的第二级存储(Level 2 Cache,L2 Cache)或者直接访问双倍速率(Double Date Rate,DDR)存储器。此外,我们设计了一个基于贪心策略的基准算法来进行比较,在Zedboard平台上得到的实验结果表明相较于基准算法,我们所提出的策略有1.39X的性能加速比。(本文来源于《山东大学》期刊2019-05-20)

吕向宇[7](2019)在《面向异构多核的调度算法研究》一文中研究指出近年来,人工智能的崛起导致众多的应用程序对处理器计算能力的要求大大增加,现有的同构多核处理器已经很难满足大型应用程序日益增长的计算能力需求。在同构多核处理器上,同一任务在各处理器核上的执行开销完全相同,而异构多核处理器能够针对任务的特点进行区别处理,将不同类型的任务调度到适应该任务的处理器核上,能够极大的减少整个任务的完成时间,同时还具有较低的能耗。因此,越来越多的专家学者将目光投向了异构多核处理器,异构多核上的调度算法已经成为了当前研究热点。本文在研究现有的静态启发式调度算法的基础上,针对现有算法的不足,提出了一种双目标多策略调度算法。调度算法分为优先级计算阶段和任务分配阶段。在优先级计算阶段,该算法克服了原有优先级计算标准单一的情况,增加了任务发送和接收数据的权重,使得通信数据量大的任务能够优先被调度。在任务分配阶段,使用了一种多策略分配方式,一是结合任务复制技术与区间插入技术计算最早完成时间,二是将当前节点和与其通信时间最长的前驱节点分配到同一处理器核上计算最早完成时间,叁是将当前节点和与其后继节点通信时间最长的子节点分配到同一处理器核上计算最早完成时间。最终选择对空闲时间段利用最多的方案作为任务分配的标准。最后使用DVFS技术对调度结果进行了节能优化,使任务在不增加调度长度的情况下能够以较低的能耗运行。为了验证算法的性能,本文进行了两组实验。第一组实验通过随机生成大量DAG任务图研究了CCR与任务数目不同时对调度结果的影响,第二组实验使用本文提出的算法对矩阵LU分解、快速傅里叶变换、2D-Wave等程序进行了调度。最后对实验结果进行分析,实验结果表明本文提出的算法能够有效的提升多核任务的调度效率,具有更好的应用前景。(本文来源于《武汉科技大学》期刊2019-05-01)

开磊[8](2019)在《异构多核处理器体系结构分析》一文中研究指出为了弥补单核处理器的不足而设计的多核处理器具有较强的运算性能,在提高多核处理器性能的过程中,依然面临很多问题。层次结构多核、异步多核及异构多核时多核处理器技术当下的主要发展方向。设计多核处理器是一项烦琐而艰巨的任务,需要不断进行测试及修改,设计工作不能只停留在硬件层面中,否则会出现效率低下、费用增大和资源浪费的后果。所以应借助软仿真技术来解决这一问题,在设计过程中要仿真软件,借助软件手段对设计方案进行测试,不断进行完善,对设计进行优化,使处理器设计效率得到显着改善。(本文来源于《大众投资指南》期刊2019年07期)

屈媛[9](2019)在《面向大规模神经元活动信号无线接收的异构多核系统设计与实现》一文中研究指出随着信息科学领域新兴技术的不断发展,各类应用对计算的“算力”提出的要求越来越高。异构多核体系能充分发挥通用处理器和专用处理器的优势,具有灵活、高性能的特点。但该体系处理器核间的划分和通信问题是这类系统设计开发的两大难点。同时,在脑科学研究领域,亟需一种新的神经元活动记录系统辅助大脑信息编码原理的研究,要求具有低功耗、大数据无线传输并实时处理的特点。本文针对该异构多核体系设计中两大问题进行研究,并采用提出的异构多核体系设计方法对大规模神经元活动信号无线接收系统进行设计实现。具体研究内容为:首先,在对异构多核体系设计流程研究的基础上,对CPU+FPGA体系的多个系统约束目标进行分析。提出了一种异构多核体系设计方法,将执行时间、硬件面积、功耗和成本作为系统的约束,获取各个约束目标的属性值。获取属性值后,基于层次分析法和多目标优化对系统任务进行划分。此外,研究了ZYNQ系列处理器数据交互问题,提供了基于AXI-GP和AXI-HP接口的两种解决方案。接着,本文针对大规模神经元活动信号无线传输系统需求,确定了该系统的总体方案。并针对信道编码解码的方案,进行了算法设计和硬件电路设计,最终确定了无线传输的帧格式。最后,采用本文提出的异构多核体系设计方法,对大规模神经元活动信号无线接收系统进行FPGA实现。经测试,采用该方法使纯软件实现方法加速了18.73倍。此外,本文对信道解码的Viterbi译码算法进行了改进,改进后的算法FPGA的主要资源之一LUT的使用率减少了38.63%,使得系统满足FPGA设计对硬件资源使用率的约束。(本文来源于《华东师范大学》期刊2019-04-01)

夏军,杨逸,林毅[10](2019)在《异构多核片上系统的帧任务节能分配算法》一文中研究指出针对异构多核片上系统的高能耗问题,提出了一种对帧任务进行分配的高能效两级优化算法。算法将系统能耗最小化问题定义为非线性整数规划问题。第一级优化将问题进行松弛处理,求解得到任务分配矩阵;第二级优化采用带判决门限的取整函数更新分配矩阵,构造新的规划问题并求解;最后结合两级优化得出最终的任务分配矩阵。仿真结果表明,与部分启发式算法相比,该算法能耗降低了20%~50%,接近理论最优能耗;与能耗接近的其他优化算法相比,求解时间减少了54%~75%。(本文来源于《西安电子科技大学学报》期刊2019年03期)

多核异构论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

针对异构多核平台存在的高能耗问题,提出一种运用优化理论求解周期任务最优能耗分配方案的算法。该算法对周期任务的最优能耗问题进行建模,并对模型添加限制条件。根据优化理论将二进制整数规划问题松弛化后得到凸优化问题,通过内点法求解优化问题并得到松弛化的分配矩阵,对分配矩阵进行判决处理后得到部分任务的分配方案。在此基础上,通过迭代的方式求得剩余任务的分配方案。实验结果表明,该分配方案产生的能耗与同类优化理论算法相比能耗降低约1.4%,与能耗相当的优化理论算法相比执行时间减少86%,且仅比理论最优能耗值高2.6%。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

多核异构论文参考文献

[1].余世干,唐志敏,叶笑春,范东睿.基于推测机制异构多核处理器容错方法与仿真[J].系统仿真学报.2019

[2].夏军,袁帅,杨逸.基于异构多核平台低能耗周期任务调度算法[J].计算机应用.2019

[3].孙嘉鸿.针对细胞图像处理的异构多核处理器研究[D].西安理工大学.2019

[4].宫磊.可重构平台上面向卷积神经网络的异构多核加速方法研究[D].中国科学技术大学.2019

[5].谢达,周道逵,季振凯,戴新宇,武睿.基于异构多核平台的Caffe框架物体分类算法实现与加速[J].电子与封装.2019

[6].李世清.针对CPU-FPGA异构多核片上系统的自动化数据布局研究[D].山东大学.2019

[7].吕向宇.面向异构多核的调度算法研究[D].武汉科技大学.2019

[8].开磊.异构多核处理器体系结构分析[J].大众投资指南.2019

[9].屈媛.面向大规模神经元活动信号无线接收的异构多核系统设计与实现[D].华东师范大学.2019

[10].夏军,杨逸,林毅.异构多核片上系统的帧任务节能分配算法[J].西安电子科技大学学报.2019

标签:;  ;  ;  ;  

多核异构论文-余世干,唐志敏,叶笑春,范东睿
下载Doc文档

猜你喜欢