指令并行论文-孙永杰

指令并行论文-孙永杰

导读:本文包含了指令并行论文开题报告文献综述及选题提纲参考文献,主要关键词:寒武纪,指令集,人工智能,智能应用

指令并行论文文献综述

孙永杰[1](2018)在《寒武纪:独创AI指令集 云、端战略并行》一文中研究指出作为AI芯片领域的独角兽,寒武纪在2016年推出全球第一款商用终端智能处理器IP产品—Cambricon-1A,该产品已经被应用于华为Mate10、P20、荣耀10等千万级销量的智能终端中,标志着其AI芯片应用已经落地。2008年,寒武纪的创始团队起初主要是对处理器的架构和人工智能展开交叉研究。2011年,寒武纪与南京大学的LAMDA研究组合作,将人工智能用于对处理器的架构进行优化。2014年,寒武纪与Inria合作并提出首个深度学习处理器的架构DianNao。2015年,寒武纪研发首款深度学习专用处理器芯片。(本文来源于《通信世界》期刊2018年13期)

高进[2](2018)在《面向TI C67X DSP深度流水线及并行指令执行模拟优化技术的研究》一文中研究指出指令集模拟器(ISS)是一种运行在宿主机平台上能够模拟目标硬件结构的软件系统。目标硬件结构可以与宿主机结构同构或者异构。由于ISS可以有力支撑处理器及芯片设计、软硬件协同开发,以及软件可靠性测试,因而得到广泛的应用。随着目标体系结构高性能、并行化发展,如何优化ISS软件性能,有效提高其执行效率已成为迫切需求。本文以TI公司的TMS320C67x(下文简称为c67x)高性能DSP为目标硬件结构,深入分析其VLIW(Very Long Instruction Word,超长指令字)体系结构中深度流水线及并行指令执行特性,提出了深度流水线模拟及并行指令执行的优化模拟技术。通过大量性能测试发现上述方法可以有效提升指令集模拟执行性能。同时这些方法也适用于其他VLIW体系结构的硬件模拟。基于这些优化技术,本文实现了 c67x的模拟器sim6713。本文的主要工作如下:1)针对分阶段模拟c67x深度流水线机制导致的性能开销,提出了一种压缩流水线阶段的优化模拟方法,通过循环缓存记录指令的延迟周期数,使模拟器只模拟一个执行阶段即可完成等效的功能模拟,从而有效提升执行性能。进而针对目标程序中包含大量nop指令情况,通过分析nop的作用以及与流水线的关系,设计了 nop指令的优化模拟方法。2)分析了 c67xDSP支持指令包的并行指令执行特性,通过大量的实证分析,发现并行执行包中的指令更新存在显着的稀疏特性。据此提出了一种并行指令的寄存器写时拷贝技术,该方法可以有效降低指令更新时产生的大量内存拷贝操作。3)通过在 dhrystone、whetstone、linpack 等 Benchmark 测试,以及与 TI 公司的c67x ISS软件性能对比测试,验证了本文工作的有效性。(本文来源于《浙江大学》期刊2018-03-01)

宋省身,杨岳湘,江宇[3](2018)在《基于单指令级并行的快速求交算法》一文中研究指出布尔查询中的求交操作被广泛应用于各种信息系统中,是进行文档检索的基本操作之一。其基本形式可以视作多个有序整数序列的交集问题,而提高求交运算的效率是当前研究的重点。在传统求交算法的基础上,利用单指令多数据流(single instruction multiple data,SIMD)并行指令集,针对其核心的搜索步骤,提出了两种基于SIMD的跳跃式搜索算法。该算法在提高性能的同时,能有效适配在传统多倒排链求交算法中。实验证明,优化后的算法相比未使用SIMD的情况下有了很大的提升,甚至优于SIMD优化后的两两相交算法,性能最高提升37.3%。(本文来源于《山东大学学报(理学版)》期刊2018年03期)

邓宇,王蕾,石伟,唐遇星[4](2016)在《基于多线程的指令相关图并行分析算法》一文中研究指出指令相关图上的关键路径分析是CPU指令流水线微体系结构研究中常用的一种技术。以前的分析方法需要对庞大的日志文件进行串行分析处理,时间开销巨大。本文提出了一种基于多线程技术的并行分析算法,使用多个线程同时分析分块后的日志文件并计算关键路径。实验表明该方法相对处理器数目具有几乎线性的加速比。(本文来源于《第二十届计算机工程与工艺年会暨第六届微处理器技术论坛论文集》期刊2016-08-11)

郭琦[5](2015)在《异构多核可重构平台指令并行化关键问题研究》一文中研究指出随着半导体技术的进步以及对计算性能的要求越来越高,通用计算处理器的计算性能已经无法满足日益增长的计算需求。计算平台正朝着高性能,专用化的方向发展。然而,传统的特定用途集成电路(Application Specific Integrated Circuit, ASIC)由于运算逻辑的固定性,其通用性受到了很大的限制。与此同时,基于现场可编程门阵列(Field Programmable Gate Arrays, FPGAs)的可重构系统提供了一个理想的平台。一方面,由于其的可编程特性,实现了专有硬件电路的配置,从而具有较高的计算性能;另一方面,由于其可重构的特性,实现了计算资源的重新配置,从而可以适应不同的计算场景。另外,随着单片处理器的性能的发展受到摩尔定律的限制,计算平台还朝着多核化,异构化的方向发展。在多核异构平台上,指令的并行化成为提高执行效率和系统资源利用率的重要手段。因此也出现了多种计算平台上的多种并行化技术,如超长指令字(Very Long Instruction Word, VLIW),超标量(Super Scalar),乱序执行(Out-of-Order Execution)以及通用图形处理器(General Purpose Graphic Processing Unit, GPGPU)编程等。他们分别提供了任务级并行(Task-Level Parallelism, TLP)和指令级并行(Instruction-Level Parallelism, ILP)等不同粒度的并行化方法。本文利用可重构计算平台的特征与优势,将任务级与指令级并行相结合,设计了异构多核可重构计算平台。并基于此平台做了如下研究工作:(1)本文使用软硬件协同设计的方法,设计了一种能够同时支持指令级并行与任务级并行的异构多核可重构计算平台。该平台由IP核、可重构超长指令字处理器、以及中心调度处理器组成。在平台的硬件设计中,使用了基于状态机的IP核设计与封装方法,并可重构超长指令字处理器集成到计算平台上。在平台的软件设计中,设计了中心调度处理器上的编程接口,并且使用通用超长指令字代码生成方法对超长指令字的编译器后端进行了扩展,通过指令的相关性分析,将指令中的操作按照固定的模式重新定位,使得在超长指令字处理器重构时,通过扩展的编译器编译的超长指令字指令可以直接继续执行,而不用重新编译,从而实现发射宽度的动态运行时重构。(2)本文针对异构多核可重构计算平台上的任务级并行问题,使用静态与动态两种方式实现了任务级并行化。该并行化方法采用乱序执行的方式,通过任务相关检测,任务重排序,以及任务映射等步骤,实现了异构多核可重构计算平台上的多种乱序执行方式。通过构造测试用例与实际的案例学习,测试与评估了两种任务级并行化方法的性能,并通过分析比较,给出两者所适用的场景。(3)本文针对可重构超长指令字处理器上的指令级并行问题,设计并实现了一种可重构超长指令字处理器运行时动态重构策略,通过运行时的指令剖析,从而获得程序在不同的执行阶段所需要的发射宽度、执行时间、以及功耗等信息。基于这些信息,采用预测算法,对程序的下一个执行阶段所需的配置信息做出预测,并使用预测结果来控制系统的重构。目的是为了通过系统重构来更好的反映应用程序的需求,从而获得更合理的资源配置方案以及更好的能耗比。另外,本文设计并实现了一种新的数据cache替换策略,在数据cache由于系统的重构而减小时,分别对cache命中与缺失采用不同的替换策略,在cache命中时,若命中在将要被重构掉的那一部分cache,则将命中的数据同时写入保留的那部分cache中;在cache缺失时,则将缺失的数据由内存直接写入保留的那部分cache中。目的是为了减少cache的重构对缺失率的影响,从而实现cache的运行时动态重构。(本文来源于《中国科学技术大学》期刊2015-09-01)

闫宏飞,张旭东,单栋栋,毛先领,赵鑫[6](2015)在《基于指令级并行的倒排索引压缩算法》一文中研究指出文本信息数量的快速增长给传统的信息检索技术带来了新的挑战.搜索引擎通常使用倒排索引来高效地处理查询.为了减少存储开销和加快访问速度,倒排索引通常被压缩存储.因此,如何选择一个高性能的压缩算法对高效查询处理是非常有必要的.在已有倒排链压缩算法PackedBinary和PForDelta的基础上,利用CPU的超标量特性和SIMD向量指令集,将其压缩和解压缩中的关键步骤并行化,提出了2种指令级并行压缩算法SIMD-PB和SIMD-PFD.基于GOV2和ClueWeb09B两个公开数据集的实验表明,SIMD-PB和SIMD-PFD算法在压缩率不变的情况下,压缩和解压缩速度比现有的压缩算法均有非常明显的提升.其中解压缩速度比起目前最好的倒排链压缩算法,最高能提升17%.此外,实验表明算法在较长的倒排链、较大的压缩块单位上有更好的解压缩性能.(本文来源于《计算机研究与发展》期刊2015年05期)

罗红兵,武林平[7](2013)在《基于硬件事件的并行程序指令级性能模型与应用》一文中研究指出当前,应用程序持续运行性能与高性能计算机峰值性能的差距有扩大的趋势,许多实际应用程序的性能通常只能达到机器峰值性能的5%~10%,甚至更低,如何优化并行应用成为高性能计算领域关注的焦点。从如何利用硬件事件进行程序指令级优化入手,提出一种基于硬件事件的性能模型,揭示出程序性能与程序特征、微处理器特征的关系。基于该性能模型,在Intel Xeon微处理器平台上对Euler等程序进行优化,gas1dapproxy等性能热点模块的执行时间可以缩短12%~61%。性能优化实验表明:使用该性能模型可以降低用户进行指令级并行性能优化的难度,指导用户选择正确的性能优化方向。(本文来源于《计算机工程与科学》期刊2013年11期)

宋克鑫,陈香兰,陈华平,王篁[8](2013)在《动态二进制翻译的多核并行化中原子指令的翻译研究》一文中研究指出多核已成为处理器发展的趋势,我国自主设计和研发的龙芯也已有相应的多核产品——龙芯3A等系列。利用QEMU在龙芯上运行x86的操作系统和应用程序是推广龙芯使用的一种有效方法。目前,官方发布的QEMU还不能利用多核并行化运行,造成巨大的资源浪费。为充分使用龙芯3A的多核,就QEMU在龙芯3A上的多核并行化问题进行研究,发现并解决了移植过程中遇到的原子指令问题,使得QEMU全系统模拟器能利用龙芯3A的多核来稳定地支持通用操作系统windows XP和x86/Linux的运行。(本文来源于《计算机应用与软件》期刊2013年11期)

屈秋雯,梁利平[9](2013)在《基于LLVM的指令并行调度与实现》一文中研究指出IME-Diamond处理器是一款VLIW结构的多核处理器,具有多个通道,可并行执行多条指令.为了充分利用多通道并行执行的特性,IME-Diamond处理器需要编译器提供并行度信息来实现指令并行.开源的LLVM编译器架构为编译器的移植和优化提供了一个便利的平台.在此平台上可以配置和插入相应的Pass模块对指令进行分析与静态调度,并根据分析结果插入Paralink指令来显式的指示出指令的并行度,指导硬件并行发射.实验结果表明,通过并行调度后,生成代码的性能提升了16%~30%.(本文来源于《微电子学与计算机》期刊2013年11期)

耿涛,曲迪[10](2013)在《关于USAT多个主动式指令并行处理的研究》一文中研究指出通用集成电路卡(UICC)的USAT(USIM应用工具箱)的应用为电信增值业务搭建了一个广阔的平台。针对当前3GPP标准中任意时刻均只允许最多一个主动式指令处理,不允许多个指令并行处理的情况,对多个主动式指令并行处理进行研究,包括终端侧和UICC侧应执行的操作,为USAT的后续发展提供参考。(本文来源于《现代电信科技》期刊2013年10期)

指令并行论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

指令集模拟器(ISS)是一种运行在宿主机平台上能够模拟目标硬件结构的软件系统。目标硬件结构可以与宿主机结构同构或者异构。由于ISS可以有力支撑处理器及芯片设计、软硬件协同开发,以及软件可靠性测试,因而得到广泛的应用。随着目标体系结构高性能、并行化发展,如何优化ISS软件性能,有效提高其执行效率已成为迫切需求。本文以TI公司的TMS320C67x(下文简称为c67x)高性能DSP为目标硬件结构,深入分析其VLIW(Very Long Instruction Word,超长指令字)体系结构中深度流水线及并行指令执行特性,提出了深度流水线模拟及并行指令执行的优化模拟技术。通过大量性能测试发现上述方法可以有效提升指令集模拟执行性能。同时这些方法也适用于其他VLIW体系结构的硬件模拟。基于这些优化技术,本文实现了 c67x的模拟器sim6713。本文的主要工作如下:1)针对分阶段模拟c67x深度流水线机制导致的性能开销,提出了一种压缩流水线阶段的优化模拟方法,通过循环缓存记录指令的延迟周期数,使模拟器只模拟一个执行阶段即可完成等效的功能模拟,从而有效提升执行性能。进而针对目标程序中包含大量nop指令情况,通过分析nop的作用以及与流水线的关系,设计了 nop指令的优化模拟方法。2)分析了 c67xDSP支持指令包的并行指令执行特性,通过大量的实证分析,发现并行执行包中的指令更新存在显着的稀疏特性。据此提出了一种并行指令的寄存器写时拷贝技术,该方法可以有效降低指令更新时产生的大量内存拷贝操作。3)通过在 dhrystone、whetstone、linpack 等 Benchmark 测试,以及与 TI 公司的c67x ISS软件性能对比测试,验证了本文工作的有效性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

指令并行论文参考文献

[1].孙永杰.寒武纪:独创AI指令集云、端战略并行[J].通信世界.2018

[2].高进.面向TIC67XDSP深度流水线及并行指令执行模拟优化技术的研究[D].浙江大学.2018

[3].宋省身,杨岳湘,江宇.基于单指令级并行的快速求交算法[J].山东大学学报(理学版).2018

[4].邓宇,王蕾,石伟,唐遇星.基于多线程的指令相关图并行分析算法[C].第二十届计算机工程与工艺年会暨第六届微处理器技术论坛论文集.2016

[5].郭琦.异构多核可重构平台指令并行化关键问题研究[D].中国科学技术大学.2015

[6].闫宏飞,张旭东,单栋栋,毛先领,赵鑫.基于指令级并行的倒排索引压缩算法[J].计算机研究与发展.2015

[7].罗红兵,武林平.基于硬件事件的并行程序指令级性能模型与应用[J].计算机工程与科学.2013

[8].宋克鑫,陈香兰,陈华平,王篁.动态二进制翻译的多核并行化中原子指令的翻译研究[J].计算机应用与软件.2013

[9].屈秋雯,梁利平.基于LLVM的指令并行调度与实现[J].微电子学与计算机.2013

[10].耿涛,曲迪.关于USAT多个主动式指令并行处理的研究[J].现代电信科技.2013

标签:;  ;  ;  ;  

指令并行论文-孙永杰
下载Doc文档

猜你喜欢