导读:本文包含了阵列处理器论文开题报告文献综述、选题提纲参考文献,主要关键词:阵列,处理器,重构,分布式,多线程,机制,结构。
阵列处理器论文文献综述写法
吴皓月,邓军勇,山蕊,张玉婷,贺飞龙[1](2019)在《可重构阵列处理器Harris算法并行化实现》一文中研究指出本文提出可重构阵列处理器Harris并行化的算法映射方式,其中可重构阵列处理器解决了算法在硬件上修改就需要结构重新调整的缺陷同时簇间并行化解决了算法在软件速度和延时的缺陷.通过modelsim、Xilinx公司硬件设计工具ISE和BEE4开发平台实现Harris算法对分辨率为512*512的图像映射,实验结果表明,整个算法映射时间为0.143 ms,这个时间相比于相同条件下CPU、GPU、FPGA实现Harris算法映射的时间都短.(本文来源于《微电子学与计算机》期刊2019年04期)
陈逸飞,朱蕾,李宏亮[2](2019)在《一种多线程阵列众核处理器的二级Cache划分机制》一文中研究指出阵列众核处理器由于其较高的计算性能和能效比已经广泛应用于高性能计算领域。而要构建未来高性能计算系统处理器必须解决严峻的"访存墙"挑战以及核心协同问题。通常的阵列处理器,其核心多采用单线程结构,以减少开销,但是对访存提出了较高的要求。引入硬件同时多线程技术,针对实验中单核心多线程二级Cache利用率较低的问题,提出了一种共享二级Cache划分机制。经实验模拟,通过上述优化的共享二级Cache划分机制,二级指令Cache失效率下降18.59%,数据Cache失效率下降6.60%,整体CPI性能提升达到10.1%。(本文来源于《计算机工程与科学》期刊2019年03期)
蒋林,刘阳,山蕊,刘鹏,耿玉荣[3](2018)在《可重构阵列处理器中分布式Cache设计》一文中研究指出随着片上集成的处理器核数日益增多,可重构阵列处理器中的"存储墙"问题日益加剧,而传统采用多级共享Cache硬件设计复杂度高,并行访问度有限,难以满足可重构阵列处理器的访存需求。设计了一种本地优先、全局共享的"物理分布、逻辑统一"分布式Cache结构,该结构硬件开销小,并行访问性高。通过Xilinx公司的Virtex-6系列xc6vlx550T开发板对设计进行测试,实验结果表明,该结构相比于同类结构,平均延迟减少最高达30%,硬件开销仅为Cache容量的5%,最高可提供10.512 GB/s的访存带宽。(本文来源于《电子技术应用》期刊2018年12期)
蒋林,刘鹏,山蕊,刘阳[4](2018)在《阵列处理器分布式存储的簇内全访问结构设计》一文中研究指出采用分布式存储结构来解决阵列处理器片内访问延迟等"存储墙"问题已经成为研究主流。针对阵列处理器中分布式存储簇内互连问题,设计了一种电路结构简单、使用效率高和延迟低的簇内全访问电路结构,实现了簇内16个处理单元对存储单元的并行访问。实验结果表明,在无冲突情况下,最高频率达223 MHz,访问峰值带宽可达7.42 GB/S.测试结果表明,相比于行列交叉互连结构,全访问结构具有更小的访问延迟。通过对256×256和512×512边缘检测canny算法在该结构上进行并行化实现和性能比较发现,相比于CPU+GPU结构的处理时间,加速比分别提升了2.84倍和2.91倍。(本文来源于《西安科技大学学报》期刊2018年04期)
蒋林,崔朋飞,山蕊,武鑫,田汝佳[5](2018)在《视频阵列处理器多层次分布式存储结构设计》一文中研究指出随着视频编解码标准的不断演进,算法处理的数据量也随之剧增。多核结构并行化处理技术在提升算法计算速度的同时,使得存储结构成为了整个编解码系统性能的瓶颈。针对视频编解码算法访存的局部性、各算法之间数据交互频繁性、算法内部大量临时数据不交互性的特点,设计并实现了由私有存储层和共享存储层构成的多层次分布式存储结构。通过Xilinx公司的Virtex-6系列xc6vlx550T开发板对设计进行测试,实验结果表明,该结构在保持简洁性和可扩展性的同时,最高可提供9.73 GB/s的访存带宽,能够满足视频编解码算法数据访存的需求。(本文来源于《计算机工程与应用》期刊2018年12期)
李才发,侯森[6](2018)在《一种基于高性能计算的多DSP处理器阵列设计》一文中研究指出一、引言高性能计算(HPC)指使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计算资源操作)的计算系统和环境。在过去的十几年里高性能计算取得了迅猛的发展,但困扰其发展的一些关键技术并没得到根本解决,新一代高性能计算系统不应该再单纯追求理论上的峰值速度,而应该关心如何为不同类型的应用设计平衡的计算系统,应用驱动的高性能计算机体系结构正在成为行业研究的热点。(本文来源于《今日电子》期刊2018年06期)
陈逸飞,李宏亮,刘骁,高红光[7](2018)在《一种阵列众核处理器的多级指令缓存结构》一文中研究指出阵列众核处理器由于其较高的计算性能和能效比已经被广泛应用于高性能计算领域。而要构建未来高性能计算系统处理器必须解决严峻的"访存墙"挑战以及核心协同问题。通常的阵列处理器中,核心多采用单线程结构,以减少开销,但是对访存提出了较高的要求。在阵列众核处理器中,在单核心中引入硬件同时多线程技术,针对实验中一级指令缓存命中率随着线程数增加而显着降低的问题,提出了一种面向阵列众核处理器的冗余指令缓存存储结构,基于该结构,提出采用FIFO及类LRU替换策略。通过上述优化的高速缓存结构设计,经实验模拟,双线程整体指令Cache失效率降低了25.2%,整体CPI性能提升了30.2%。(本文来源于《计算机工程与科学》期刊2018年04期)
山蕊[8](2018)在《数据驱动可重构阵列处理器体系结构研究》一文中研究指出传统的处理器架构虽然具有较高的灵活性,但是难以满足多样性应用日益提高的效能需求。专用集成电路具有较快的执行速度和较低的功耗,但是缺乏足够的灵活性,无法满足层出不穷、不断演进的新型应用需求。可重构结构结合了生产标准化与应用定制化、计算高效性与编程灵活性的特点,是未来体系结构的发展方向。后摩尔时代工艺的线延迟已经远远超过门延迟,成为限制芯片工作频率进一步提高的主要瓶颈。避免长连线及降低系统功耗,计算机体系结构呈现出局部化、规则化、简单化的发展趋势。处理器设计也经历了从不断复杂化单核到简单化众核的发展过程。通过二维邻接短线将众多简单的处理核以阵列的形式互连,构成的可重构阵列处理器恰恰符合了体系结构的发展趋势。因此,研究数据驱动可重构阵列处理器具有重要意义。为了提高可重构计算结构性能,本文深入研究了数据驱动动态可重构阵列结构、数据驱动可重构阵列处理器、统一编址下的分布式共享存储结构及动态自重构机制,目的在于最大化任务的并行性、提高数据驱动动态可重构阵列的灵活性、缓解日益严重的“存储墙”问题以及降低算法切换时间、提高计算资源利用。本文主要研究内容如下:(1)为了最大化任务的并行性,从而提高可重构结构的计算性能,首先研究适应数据流应用的动态可重构阵列结构,提出了一种数据驱动可重构阵列结构,并为了进一步最大化任务并行性和提高资源利用率,提出了另外两种数据驱动阵列结构:基于缓冲的动态可重构阵列结构和动态自重构阵列结构。同时,研究了二种配置信息下发网络结构:总线结构和H树网络结构。为了充分分析所提叁种结构的性能,完成了部分数据流应用的算法映射、仿真及性能统计,实验结果表明:所设计的数据驱动动态可重构阵列能够有效的完成从数据流图到可重构阵列的算法映射,同时由于处理元之间采用数据驱动邻接互连接口实现,能够完成单周期的相邻处理元间数据传递,而整个处理过程类似于流水线结构,因此计算吞吐率达单个时钟周期,并且具有较高的计算效率。(2)在单任务映射中,支持固定配置或者少量多操作配置的数据驱动可重构阵列结构在进行算法映射时灵活性较差。为了进一步提高灵活性,满足更多复杂应用的映射需求,本文尝试利用软件编程实现对阵列功能的重构,提出了两种邻接互连接口电路结构:单缓冲和双缓冲。同时,为了加速应用中对超越函数的计算需求,设计了一种四路并行流水线结构的超越函数加速器,提出了一种调整截距分段线性逼近算法来对计算过程进行简化。本文在所提结构上完成了部分图像处理算法以及AlexNet卷积神经网络的映射、仿真及性能统计。实验结果表明:本文提出的双缓冲邻接互连接口电路能够在单个时钟周期内完成相邻处理元间的数据传递,降低了相邻处理元间的数据传递延迟。所提的超越函数加速器平均误差约为0.01%,大部分函数运算吞吐率达到单个时钟周期,且计算延迟为2~7个时钟周期。提出的数据驱动可重构阵列处理器能够较好的完成多种应用的计算任务。(3)为了缓解数据驱动可重构阵列处理器中的“存储墙”问题,提出了一种统一编址方式下的分布式共享存储结构,利用局部交叉互连、全局NoC互连的两级互连结构实现了对全局分布式存储块的高效连接。同时,针对局部交叉互连结构进行了研究,提出了叁种高速交换开关结构。本文开发了一种具有图形化界面的仿真验证平台,基于该平台设计了多种测试用例,对所设计的分布式共享存储结构进行了功能验证和性能统计。本文所提结构存储访问带宽方面,远程访问为0.15GB/s,局部数据访问达6.4GB/s。访问延迟方面,局部数据访问延迟仅为1~2个时钟周期,远程访问延迟约为11~18个时钟周期。实验结果表明:本文所提结构具有较高的存储访问带宽和较低的局部数据访问延迟。最后,为了降低算法切换时间,达到提高计算资源利用的目的,研究了“软件编程”实现“硬件重构”的重构机制,提出了一种“数据驱动+配置驱动”双重驱动的动态自重构机制,有效的实现了PE的自主重构。同时,利用前期开发的翻译器,完成了多种数据密集型应用的算法映射及仿真验证工作,对所提重构机制的性能进行了分析、对比。实验结果表明:所提的自重构机制能够有效的降低配置信息量,同时具有较低的处理时间。(本文来源于《西安电子科技大学》期刊2018-04-01)
肖汉鹏,钱俊彦[9](2018)在《紧耦合处理器阵列重构的整数规划模型》一文中研究指出为了降低可容错处理器阵列重构后的子阵列能耗开销,提出一种基于整数规划的模型来减少阵列的链接长度。该方法首先将处理器阵列中的处理器单元表示为一系列布尔变量,进而将相应逻辑列的链接长度表示为变量的函数。因此,构造链接长度最短的紧耦合处理器阵列,等价于求解整数规划模型中目标函数的最优值。分析表明,在该模型的基础上,结合整数规划求解器,可以得到紧耦合目标阵列。(本文来源于《桂林电子科技大学学报》期刊2018年01期)
山蕊,李涛,蒋林,邓军勇,杨博文[10](2018)在《视觉阵列处理器超越函数加速单元设计》一文中研究指出由于在计算机视觉算法中涉及大量超越函数的运算,为了加快算法在视觉阵列处理器上的运行速度,满足视觉应用的实时性需求,提出了一种调整截距分段线性逼近算法,并基于此设计了一种定点运算系统和对数运算系统混合的超越函数硬件流水线结构.新算法实现了正余弦函数的近似计算,并通过对数/指数计算转换、采用对数运算系统实现了反正切、开平方根、指数运算、对数运算等超越函数的计算.通过数百个随机数据的仿真验证,表明该结构可有效地降低计算误差,提高吞吐率.基于SMIC 0.13μm CMOS集成电路工艺对混合计算系统进行了综合,电路工作频率达200MHz.(本文来源于《西安电子科技大学学报》期刊2018年04期)
阵列处理器论文开题报告范文
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
阵列众核处理器由于其较高的计算性能和能效比已经广泛应用于高性能计算领域。而要构建未来高性能计算系统处理器必须解决严峻的"访存墙"挑战以及核心协同问题。通常的阵列处理器,其核心多采用单线程结构,以减少开销,但是对访存提出了较高的要求。引入硬件同时多线程技术,针对实验中单核心多线程二级Cache利用率较低的问题,提出了一种共享二级Cache划分机制。经实验模拟,通过上述优化的共享二级Cache划分机制,二级指令Cache失效率下降18.59%,数据Cache失效率下降6.60%,整体CPI性能提升达到10.1%。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
阵列处理器论文参考文献
[1].吴皓月,邓军勇,山蕊,张玉婷,贺飞龙.可重构阵列处理器Harris算法并行化实现[J].微电子学与计算机.2019
[2].陈逸飞,朱蕾,李宏亮.一种多线程阵列众核处理器的二级Cache划分机制[J].计算机工程与科学.2019
[3].蒋林,刘阳,山蕊,刘鹏,耿玉荣.可重构阵列处理器中分布式Cache设计[J].电子技术应用.2018
[4].蒋林,刘鹏,山蕊,刘阳.阵列处理器分布式存储的簇内全访问结构设计[J].西安科技大学学报.2018
[5].蒋林,崔朋飞,山蕊,武鑫,田汝佳.视频阵列处理器多层次分布式存储结构设计[J].计算机工程与应用.2018
[6].李才发,侯森.一种基于高性能计算的多DSP处理器阵列设计[J].今日电子.2018
[7].陈逸飞,李宏亮,刘骁,高红光.一种阵列众核处理器的多级指令缓存结构[J].计算机工程与科学.2018
[8].山蕊.数据驱动可重构阵列处理器体系结构研究[D].西安电子科技大学.2018
[9].肖汉鹏,钱俊彦.紧耦合处理器阵列重构的整数规划模型[J].桂林电子科技大学学报.2018
[10].山蕊,李涛,蒋林,邓军勇,杨博文.视觉阵列处理器超越函数加速单元设计[J].西安电子科技大学学报.2018