融合乘加论文-刘仲,陈海燕,向宏卫

导读:本文包含了融合乘加论文开题报告文献综述及选题提纲参考文献，主要关键词:快速傅里叶变换,融合乘加,向量化,向量处理器

融合乘加论文文献综述

刘仲,陈海燕,向宏卫^[1]（2015）在《使用融合乘加加速快速傅里叶变换计算的向量化方法》一文中研究指出融合乘加指令加速快速傅里叶变换计算的向量化方法,通过变换快速傅里叶变换的蝶形单元运算流程,将传统计算方式中独立的乘法和加法操作组合成次数更少的融合乘加操作,使得时间抽取法基2快速傅里叶变换算法的蝶形单元计算的实数浮点操作由原来的10次乘(加)操作减少到6次融合乘加操作,时间抽取法基4快速傅里叶变换算法的蝶形单元计算的实数浮点操作由原来的34次乘(加)操作减少到24次融合乘加操作;优化了蝶形因子的向量访问,减少存储开销。实验结果表明,提出的方法能够显着加速快速傅里叶变换的计算,取得高效的计算性能和效率。(本文来源于《国防科技大学学报》期刊2015年02期）

罗淑贞^[2]（2014）在《基于FPGA的浮点乘加融合部件的研究及算法》一文中研究指出随着国内高性能CPU的快速发展,研究具有高精度的浮点乘加融合部件对推动高性能处理器的研究具有重要意义。然而国内对浮点乘加部件的研究和国外的水平仍存在一定差距,还有很大的发展空间。本论文旨在降低浮点运算的延时,提升速度,通过深入分析现今浮点乘加融合思想与结构,完成了对浮点乘加融合体系结构的设计。论文通过对系统结构模块化,把系统分为以下主要模块:解码模块,乘法器模块,加法器模块,前导1预测模块,规格化和舍入模块等,且主要通过设计前导1预测环节中的关键算法来完成降低延时的目的,最后对各个模块进行综合仿真,并在Altera公司的DE2平台上进行仿真实现。论文的重要创新点在于设计叁操作数前导1预测算法。在这一模块先是分析了当前两操作数前导1预测算法的编码规则,并深入探讨了其存在的不足,并针对这一不足,在FPGA平台上设计了能够直接处理叁操作数的前导1预测算法的完整实现方案,可以有效降低关键路径延时和功耗。论文重点设计出了叁操作数的编码树结构和预测算法的预编码规则,通过在FPGA硬件验证平台上对系统结构合理模块化,且采用硬件描述语言VerilogHDL对部分功能进行编程,优化了设计过程,最后对仿真结果进行了分析。仿真结果表明,设计完成的算法结构较传统算法在关键路径延时上减少36.15%,功耗降低39.20%。最后,在浮点乘加部件的基础上完成了浮点乘加融合系统结构的设计,并利用FPGA技术实现了乘加融合模块的仿真。通过仿真实现来验证各部件结果,由验证结果可知,由此设计出来的浮点乘加融合结构有效的降低了延时,提升了速度。(本文来源于《河北工业大学》期刊2014-11-01）

李振虎^[3]（2013）在《浮点融合乘加部件设计分析与尾数加电路定制设计》一文中研究指出浮点融合乘加部件(MAF)是现代微处理器中的核心部件,它的运算速度直接影响到微处理器的性能。浮点融合乘加部件的计算延时大、结构规模复杂并且功耗相对较高,处在关键路径上。对浮点融合乘加部件的研究具有较高的应用价值。本文通过对X处理器中的64位浮点融合乘加部件进行研究和优化设计,在支持浮点运算与整数运算的基础上,对其中的关键模块进行了分析与研究,综合分析确认原设计的108位尾数加较大的制约了整个浮点融合乘加部件的性能,本文通过改进尾数加的结构并对其进行定制设计,使得浮点融合乘加部件整体性能得到提升。本课题的主要工作和贡献如下：1.DC综合分析,查找分析关键路径,寻找提升整体浮点融合乘加部件性能的方法；2.在尾数加设计中最后两级运算分别采用了进位选择加法器结构和循环进位(End-Around-Carry)结构,其中进位选择结构中把进位为“0”和进位为“1”中相同的部分共用使得面积进一步减小,并且性能不受影响；采用最后一级循环进位结构使得在加法运算时省去了一步加数求补和最终结果的求反加1过程；3.在40nm工艺下对定制完成的108位尾数加进行了时序验证并得出最终结果。设计所占面积为1872.82um2,最坏条件下,尾数加部分运算延迟为350ps,并且相对于改进前时的面积减小了20%并且性能提升23%。从而使得尾数加部分不是制约浮点融合乘加部件性能的关键路径。(本文来源于《国防科学技术大学》期刊2013-03-01）

李璋辉^[4]（2013）在《支持浮点融合乘加的SIMD运算部件设计优化及实现》一文中研究指出SIMD（Single Instruction Multiple Date，单指令多数据）是提高数据并行处理能力的重要手段。随着超大规模集成电路的发展，主流微处理器厂商不断地增加SIMD功能和SIMD的位宽。但SIMD仍然存在诸多性能瓶颈，如地址不对齐、数据重组和控制相关的向量化（Control flow）等问题。论文设计了高性能微处理器中支持浮点融合乘加的SIMD运算部件，以科学计算为背景进行了优化，并进行了综合、验证以及性能分析。本文的主要研究工作：1.设计了一个7站流水的双精度浮点乘加（Fuse Multiple Add，FMA）单元，并组成了基本的SIMD模块。分析SIMD在各种应用中的性能瓶颈，针对地址不对齐、数据重组和控制相关的向量化，提出了一种可配置的SIMD改进结构。2.对SIMD运算部件进行模拟验证与综合分析。验证结果表明浮点计算符合IEEE7542008标准，SIMD功能正确。综合结果表明可配置的SIMD相对于基本的SIMD，面积和功耗分别增加了2.04%和0.46%。经综合评估，该SIMD频率达到2GHz。3.以向量长度为66的DAPXY（双精度乘加）和稀疏矩阵计算为例，分析可配置的SIMD的性能提升，结果表明与基本的SIMD相比，可配置的SIMD获得了1.17~1.50倍的加速。(本文来源于《国防科学技术大学》期刊2013-03-01）

谢启华^[5]（2013）在《高性能微处理器中浮点融合乘加部件的设计与实现》一文中研究指出浮点融合乘加（FMA）部件作为高性能微处理器的核心运算部件之一，对整个微处理器的浮点性能具有很大影响。浮点融合乘加运算算法复杂，逻辑执行时间长，规模大；且验证难，设计周期长。因此，对高性能浮点融合乘加部件的研究具有广泛的应用价值和重要的现实意义。本文对高性能浮点融合乘加部件的设计和优化技术进行了研究，课题的研究内容作为国家重大项目“高性能X处理器”的一部分，研究成果直接应用于工程实践。基于单数据通路FMA算法，无异常中断和软件协处理(SWA)机制，以高频率、小面积、兼容IEEE754标准为目标，本文设计了支持非规格化数，符号零，无穷大和NaNs数输入与输出的FMA部件。主要研究工作及成果包括以下几点：1.对高性能浮点融合乘加部件及其关键技术进行了广泛的研究，在此基础上设计并实现了高性能X处理器的浮点融合乘加部件。2.提出了一种乘法阵列的进位修正结构；设计了基于EAC结构的主加法器，减少了FMA的逻辑级数，提高了执行速度。3.采用最大规格化移位量控制和灵活的一位规格化修正技术设计了支持非规格化数的简捷LZA结构；将精确无穷大操作和NaNs数据通路并入对齐的加数数据通路，非规格化操作数处理融入到正常的规格化数据流中，以最大限度地共享尾数处理数据通路。4.用Verilog硬件描述语言完成了对整个设计的RTL级流水化建模实现。整个设计通过了包括IEEE754标准测试向量、特殊操作数、边角数据和大量的随机向量等各种测试集的测试，保证了设计的正确性。最后，对本文设计的浮点融合乘加部件进行了综合和优化调试，采用40nm体硅CMOS工艺，在最坏工艺条件下，其频率能达到2.5GHz，面积56735.9um2，满足X处理器的设计要求。(本文来源于《国防科学技术大学》期刊2013-03-01）

邰强强,倪晓强,张民选^[6]（2012）在《基于浮点融合乘加部件的前导零预测与检测方法研究》一文中研究指出在浮点融合乘加部件中将前导零预测与检测模块与主加法器并行执行,可以有效减少关键路径延迟。本文分析整理了现有文献资料中的前导零预测与检测方法以及对一位误差进行修正的方法。通过比较发现,只有在充分考虑面积、延时和功耗要求的基础上,才能选择与设计相适应的前导零预测和检测方法。(本文来源于《第十六届计算机工程与工艺年会暨第二届微处理器技术论坛论文集》期刊2012-08-17）

谢启华,倪晓强,李少青,刘荣华,张民选^[7]（2012）在《高性能浮点融合乘加部件中加法/前导零预测器的流水设计》一文中研究指出流水线实现的数字系统,相比于非流水化的系统,可获得显着的性能提升,流水化设计已成为微处理器设计的标准方法。如今人们已在流水深度和流水方式等不同层次上展开了大量的研究,提出了超流水,行波流水和混合行波流水等技术。本文对高性能浮点融合乘加部件(FMA)的前导零预测(LZA)模块的流水化实现策略进行了分析,由于加法器(FA)的并行度大于LZA,LZA可能成为高性能FMA设计的瓶颈。根据延时匹配分析,本文提出采用行波流水方式来实现LZA,以更好地匹配加法器的延时,达到高性能设计的时序要求。试验结果显示,该设计的延时能匹配传统流水实现的主加器,满足功能要求。(本文来源于《第十六届计算机工程与工艺年会暨第二届微处理器技术论坛论文集》期刊2012-08-17）

李振虎,倪晓强,李少青,谢启华,张民选^[8]（2012）在《浮点融合乘加部件中108位加法器的设计》一文中研究指出在浮点融合乘加部件中尾数加是其中的关键部分并处在关键路径上。在单通道64位浮点融合乘加部件中108位的加法器是其中的关键路径,而设计一个高速低功耗并且所占面积又少的加法器是本次任务的主要目标之一。本文设计原理是通过对加法器中108位的加数进行了重新划分,其中36位为一组,每组再分18位为一小组。组内采用基-2、基-3结构;小组间采用进位选择加法器的结构进行设计;组间采用EAC(end-around carry)加法运算来实现。采用此种结构大大加快了加法器的运算速度。(本文来源于《第十六届计算机工程与工艺年会暨第二届微处理器技术论坛论文集》期刊2012-08-17）

张峰^[9]（2007）在《一种128位浮点乘加融合部件的研究与实现》一文中研究指出浮点乘加融合MAF(Floating-Point Multiply-Add Fused)将浮点乘法和加法看成一个不可分割的操作,不对中间结果进行舍入,提高了浮点计算精度和吞吐率。高精度的浮点乘加融合已经成为国内外研究热点,研究具有自主知识产权的高精度浮点乘加融合部件对推动我国高性能处理器的研究具有重要意义。本文深入研究了浮点融合乘加部件的体系结构以及设计方法,设计并实现了一种128位高精度的浮点乘加部件,主要工作和成果包括:1.提出了一种128位浮点融合乘加体系结构。采用5站全流水结构,保证了浮点乘加运算的吞吐率;采用分块乘法和加法,减小了关键路径长度,提高了计算速度;对于部分积求和采用改进的4:2进位存储加法器CSA(Carry SaveAdder)树形结构,降低CSA树型结构的逻辑级数。2.设计并实现了128位的叁输入前导1预测体系结构。比较了二输入DT前导1预测和叁输入前导以预测算法,为体系结构探索提供了理论依据;采用模块化优先编码树,实现了叁输入前导1预测体系结构,比传统的二输入DT前导1预测面积上要减小约31%,关键路径延时减小26%。3.提出了128位浮点融合乘加测试集生成方法。根据IEEE-754＼854标准,依照数据计算特性,将输入测试激励数据划分为9个等价类,有针对性地人工遴选以及随机产生输入激励数据,在保证测试覆盖率的前提下,减少了测试向量,加快了验证速度。基于该测试集,实现了128位浮点融合乘加部件的逻辑模拟和FPGA仿真。对所设计的128位浮点运算部件使用Verilog语言实现RTL级可综合代码,用Design Compiler进行逻辑综合,在smic0.13微米工艺下,频率达202MHz,关键路径延时4.93ns,面积约为119,000门。(本文来源于《国防科学技术大学》期刊2007-11-01）

凌智强^[10]（2006）在《支持并行整数乘的双通路浮点融合乘加结构的研究与实现》一文中研究指出浮点融合乘加将浮点乘法和浮点加法看成不可分的一个操作,不对中间结果进行舍入,提高了计算的精度,降低了延迟,减小了实现的代价。在索引表的辅助下,浮点乘加可以实现所有的浮点基本操作,已成为支持浮点系统的高性能处理器的关键部件。随着多媒体技术的兴起,并行处理,一种单指令多数据(SIMD)的方式对乘法器提出了更高的要求。本文以双通路浮点融合乘加结构为基础,为支持并行整数乘法而设计实现了一个新的浮点融合乘加部件。本文在以下方面作了深入的研究:1.设计实现了一种新型的双通路浮点融合乘加体系结构。浮点融合乘加算法复杂,逻辑实现延迟长。本文设计的浮点融合乘加部件使得单独的浮点加法指令和浮点融合乘加指令不再共享一条流水线,从而相对浮点融合乘加指令减少3个流水周期。2.并行整数乘法器的设计与优化。本文的设计使用了“分割共享”方法实现的多精度定点向量乘加部件能够进行一个64×64,两个32×32,四个16×16或者八个8×8的有符号或无符号乘法运算,并且在硬件设计上本质上和标量乘法器相同。3.前导零预测算法的改进。在浮点加法器和浮点融合乘加部件中都需要使用前导零预测部件,但在研究中发现应用最为广泛的并行修正前导零算法中存在着明显的设计错误,在此基础上提出了修正的方法,并证明了该修正方法的正确性及有效性。4.设计验证与测试:整个设计通过了IEEE CC754标准测试向量,各指令的特殊操作数,边界数据和精心遴选的随机数据组合测试向量的测试,还进行了行为级描述与RTL级描述的一致性验证,保证了验证的充分性、设计的正确性。5. IP核设计:本文完成软IP核设计,包括行为级模型、高覆盖率的测试向量集、高性能的可综合硬件代码。本文对所设计的双精度乘加部件进行了综合和优化,在浮点乘加和并行整数乘法分成9个流水站,浮点加法分成6个流水站的情况下,综合结果表明其频率能达到500MHZ以上,满足X处理器设计的要求。(本文来源于《国防科学技术大学》期刊2006-11-01）

融合乘加论文开题报告

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

随着国内高性能CPU的快速发展,研究具有高精度的浮点乘加融合部件对推动高性能处理器的研究具有重要意义。然而国内对浮点乘加部件的研究和国外的水平仍存在一定差距,还有很大的发展空间。本论文旨在降低浮点运算的延时,提升速度,通过深入分析现今浮点乘加融合思想与结构,完成了对浮点乘加融合体系结构的设计。论文通过对系统结构模块化,把系统分为以下主要模块:解码模块,乘法器模块,加法器模块,前导1预测模块,规格化和舍入模块等,且主要通过设计前导1预测环节中的关键算法来完成降低延时的目的,最后对各个模块进行综合仿真,并在Altera公司的DE2平台上进行仿真实现。论文的重要创新点在于设计叁操作数前导1预测算法。在这一模块先是分析了当前两操作数前导1预测算法的编码规则,并深入探讨了其存在的不足,并针对这一不足,在FPGA平台上设计了能够直接处理叁操作数的前导1预测算法的完整实现方案,可以有效降低关键路径延时和功耗。论文重点设计出了叁操作数的编码树结构和预测算法的预编码规则,通过在FPGA硬件验证平台上对系统结构合理模块化,且采用硬件描述语言VerilogHDL对部分功能进行编程,优化了设计过程,最后对仿真结果进行了分析。仿真结果表明,设计完成的算法结构较传统算法在关键路径延时上减少36.15%,功耗降低39.20%。最后,在浮点乘加部件的基础上完成了浮点乘加融合系统结构的设计,并利用FPGA技术实现了乘加融合模块的仿真。通过仿真实现来验证各部件结果,由验证结果可知,由此设计出来的浮点乘加融合结构有效的降低了延时,提升了速度。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

融合乘加论文参考文献

[1].刘仲,陈海燕,向宏卫.使用融合乘加加速快速傅里叶变换计算的向量化方法[J].国防科技大学学报.2015

[2].罗淑贞.基于FPGA的浮点乘加融合部件的研究及算法[D].河北工业大学.2014

[3].李振虎.浮点融合乘加部件设计分析与尾数加电路定制设计[D].国防科学技术大学.2013

[4].李璋辉.支持浮点融合乘加的SIMD运算部件设计优化及实现[D].国防科学技术大学.2013

[5].谢启华.高性能微处理器中浮点融合乘加部件的设计与实现[D].国防科学技术大学.2013

[6].邰强强,倪晓强,张民选.基于浮点融合乘加部件的前导零预测与检测方法研究[C].第十六届计算机工程与工艺年会暨第二届微处理器技术论坛论文集.2012

[7].谢启华,倪晓强,李少青,刘荣华,张民选.高性能浮点融合乘加部件中加法/前导零预测器的流水设计[C].第十六届计算机工程与工艺年会暨第二届微处理器技术论坛论文集.2012

[8].李振虎,倪晓强,李少青,谢启华,张民选.浮点融合乘加部件中108位加法器的设计[C].第十六届计算机工程与工艺年会暨第二届微处理器技术论坛论文集.2012

[9].张峰.一种128位浮点乘加融合部件的研究与实现[D].国防科学技术大学.2007

[10].凌智强.支持并行整数乘的双通路浮点融合乘加结构的研究与实现[D].国防科学技术大学.2006

标签：快速傅里叶变换; 融合乘加; 向量化; 向量处理器;

融合乘加论文-刘仲,陈海燕,向宏卫

融合乘加论文文献综述

融合乘加论文开题报告

融合乘加论文参考文献

猜你喜欢