导读:本文包含了硬件加速论文开题报告文献综述、选题提纲参考文献,主要关键词:神经网络,硬件加速,卷积,深度,翻译机,互联网,梯度。
硬件加速论文文献综述写法
陶欣然,葛爱明[1](2019)在《不均匀照明下采集图像的校正方法及硬件加速》一文中研究指出在表面缺陷检测的过程中,需要通过预处理增强目标缺陷与背景之间的对比,再进行缺陷与背景的区域分割。而当探测光源在目标表面产生的光照不均匀时,需要先对采集图像进行光照均匀性校正,否则较难进行之后的缺陷目标提取。本文提出了一种基于小波变换和动态阈值的校正方法,适用于不均匀照明下缺陷图像的增强,可以很好地进行照明分量的均衡。与已有方法相比,该方法在光照的均衡效果、普适性、直观性、后续目标区域的提取等方便有显着优势,但是计算时间相对较长。针对该问题,本文使用Vivado HLS设计了IP加速核,将运算效率提高了20倍,可广泛运用在不均匀照明下表面缺陷的识别。(本文来源于《照明工程学报》期刊2019年05期)
张强,孙静,王威廉,康立富[2](2019)在《基于ZYNQ硬件加速OpenCV实时高清显示系统设计》一文中研究指出OpenCV是一个用于PC端图像处理、分析方面的开源函数库.为解决OpenCV对PC端资源依赖程度高、耗时长等问题,研究按照Vivado HLS规范,将C++编写的OpenCV程序封装成Verilog IP核,并导入ZYNQ的PL中;再结合Xilinx官方提供的IP核库,以及通过ADI的LCD控制器-ADV7511,实现了基于Xilinx APSOC平台-ZYNQ,实时硬件加速OpenCV图像处理的高清显示系统设计.实验结果表明:对OpenCV中的Rgb2Gray、Sobel、Threshold等算法实现了硬件加速,处理一幅图像共计耗时11.12 ms,各硬件模块内部资源占用率为1%至3%;而传统PC端运行OpenCV相应算法、处理同一图像耗时为375 ms.硬件加速后的高清显示系统能通过HDMI接口清晰、低延时地显示高清图像.(本文来源于《云南大学学报(自然科学版)》期刊2019年05期)
刘斯文[3](2019)在《破局在线教育 智能硬件加速跑》一文中研究指出北京商报讯(记者 刘斯文)近日,网易有道发布了智能学习硬件产品有道词典笔2.0,这已是近两年有道发布的第8款教育智能硬件产品。不止网易,小米、科大讯飞等今年都陆续推出了教育硬件产品强势入局。在各家都陷入“流量焦虑”、“获客成本高”的2019年,采用工具型(本文来源于《北京商报》期刊2019-08-27)
黄智勇,吴海华,虞智,仲元红[4](2019)在《基于Tiny-yolo的网络压缩与硬件加速方法》一文中研究指出针对Tiny-yolo网络模型规模大、占内存多、计算量大、不易在嵌入式端实现的问题,提出了网络压缩、结合硬件加速的方法对其进行优化.首先,分析网络连接关系,对网络贡献较小的连接进行裁剪实现网络压缩,裁剪后的权值矩阵采用稀疏化存储方式减少内存占用;其次,对权值进行量化,通过改变数据的位数,在保证精度误差范围内进一步减小内存占用量和计算复杂度;最后,根据Tiny-yolo网络结构特点提出了深度并行-流水的FPGA加速优化方案,最终实现了Tiny-yolo网络运算的硬件加速.通过实验验证,网络裁剪结合量化可以实现36X左右的压缩比率,通过硬件加速优化,相比在最大频率为667 MHz的ARM Cortex-A9上运算实现了7X左右的运算加速.(本文来源于《华南理工大学学报(自然科学版)》期刊2019年06期)
王昆[5](2019)在《深度学习中的卷积神经网络硬件加速系统设计研究》一文中研究指出近几年来伴随着深度学习所带来的新的机器学习热潮,深度神经网络已经广泛的应用于图像识别、图像分类、目标检测和自然语言处理等不同的大规模机器学习问题当中,并且已经取得了一系列突破性的实验结果与实际应用,如今深度学习其强大的特征学习能力与识别分类能力被广泛的研究与关注。但由于深度学习中的卷积神经网络模型通常具有深度高、层次复杂、数量级大、并行度高、计算和存储密集的特征,从而使得大量的卷积计算操作和池化计算操作在具体应用中成为巨大的瓶颈,并且大量层间计算结果的存储对于计算机的存储结构也提出了较高的要求,使其在实时的应用场景下面临着巨大的挑战。现场可编程阵列FPGA(Field-Programmable Gate Array),是一种电路密集度大的运算加速器件,它集成了丰富的内部存储硬件资源、灵活的可编程逻辑资源以及高性能的计算资源,能够充分发挥卷积神经网络结构并行特性,并且能够在尺寸要求小、功耗限制低情况下实现卷积神经网络的高速运算,是实现卷积神经网络运算的理想平台。本论文主要针对深度学习中的图像识别任务进行了硬件加速系统设计研究。文章主要根据卷积神经网络的结构特点,在基于ZYNQ系列芯片的FPGA上将卷积神经网络进行了硬化实现,利用FPGA的并行计算特性与流水线技术减少了卷积神经网络的计算时间,从而实现了卷积神经网络的硬件加速;同时为了满足实时场景下对图像识别的应用需求,本文设计出了一种实时识别硬件系统框架,采用软硬件协同的方式,使用ZYNQ系列芯片的ARM完成对输入图像数据的实时采集、存储和显示,将采集存储的数据通过AXI4总线传输至FPGA中硬化后的卷积神经网络来完成对图像的实时识别,并且该系统框架还可以替换不同的硬化卷积神经网络模型,满足多场景下的实时识别任务需求。实验结果表明,本文设计的硬化卷积神经网络模型能够在单个时钟周期内完成528次卷积运算,相较于通用CPU的计算效率得到了显着提升;在对权值参数进行11位定点量化后网络的识别率为97.8%,具有较高的准确率;并且本文设计出的实时识别硬件系统框架能够实现对摄像头采集图像的实时识别,同时结合ZYNQ器件中高度模块化设计使得整个系统框架具有移植性高的特性,且系统整体运行时所需的功耗低。(本文来源于《贵州大学》期刊2019-06-01)
付世航[6](2019)在《深度卷积算法优化与硬件加速》一文中研究指出深度卷积神经网络(Deep Convolutional Neural Network,DCNN)在语音识别、图像检测等领域各个领域都得到了充分发展。由于CNN的计算量非常大,很难将其应用到具有能量限制的嵌入式平台和物联网设备上。但是,近年来可编程逻辑门阵列(FPGA)的发展,由于它本身具有大量的计算资源和出色的能量效率和可编程性的特点,可以设计独特的并行计算架构,使得卷积神经网络能够在低功耗的嵌入式设备上使用。现如今的硬件加速器设计倾向于使用类似于基于乘法累加器阵列(Multiply-Accumulator,MAC)的底层架构,这种方法得缺点是有可能使得FPGA上DSP的数量限制了加速器的性能,但是其他片上资源没有得到充分利用。为了解决这个问题,本文考虑转变卷积计算的方法,转换加速器的设计空间,并释放对所需DSP资源的压力。使用本文的方法能够平衡的利用片上存储器、逻辑资源和DSP资源,因此本文的加速器明显优于现有技术。本文利用深度卷积神经网络卷积计算的稀疏性,将模型进行剪枝、量化,提出了一种新的稀疏卷积方法 ABM-SpConv(Accumulate-Before-Multiply Sparse Convolution),它首先执行特征映射的累加,然后将部分结果乘以非零权重。通过这种方法,在卷积运算过程当中实现了更多的累加运算而不是乘法运算,因此,当在硬件中实现时,性能是累加器而不是乘法器约束的,从而在FPGA上实现时放宽了对DSP单元的需求,提高了资源的利用率。设计了一个基于FPGA的低功耗、高并行度的异构并行计算框架,使用开放运算语言(Open Computing Language,OpenCL)进行编写,包括任务调度单元、提取/存储单元、多个卷积单元及其他的功能层单元。通过使用任务调度程序对卷积单元进行同步,以解决各稀疏卷积核之间计算负载不均衡。对稀疏的网络模型进行编码,以解决稀疏权重存储的不规则性导致的带宽效率过低的问题。卷积单元由累加器和乘法器的异构阵列组成,以匹配ABM-SpConv的不同计算流程。本文将所提出的稀疏深度卷积网络加速器架构实施在DE5-Net平台上,并实现了 ResNet-18,ResNet-50网络,取得了良好的效果,识别一张图片的时间分别为7 ms和15 ms,并且在能效比方面是GPU的3倍,CPU的34倍,具有极佳的能效比。吞吐量分别达到了 532 GOPS和546 GOPS,与当前最先进的架构相比,提升了 2倍。(本文来源于《北京交通大学》期刊2019-05-31)
黄圳[7](2019)在《深度学习算法的FPGA硬件加速研究与实现》一文中研究指出近年来,人工智能在理论和应用上都取得了巨大成功,深度学习作为人工智能最重要的研究方向,可以解决更加抽象复杂的问题。然而,由于问题变得更加抽象和复杂,深度学习网络的规模也在逐渐增加,模型的学习时间也随之剧增。所以对深度学习算法加速技术的研究成为大势所趋。相比于中央处理器(Central Processing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)和专用集成电路(Application Specific Integrated Circuit,ASIC),现场可编程门阵列(Field Programmable Gate Array,FPGA)在深度学习算法加速上具有高速度、低功耗、稳定而又延迟极低、适用于流式的计算密集型任务和通信密集型任务、灵活而开发周期短、成本低、便于携带等优势。目前,对深度学习算法的FPGA实现的具体架构的研究并不多,对训练过程的FPGA加速设计研究也较少。卷积神经网络(Convolutional Neural Network,CNN)算法是最常见最重要的深度学习算法之一,它在语音和图像识别等常见应用中取得了突破性成就,因此本文主要基于CNN,从算法基本原理,优化模型并仿真建模,通用硬件架构设计和FPGA实现四个方面对深度学习算法的FPGA加速进行研究与实现。首先,本文介绍了深度神经网络(Deep Neural Network,DNN)算法和CNN算法等深度学习理论。并对模型基本参数的优化选择和正则化、弃权技术等其他优化方法进行了研究,提出了一个具体的Lenet CNN模型,该模型在小规模的简化模型前提下,拥有良好的性能,准确率可达96.64%。然后,本文研究了CNN前向预测过程及后向训练过程的通用硬件架构,提出了基于移位寄存器的串矩转换结构和基于脉动阵列(Systolic Array,SA)的卷积层和池化层的主要运算单元的硬件架构。该架构具有模块化和可扩展性,可搭建任意规模的CNN模型,并且提高了频率和计算吞吐量,减小了I/O带宽需求。同时综合考虑计算时间及资源消耗后,提出了分段拟合逼近的Softmax层硬件设计框架。最后,基于硬件实现架构,分别对Lenet CNN的预测和训练过程进行FPGA实现和系统性能分析验证。首先对预测和训练过程进行Matlab定点仿真验证,然后搭建系统模块,并在Modelsim中进行功能仿真验证,随后分别在XC7K325T-2FFG900和XC7VX690T-2FFG1157上进行FPGA实现。最后分析对比了FPGA实现系统与CPU和GPU等在速度和功耗上的性能,在速度上FPGA比CPU有了3倍左右的提高,在功率上CPU和GPU是FPGA的100倍以上。(本文来源于《电子科技大学》期刊2019-05-12)
薛刚汝[8](2019)在《基于兆芯CPU的国密算法硬件加速及应用研究》一文中研究指出伴随着云计算、大数据等新技术应用的飞速发展,信息安全问题也愈发凸显。密码学算法是应对信息安全问题的核心技术和基础支撑。针对我国的商用密码算法,实现了一套基于CPU的硬件加速指令(GMI)。文章围绕着GMI的特点、应用加以阐述,希望能够开发一套灵活高效的密码应用解决方案。(本文来源于《网络空间安全》期刊2019年04期)
苏童,唐永鹤,蒋烈辉[9](2019)在《基于CAM的数据库查询硬件加速方法》一文中研究指出根据大数据环境下对信息管理、数据筛选的需求,对数据库查询操作进行硬件加速设计,提出一种基于CAM可寻址存储器的数据库查询硬件加速架构。该架构采用CAM与FPGA结合的方法,通过CAM单元实现对多条目数据的并行比较匹配,并将若干个CAM单元并联结合,实现对多查询条件并行查询。ISE时序仿真和综合报告显示,该加速架构不仅能实现查询功能,并且与数据库的软件查询方法相比,速度上有较大优势,达到对数据库查询硬件加速的目的。(本文来源于《信息工程大学学报》期刊2019年02期)
李文武,孙书为,郭阳[10](2019)在《基于梯度的H.265/HEVC帧内预测硬件加速算法研究》一文中研究指出HEVC即H.265,是目前最新的视频编码标准。相比于前一代视频编码标准,H.265/HEVC虽然能够明显改善视频压缩效率,但是却带来了更高的计算复杂度,尤其是在帧内预测过程中。为了解决这个问题,提出一种基于梯度的帧内预测硬件加速算法来跳过一些帧内预测模式和划分深度的预测过程,从而达到减少计算的目的。利用图像梯度信息来粗略估计编码单元的纹理方向和纹理复杂度,其中纹理方向用来估计编码单元的最优帧内预测方向,纹理复杂度用来判断是否跳过当前划分深度的预测编码过程。实验表明,相比于H.265/HEVC测试模型HM16.18,本文提出的算法能够减少60.59%的编码时间,仅造成0.38dB的BD-PSNR减少和8.52%的BD-Rate增加。(本文来源于《计算机工程与科学》期刊2019年04期)
硬件加速论文开题报告范文
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
OpenCV是一个用于PC端图像处理、分析方面的开源函数库.为解决OpenCV对PC端资源依赖程度高、耗时长等问题,研究按照Vivado HLS规范,将C++编写的OpenCV程序封装成Verilog IP核,并导入ZYNQ的PL中;再结合Xilinx官方提供的IP核库,以及通过ADI的LCD控制器-ADV7511,实现了基于Xilinx APSOC平台-ZYNQ,实时硬件加速OpenCV图像处理的高清显示系统设计.实验结果表明:对OpenCV中的Rgb2Gray、Sobel、Threshold等算法实现了硬件加速,处理一幅图像共计耗时11.12 ms,各硬件模块内部资源占用率为1%至3%;而传统PC端运行OpenCV相应算法、处理同一图像耗时为375 ms.硬件加速后的高清显示系统能通过HDMI接口清晰、低延时地显示高清图像.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
硬件加速论文参考文献
[1].陶欣然,葛爱明.不均匀照明下采集图像的校正方法及硬件加速[J].照明工程学报.2019
[2].张强,孙静,王威廉,康立富.基于ZYNQ硬件加速OpenCV实时高清显示系统设计[J].云南大学学报(自然科学版).2019
[3].刘斯文.破局在线教育智能硬件加速跑[N].北京商报.2019
[4].黄智勇,吴海华,虞智,仲元红.基于Tiny-yolo的网络压缩与硬件加速方法[J].华南理工大学学报(自然科学版).2019
[5].王昆.深度学习中的卷积神经网络硬件加速系统设计研究[D].贵州大学.2019
[6].付世航.深度卷积算法优化与硬件加速[D].北京交通大学.2019
[7].黄圳.深度学习算法的FPGA硬件加速研究与实现[D].电子科技大学.2019
[8].薛刚汝.基于兆芯CPU的国密算法硬件加速及应用研究[J].网络空间安全.2019
[9].苏童,唐永鹤,蒋烈辉.基于CAM的数据库查询硬件加速方法[J].信息工程大学学报.2019
[10].李文武,孙书为,郭阳.基于梯度的H.265/HEVC帧内预测硬件加速算法研究[J].计算机工程与科学.2019