导读:本文包含了网络处理器论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:卷积,神经网络,处理器,数据流,网络,多核,数据。
网络处理器论文文献综述
贾正义,陈晓,王劲林,叶晓舟[1](2019)在《基于多核网络处理器的时间感知整形技术研究与实现》一文中研究指出时间感知整形(Time Aware Shaper,TAS)是时间敏感网络(Time-Sensitive Network,TSN)的关键机制,对于TAS的研究与实现具有重要意义.基于多核网络处理器设计了TAS机制功能模块结构和TAS引擎处理流程,针对由于内核时钟与PTP(Precision Time Protocol)时钟存在误差而导致的时隙长度偏差问题,提出了调整保护时隙算法来校正时隙.最后,基于Cavium多核网络处理器实现了TAS机制,实验结果表明:TAS机制可以按照预配置时隙发包;增加保护时隙调整,可以有效的校正时隙误差,增加TAS机制的鲁棒性.(本文来源于《微电子学与计算机》期刊2019年12期)
郭鲁皓[2](2019)在《一种双X86处理器架构的网络设备硬件设计》一文中研究指出为满足双处理器、双操作系统分工协同工作完成数据处理的需求,选用因特尔公司生产的ATOM系列处理器N2600和桥片NM10,设计了一种双X86处理器架构的数据处理系统电路,通过NM10的PCIE接口扩展多路以太网口与系统外部进行数据交换,实现双处理器协同、分工、同步工作,实现多路同步、高速的数据处理与控制功能。(本文来源于《物联网技术》期刊2019年07期)
乌列斯[3](2019)在《英特尔联合百度开发神经网络训练处理器》一文中研究指出在近日举行的百度AI开发者大会上,英特尔公司副总裁兼人工智能产品事业部总经理Naveen Rao宣布,英特尔正与百度合作开发英特尔Nervana神经网络训练处理器(NNP-T)。AI并非单一的工作负载,而是一种广泛的、能够强化所有应用性能的强大(本文来源于《人民邮电》期刊2019-07-09)
李善辽[4](2019)在《基于卷积神经网络的内存优化访问与专用处理器优化实现》一文中研究指出深度卷积神经网络(CNNs)已经被广泛的应用在各个领域,由于其特殊的计算过程,使其具有局部感知和权值共享的机制,进而在处理图像任务时具有优异的性能。卷积神经网络在多智能应用上达到了极高的精度,比如图像分类,目标识别,语义识别以及行为识别等。但是随之而来的是计算量和功耗的大幅提升。卷积神经网络的计算量巨大是因为在一个维度比较高的卷积层中,其需要同时处理数以百计的滤波器和通道的数据,这就会导致处理器和存储器之间大量数据的移动。而一个性能优异的卷积神经网络则是由成百上千层的卷积层迭加而成,其数据传输和计算的量极为巨大。虽然可以通过现有的技术,比如CPU中使用的单指令多数据(SIMD)和GPU中的使用的单指令多线程(SIMT)技术来满足卷积神经网络对计算量和吞吐量的需求。但是即使采用了这些并行化技术,卷积神经网络的计算以及由于数据的传输所带来的功耗依然很高,并没有解决计算效率的问题。特别是针对IOT终端计算,要求具有低功耗、实时性、成本低、架构优、框架灵活等特点,显然现有的CPU+GPU的通用计算框架具有高功耗高延时等缺点,所以并不能满足IOT终端计算的需求。为了满足以上这些需求,专用的神经网络芯片应运而生。本文为了解决通用计算框架的这些问题,设计出了一款针对神经网络的专用芯片(ASIC),采用了一种新的可重构的计算框架,并针对这种计算框架提出了一种名为垂直数据流~([41])(Vertical Date Streaming)的新数据流方式,主要研究成果如下:1.针对卷积神经网络计算的特点,提出了一种名为粗粒度可重构神经形态阵列(Coarse-Grained Reconfigurable Neuron Array,CGRNA)计算框架。该计算框架以人工神经处理单元为基本计算单元,通过与之相连的连续的移位寄存器组传输数据,并采用分布式的片上SRAM。该计算框架能够灵活实现各种结构的神经网络,并支持卷积层,全连层,以及池化层等操作。实验表明,该计算框架在很大程度上提高了神经网络的计算效率,特别是针对具有极高维度的卷积层,相比通用的计算框架,计算效率上会有极大的提升。2.针对粗粒度可重构神经形态阵列这种计算框架,提出一种垂直数据流的方式。该方法采用通过改变神经网络特征图的数据在内存中存储的方式,以及以垂直读取的存储方式,提高了特征数据以及权重数据的复用率,从而大大提高卷积神经网络的计算效率,降低了功耗,也降低了芯片内部逻辑控制的复杂度。实验结果表明,本数据流方式降低了卷积神经网络计算功耗以及计算延时,以及芯片的面积,最终降低了芯片成本。3.针对粗粒度可重构神经形态阵列这种计算框架以及垂直数据流的方式,提出了与之相应的专用指令集,使用该指令集可以实现任意由卷积层,全连层,池化层组成的神经网络。并能通过控制计算过程中的数据位宽,激活函数等参数,从而实现灵活可配置的特点。(本文来源于《桂林电子科技大学》期刊2019-06-01)
涂凯杰[5](2019)在《基于传统卷积神经网络处理器的反卷积层加速研究》一文中研究指出全卷积神经网络在计算机视觉应用中普遍存在,例如物体检测,语义/图像分割以及可以学习在语音、图像、视频和文本等多个应用领域中自动创建标记数据集的生成性对抗网络。在一个全卷积网络中,传统卷积层和反卷积层都是计算复杂度的主要来源。然而,早期的深度学习加速器设计主要关注于卷积神经网络的优化,对于反卷积层的加速研究关注较少。目前的研究工作中,一种较为常见的方法是设计独立的计算资源去处理反卷积层,但是这种方式会引起相当大的硬件资源开销。在本文的研究中,对于反卷积层的加速设计进行了深入的探索。对于反卷积层的硬件加速器进行了深入的探索,最大化的利用广泛使用的卷积加速器架构实现反卷积的加速,在卷积加速器的基础上实现了全卷积神经网络的加速。我们重新优化了一维(点积)处理单元阵列和常规二维处理单元阵列的传统卷积神经网络加速器架构。对于一维阵列,本文提出一种计算模型将反卷积映射到加速器,其在一组代表性的研究应用中可实现1.6~3.9倍的加速,并且将能耗降低41.7%~72.3%。对于二维处理单元阵列,通过利用反卷积核局部性,该架构将片上存储通信的消耗从24.79 GB减少到6.56 GB。与以往的反卷积加速设计方案相比,所提出的加速器在不同的基准应用中取得了1.3~2.7倍的加速并且将能耗降低了15.6%~63.5%。本文进而提出了一种新颖的反卷积层加速实现方案,完全采用软件的转换方式,这种方式重组了反卷积层的计算流程,把反卷积核拆分并转化成多个小核,从而把反卷积运算视为卷积操作来实现。这种方案在不增加任何硬件修改的前提下,只利用现有CNN加速器来加速反卷积运算。所提出的数据流在一维阵列和常规二维阵列架构上实现,在一组基准应用中实现了2.4~4.3倍的性能加速并且将能耗降低了27.7%~54.5%。(本文来源于《合肥工业大学》期刊2019-05-10)
张大旺[6](2019)在《基于TTA的大型卷积神经网络处理器架构设计》一文中研究指出卷积神经网络作为实现人工智能任务的有效算法之一,已经在各种应用场景获得广泛的应用。目前卷积神经网络的加速平台主要包括通用处理器以及专用集成电路(ASIC,Application Specific Integrated Circuit)。前者灵活性较好,但计算性能与功耗较差;后者性能较好,但灵活性很差,开发成本高昂。专用指令集处理器(ASIP,Application Specific Instruction Set Processor)针对某一领域进行优化,牺牲了一定的性能以换取灵活性的增加,从而达到平衡。传输触发架构(TTA,Transport Triggered Architecture)是ASIP中的一种架构,其将寄存器单元也作为一种特殊的基本单元,有效地减少了寄存器堆的设计压力,成为一种非常适合于专用处理器领域的架构。本文首先针对TTA处理器设计了计算框架,使处理器能够对任意深度的卷积神经网络进行加速,同时对较为紧缺的片内存储资源提出了输出缓存优化结构与输入缓存优化结构两种优化方案,减少了近一半的存储资源使用。其次,针对传统卷积加速单元在卷积操作步长大于1时计算效率低下且消耗较多片内存储单元的问题,设计了旋转存储结构。在不增加计算与存储资源的条件下,可以解决传统卷积加速单元所存在的问题,以提高计算效率与减少片内存储使用。再者,因为卷积神经网络运算逻辑较为复杂,本文从大颗粒度上基于TCE工具链对TTA处理器的功能单元及互联网络进行了设计,以减少处理器复杂度与提升计算效率。最后,基于处理器的灵活性出发,对各运算层进行了封装,以能够实现任意参数下的加速,在软件代码中通过简单的函数调用即可对指定运算层进行加速。本文对卷积神经网络的TTA处理器进行了设计,相比于ASIC设计方式,大大减少了硬件加速平台的开发时间与成本。同时相比通用处理器CPU,TTA处理器的计算效率更高,所需片外访存次数更少,可以达到更好的加速效果。(本文来源于《北京邮电大学》期刊2019-03-30)
白焱[7](2019)在《低功耗、可重构、模块化的脉冲神经网络处理器设计与实现》一文中研究指出随着人工神经网络研究的发展以及在人工智能领域的广泛应用,人工神经网络相比于传统人工智能算法显现出其独特的优势。人工智能本质是对人类思维过程的模拟,而人工神经网络正是将脑科学对人脑神经系统结构和动态过程的研究结果进行抽象,简化而得到的一种人工智能算法。然而更接近真正意义上的类脑计算、更具有生物启发性的神经网络正是脉冲神经网络。人工神经网络经过多年的发展,目前已经有多种专用的部署在云端的加速器平台,可以进行在线神经网络训练和推理。然而,脉冲神经网络中事件驱动的计算方式特别适合低功耗硬件的实现,满足端到端的应用环境下的需求。但是,目前现有的脉冲神经网络硬件系统在功耗、可重构性等方面难以适应复杂的端侧场景,因此设计一种低功耗、可重构、模块化的脉冲神经网络处理器就很有必要。本文首先简单介绍了脉冲神经网络的一些背景知识。包括脉冲神经网络与人工神经网络的异同点,脉冲神经网络中的各种神经元模型以及学习算法,并选择了合适的神经元模型以及学习算法用作构建本文研究所用的脉冲神经网络模型。除此之外介绍了目前主流的神经网络芯片的设计思想,结合低功耗、可重构、模块化的设计要求,提出了脉冲神经网络处理器系统的指导性设计准则。其次本文,建立了脉冲神经网络处理器系统的整体架构。详尽定义了各个子模块的功能和端口以及具体的传输数据格式。根据FPGA硬件的资源情况和设计性能要求,具体实现了所提出的子模块。并且在保证功能正确的前提下进行了低功耗的优化。另外关于如何配置硬件全局参数,建立了真实的脉冲神经网络模型,并以此为例说明了如何计算获取全局参数。最后,为验证其整体的架构的有效性和评估架构的性能,本文利用由人工神经网络转换得到的脉冲神经网络作为参考模型,构建了脉冲神经网络处理器系统。采用MNIST数据集作为测试样例。使用XC7VX485T FPGA芯片实现脉冲神经网络。导入得到的网络权重和参数后,时钟频率可以达到200MHz,识别准确率达到93%,系统动态功耗为65mW。(本文来源于《电子科技大学》期刊2019-03-29)
王波[8](2019)在《低功耗、低成本、可编程深度神经网络处理器设计与实现》一文中研究指出深度卷积神经网络算法近年来迅猛发展,现已被广泛应用于图像识别、医疗诊断等领域。深度卷积神经网络通常在CPU、GPU、ASIC、FPGA等平台实现,现有的深度卷积神经网络处理器主要被用于高端应用,如自动驾驶汽车,数据中心和智能手机,其注重产品性能。而对于物联网应用,更注重产品功耗与产品成本。此外可编程性对于处理器支持不同的深度卷积神经网络算法也尤为重要。本文提出一种专用于物联网应用的低功耗低成本可编程深度卷积神经网络处理器。本文首先对深度卷积神经网络处理器的国内外研究现状进行分析,介绍在不同平台实现深度卷积神经网络处理器的最新成果。根据处理器的应用需求不同,提出本文所设计的低功耗低成本可编程深度神经网络处理器。接下来本文对深度卷积神经网络算法的基本概念、硬件实现、并行性特征进行介绍。从理论层面验证卷积层、池化层、激活函数与全连接层硬件实现的可行性,同时从卷积核内并行性、输入通道并行性与输出通道并行性叁个维度对本文深度卷积神经网络处理器并行计算设计进行分析,并提出衡量处理器性能的叁种参数。然后在可编程深度神经网络处理器硬件设计部分,本文采用五种创新技术。在处理器低功耗设计部分,本文采用基于“簇”的“S”型读取策略与数据复用技术,达到对数据的最大化复用,减少存储区读取次数从而降低功耗;本文采用基于“图”累加的方式完成中间特征图累加操作,减少输入特征图像重复加载次数从而降低功耗;将近零值过滤与零值跳过技术结合,屏蔽零值数据的传输和计算从而降低功耗。在处理器低成本与可编程设计部分,本文采用可编程层处理计算架构,通过复用层处理计算架构完成深度卷积神经网络所有层操作,减少硬件资源降低设计成本,同时其可编程性也增强处理器的灵活性。并且处理器采用基于“行”型数据存储结构,加快数据读取速度,在数据读取与计算间取得平衡,提升处理器整体速度。最后本文使用Vivado 2017.1套件作为开发和仿真工具,给出仿真结果。并在Xilinx Virtex-7 FPGA VC707评估套件进行硬件验证。对基于FPGA的可编程深度卷积神经网络处理器进行准确率分析与性能分析,本文处理器获得了31.01GOPS/W,0.22GOPS/DSP的成绩,优于现有的几种深度神经网络处理器。同时针对本文所提出的可编程深度神经网络处理器进行总结,并对后期优化提出建议。(本文来源于《电子科技大学》期刊2019-03-29)
[9](2019)在《TI AM335x系列处理器6LoWPAN网络参考设计TIDA-010032》一文中研究指出TI公司的AM335x系列微处理器是基于ARM Cortex-A8处理器,工作频率高达1GHz,具有增强图像,图形处理,外设和工业接口选择如EtherCAT和PROFIBUS,支持高级操作系统(HLOS).器件还具有NEON~(TM)SIMD协处理器,32KB L1指令和32KB数据缓存,256KB L2高速缓存,176KB引导ROM和64KB专用RAM,主要用在数据集中器和无线通信.本文介绍了AM335x处理器主要特性,功能框图以及支持以太(本文来源于《世界电子元器件》期刊2019年02期)
段汝林,林德丰[10](2019)在《基于分布式数据流的网络处理器数据收集分类平台》一文中研究指出自适应分布式数据流处理调整技术进行分布式数据收集与分类时,未构建精准的数据分类器,导致分类精度有所偏差,设计基于分布式数据流的网络处理器数据收集分类平台。所设计平台总体架构包括平台管理层、分布式数据收集层、分布式数据分类层;网络处理器通过网络交换机端口接收分布式数据流,采用变压器、PHY处理所获数据,与主控芯片FPGA交互将数据保存,实现分布式数据流收集;网络处理器实现分布式数据流分类过程包括训练阶段与测试阶段,训练阶段采用分布式数据流更新规则完成数据特征选择,测试阶段进行分布式数据流分类特征更新,对关联度较大的特征数据实施筛选,实现分布式数据流的分类。实验结果表明,所设计平台分类精确度均值高达99.5%,且用时短、使用内存小。(本文来源于《现代电子技术》期刊2019年04期)
网络处理器论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
为满足双处理器、双操作系统分工协同工作完成数据处理的需求,选用因特尔公司生产的ATOM系列处理器N2600和桥片NM10,设计了一种双X86处理器架构的数据处理系统电路,通过NM10的PCIE接口扩展多路以太网口与系统外部进行数据交换,实现双处理器协同、分工、同步工作,实现多路同步、高速的数据处理与控制功能。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
网络处理器论文参考文献
[1].贾正义,陈晓,王劲林,叶晓舟.基于多核网络处理器的时间感知整形技术研究与实现[J].微电子学与计算机.2019
[2].郭鲁皓.一种双X86处理器架构的网络设备硬件设计[J].物联网技术.2019
[3].乌列斯.英特尔联合百度开发神经网络训练处理器[N].人民邮电.2019
[4].李善辽.基于卷积神经网络的内存优化访问与专用处理器优化实现[D].桂林电子科技大学.2019
[5].涂凯杰.基于传统卷积神经网络处理器的反卷积层加速研究[D].合肥工业大学.2019
[6].张大旺.基于TTA的大型卷积神经网络处理器架构设计[D].北京邮电大学.2019
[7].白焱.低功耗、可重构、模块化的脉冲神经网络处理器设计与实现[D].电子科技大学.2019
[8].王波.低功耗、低成本、可编程深度神经网络处理器设计与实现[D].电子科技大学.2019
[9]..TIAM335x系列处理器6LoWPAN网络参考设计TIDA-010032[J].世界电子元器件.2019
[10].段汝林,林德丰.基于分布式数据流的网络处理器数据收集分类平台[J].现代电子技术.2019