加速运算论文-孙燕齐,鄢楚平

加速运算论文-孙燕齐,鄢楚平

导读:本文包含了加速运算论文开题报告文献综述及选题提纲参考文献,主要关键词:国产自主可控,国产数据库加速,国产FPGA

加速运算论文文献综述

孙燕齐,鄢楚平[1](2019)在《基于虚拟FPGA的数据库运算加速装置设计》一文中研究指出如今,在国产化与自主可控的背景下,基于国产硬件环境的国产数据库性能的提升工作将是未来研究重点方向。针对国产的操作系统、CPU等硬件性能差的问题,文中旨在设计一种基于FPGA的数据库运算加速装置,充分利用国产FPGA的逻辑运算以及并行计算的能力,来弥补国产硬件性能的不足。为了合理利用资源,本设计核心思想是将国产FPGA的资源动态扩展伸缩,将其分割池化为一个个基本运算模块,在处理不同的加速请求时,分配不同的资源与之匹配。经过实验,用本设计对国产数据库加速的效果明显,性能提升显着,有近四倍的加速效果。(本文来源于《信息技术》期刊2019年12期)

江凯,刘志哲,修于杰,田映辉,赵晨旭[2](2019)在《基于卷积神经网络加速运算单元设计》一文中研究指出为实现卷积神经网络在边缘计算中的应用,需借助专用的硬件加速器来对其卷积、池化和全连接等运算进行加速。由于运算单元是加速器的核心部件,提出一种可用于卷积神经网络加速的运算单元,并完成其硬件代码的设计。通过对单个运算单元进行功能拓展,实现运算单元矩阵的应用。在搭建的功能验证环境下,对设计进行仿真,并将仿真值与理论值进行比对,完成运算单元及其矩阵的功能验证。仿真结果表明,单个运算单元能有效完成卷积神经网络中卷积、池化和全连接等运算,运算单元矩阵可极大地提升图像处理的速度。(本文来源于《计算机工程与设计》期刊2019年12期)

方宁,曹卫兵,倪冬鹤,狄冠东[3](2019)在《基于Android平台并行运算机制的密码运算加速方案》一文中研究指出研究Android平台中密码运算加速方法,采用运算并行化的思想,利用Android平台的RenderScript并行运算机制实现大整数乘法运算,为椭圆曲线密码等密码运算提供高效快速的基本操作。设计并实现了适合并行处理的大整数乘法运算存储结构和运算执行逻辑,以矩阵的方式分割并处理大整数对象,可以一次同步完成所需的乘法和加法运算,进而得到最终运算结果。实验结果表明,与Android平台原生的Java大整数运算库相比,该方法在执行时间上具有明显优势。(本文来源于《网络与信息安全学报》期刊2019年01期)

唐坤杰,董树锋,宋永华[4](2018)在《一种GPU-CPU异构运算框架加速的实时N-1交流潮流计算方法》一文中研究指出随着电力系统规模的扩大,为了适应N-1安全校验日益上升的实时性和精确性的需求,提出一种图形处理单元—中央处理单元(graphics processing unit-central processing unit,GPU-CPU)异构运算框架加速的实时N-1交流潮流计算方法。算法中设计一种N-1潮流问题的拼接求解方法,将原本多个独立的潮流问题组合为一个。雅可比矩阵的拼接生成采用并行化处理,线性方程组的求解根据规模大小选择直接法或迭代法处理,其中迭代法采用并行化处理。算法整体分为CPU处理部分和GPU处理部分,CPU处理迭代初值的设定、节点导纳矩阵的形成、校验集合的形成、迭代值的修正、收敛性判断等步骤,GPU处理雅可比矩阵的拼接生成等步骤,修正方程组的求解根据其规模选择CPU求解或GPU求解,以达到快速求解的目的。算例表明,所提算法效率和精度高、空间占用小,与传统N-1潮流算法相比具有明显优势,能够满足电网实时N-1潮流计算的需求,具有工程应用价值。(本文来源于《中国电机工程学报》期刊2018年15期)

刘绍婷,王晓凯,郭大波[5](2017)在《连续变量量子密钥分发数据协调加速运算的GPU实现》一文中研究指出针对当前连续变量量子密钥分发系统数据协调运算速度低等问题,用GPU实现了基于LDPC的SEC协议下数据协调算法的并行化加速运算,提出用静态双向十字链表的方法高效存储大规模稀疏校验矩阵,从而保证在不牺牲协调效率的前提下提高了译码速率。仿真实验结果表明,在信道信噪比为4.9 d B以上、2×105个连续变量序列可靠协调以及协调效率为91.71%的情况下,基于Geforce GT 650 MB的GPU和2.5 GHz、8 GB内存的CPU硬件平台,译码速率可达16.4 kbit/s,相对于仅CPU平台,计算速度提高15倍以上。(本文来源于《通信学报》期刊2017年11期)

张岩[6](2017)在《CPU-OpenMP和GPU-CUDA并行计算技术对矩阵乘法运算的加速效果分析》一文中研究指出本文对比了CPU-OpenMP和GPU-CUDA并行计算技术对不同阶矩阵乘法运算相对于CPU单线程计算的加速效果。结果表明,CPU-OpenMP并行的计算加速比与矩阵阶数无关,且低于所采用的线程数目。GPU-CUDA并行的计算加速比随矩阵阶数的增加显着增加,最大计算加速比可达570倍以上。相对于CPU单线程计算结果,CPU-OpenMP并行计算未产生误差,而GPU-CUDA并行计算会产生误差。结果表明,GPUCUDA并行适合高阶数矩阵乘法的加速计算,而CPU-OpenMP并行适合低阶数矩阵乘法的加速计算。(本文来源于《科技视界》期刊2017年26期)

黄洁[7](2016)在《基于CUDA的R语言基本运算并行加速软件包开发、优化与应用》一文中研究指出近年来,随着互联网技术的发展,信息开始呈现爆炸式增长。数据挖掘技术由于可以从海量数据中提取有价值的信息,越来越受到人们的关注。R语言作为一种解释性编程语言,因其简洁灵活的编程方式和功能强大的第叁方工具包等优势,成为统计学科和数据分析领域中强有力的开源工具。然而,由于解释性语言固有的计算效率低的问题,使得R语言在面对巨大计算量的数据分析时存在处理速度瓶颈。因此,提高R代码的计算性能对于推动R在数据分析领域的应用具有重要意义。另一方面,GPU以其并行处理能力强、编程灵活、成本低等特点,在多个并行加速应用领域获得了成功。因此,在R中引入GPU并行加速计算,成为提升R代码性能的发展趋势,具有良好应用前景。本文针对GPU并行计算在R代码优化中的应用现状,研究和开发基于GPU并行加速的R工具包。在此基础上,本文亦尝试在R上移植和优化基于GPU并行计算的深度学习算法,以提高深层网络的.训练速度。本文取得的主要成果有:1.本文从R用户的使用习惯出发,设计并实现了一个基于CUDA的R计算工具包。该软件包可以支持Windows和UNIX操作系统,安装和启用时可以自动进行系统环境检测和配置,具备良好的兼容性和易用性。本文采用面向对象的编程模式搭建分层的系统架构,实现了 GPU计算函数的透明化调用和程序运行时设备(CPU/GPU)的灵活切换。这个系统具有良好的灵活性,健壮性和可扩展性。另外,本文亦在该架构基础上优化了计算中间结果在GPU上的存储和再使用问题,提高了程序的运行效率。2.本文对深度学习算法在R上的并行优化进行了探索,实现了基于CPU+GPU异构编程模式的DBN训练框架。该方法具有使用灵活、加速效果明显的优势。(本文来源于《北京邮电大学》期刊2016-03-10)

白玉[8](2016)在《基于区间运算的测试用例生成加速技术研究》一文中研究指出软件测试是保证软件质量的重要方法。单元测试是对被测程序最小单元或模块进行的测试,通常分为测试用例生成、测试用例执行和测试结果统计叁个阶段,其中生成测试用例通常由测试人员手动完成。由于单元测试的巨大工作量及其高重复性,因而需要投入大量的人力和时间。单元测试的自动化测试,尤其是测试用例自动生成技术的发展在一定程度上解决了手动测试效率低和失误率高的问题,推动了软件测试的发展,成为软件测试领域的研究热点。在面向路径的单元测试中,目标路径上的约束集合求解问题是测试用例自动生成问题的一个难点。由于被测约束系统的复杂性以及求解算法的约束性,测试用例自动生成的效率以及生成用例的正确率往往不高。本文围绕提高单元测试中的测试用例自动生成效率问题,在分支限界测试用例框架和区间运算的基础上提出了基于语义分析和区间运算的库函数约束求解策略,用以求解目标路径中库函数约束;基于迭代技术和区间运算的区间一致性判定策略,用以消除路径中约束的处理顺序对区间运算结果的影响,同时削减变量区间;基于变量相关性的跳跃式回溯策略用以避免不必要的回溯和回退过程,减少区间运算次数;约束变换策略将待测路径中的一些非四则运算转换成区间运算可以处理的四则运算形式,通过辅助变量赋值加速求解目标路径上的约束集合。作者在代码测试系统(CodeTest System,CTS)中编码实现了上述四种策略,并通过相关实验来检测这些策略在加速测试用例自动生成方面的有效性。实验结果表明本文提出的策略对于减少测试用例自动生成的时间,提高测试用例自动生成的效率有明显的作用。(本文来源于《北京邮电大学》期刊2016-03-07)

赵汉理,孟庆如,金小刚,黄辉,王明[9](2015)在《硬件加速的渐进式多边形模型布尔运算》一文中研究指出多边形模型的布尔运算中包含复杂的求交计算以及多边形重建过程,精度控制和处理效率是其中的关键.为了降低布尔运算复杂度,提出一种适合硬件加速的基于渐进式布尔运算的多层次细节网格模型生成方法.该方法采用分层深度图像来近似表示多边形实体的封闭边界,将多边形的求交计算简化为坐标轴平行的采样点的实体内外部判断;为了免去各层次细节模型的重复采样过程,渐进式地将边界采样点归并到低分辨率下的立方体中;运用特征保持的多边形重建算法将相同立方体内的边界采样点转换成多边形顶点,根据邻接关系生成网格模型.上述算法使用支持图形硬件加速的CUDA编程并行实现.实验结果表明了算法的可行性.(本文来源于《计算机辅助设计与图形学学报》期刊2015年07期)

张琦,钟握军[10](2014)在《量子并行运算加速能力的研究》一文中研究指出本文对量子并行运算和经典并行运算的机理与加速能力进行了分析和对比。(本文来源于《河南科技》期刊2014年23期)

加速运算论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

为实现卷积神经网络在边缘计算中的应用,需借助专用的硬件加速器来对其卷积、池化和全连接等运算进行加速。由于运算单元是加速器的核心部件,提出一种可用于卷积神经网络加速的运算单元,并完成其硬件代码的设计。通过对单个运算单元进行功能拓展,实现运算单元矩阵的应用。在搭建的功能验证环境下,对设计进行仿真,并将仿真值与理论值进行比对,完成运算单元及其矩阵的功能验证。仿真结果表明,单个运算单元能有效完成卷积神经网络中卷积、池化和全连接等运算,运算单元矩阵可极大地提升图像处理的速度。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

加速运算论文参考文献

[1].孙燕齐,鄢楚平.基于虚拟FPGA的数据库运算加速装置设计[J].信息技术.2019

[2].江凯,刘志哲,修于杰,田映辉,赵晨旭.基于卷积神经网络加速运算单元设计[J].计算机工程与设计.2019

[3].方宁,曹卫兵,倪冬鹤,狄冠东.基于Android平台并行运算机制的密码运算加速方案[J].网络与信息安全学报.2019

[4].唐坤杰,董树锋,宋永华.一种GPU-CPU异构运算框架加速的实时N-1交流潮流计算方法[J].中国电机工程学报.2018

[5].刘绍婷,王晓凯,郭大波.连续变量量子密钥分发数据协调加速运算的GPU实现[J].通信学报.2017

[6].张岩.CPU-OpenMP和GPU-CUDA并行计算技术对矩阵乘法运算的加速效果分析[J].科技视界.2017

[7].黄洁.基于CUDA的R语言基本运算并行加速软件包开发、优化与应用[D].北京邮电大学.2016

[8].白玉.基于区间运算的测试用例生成加速技术研究[D].北京邮电大学.2016

[9].赵汉理,孟庆如,金小刚,黄辉,王明.硬件加速的渐进式多边形模型布尔运算[J].计算机辅助设计与图形学学报.2015

[10].张琦,钟握军.量子并行运算加速能力的研究[J].河南科技.2014

标签:;  ;  ;  

加速运算论文-孙燕齐,鄢楚平
下载Doc文档

猜你喜欢