线程级并行性论文-李兵

线程级并行性论文-李兵

导读:本文包含了线程级并行性论文开题报告文献综述及选题提纲参考文献,主要关键词:CMP体系结构,子集和,线程划分,数据分配

线程级并行性论文文献综述

李兵[1](2015)在《CMP结构下基于Cache感知线程级并行优化研究》一文中研究指出多核时代的到来,处理器的运算能力得到了很大的提升.但由于处理器和主存之间的发展速度的不均衡,“存储墙”的问题越来越严重,成为影响系统性能的瓶颈。在多核体系结构下,多级存储器的出现缓解了这种压力。在典型的CMP(Chip Muti-Processors)体系结构中,多个核共享Cache,不但改善了存储的性能,而且减小了硬件的使用面积。但在此结构下,由于Cache空间小,多个线程共享Cache,将会造成对Cache空间的竞争,使得共享线程的Cache缺失数增加,对系统的性能是非常不利的。本文的主要工作如下:(1)Cache缺失数是衡量系统访存性能的重要指标,为了有效的利用Cache空间,本文通过收集各个线程的访存信息,使得共享线程的Cache空间的需求总和与共享Cache的空间大小相等并合理的划分线程组,在此问题上本文首先将线程的划分模型抽象为求解子集和的问题,并用快速求解子集和的方法求解子集,将其运用到本文的线程优化划分算法TOP(Thread Optimization Partition)中,获得优化的线程组,减少Cache的缺失数。最后通过simple-scalar仿真工具收集线程的数据信息,执行本文的划分算法,实验结果表明,本文提出的线程划分的优化算法(TOP)在程序的总的缺失数百分比相比贪婪的线程划分算法greedy平均减少了17.48%,相比于随机的线程划分算法Random平均减少了 14.26%。(2)在已划分的线程组的基础上,分析线程上的数据在程序执行时访存信息,建立数据分配的执行模型,通过一个实例分析并定义本文多核的数据分配问题,以此来描述线程上的数据优化分配,通过本文提出的多核结构下贪婪数据分配算法(M_GDA)和多核的动态规划算法M_DPA对数据进行优化分配,使得同时执行的线程的访存时间最短,减小程序执行时访存时间。最后在本文的数据分配优化模拟器上运行了 10个标准的benchmark测试程序来进行验证。实验结果表明,通过多核的动态规划算法(M_DPA)对数据进行优化分配后的访存开销相较于随机数据分配算法(Random)平均提高了 16.11%,相较于多核贪婪数据(M_GDA)分配算法的访存开销提高了 14.08%,在能量开销上相较于随机数据分配算法提高了28.02%,相较于贪婪数据分配算法提高了 14.40%。(本文来源于《湖南大学》期刊2015-05-17)

赵建斌,李灵巧,杨辉华[2](2011)在《线程级并行计算在图形渲染引擎中的研究》一文中研究指出针对并行计算技术在当前图形渲染系统中应用层面较浅的问题,为提高多核平台下图形应用程序CPU利用率,提出了一种新的Fork-Join多线程渲染方案。对当前流行的开源图形渲染引擎——OGRE引擎的渲染框架进行了多线程优化,用OpenMP方法对图形引擎的逻辑帧实现并行化,根据Win32线程库和DirectX11的多线程支持提出了一种渲染帧并行化方法,并将其应用于图形引擎。在多核平台上的实验结果表明,该方案能有效提高渲染速率和CPU利用率,改善CPU负载均衡。(本文来源于《计算机工程与设计》期刊2011年12期)

柯琦,钟诚,李智,王刚强[3](2010)在《多核计算机上最大和子序列线程级并行算法》一文中研究指出充分利用多核处理器的多级缓存以减少在求最大和子序列时访问主存的次数和缓存缺失;采用数据分块技术,使每个处理核心的负载平衡;采用增加元素存储间隔来避免多个线程读写缓存行冲突的方法,设计了一个多核多线程最大和子序列并行算法。多核计算机上的实验结果表明,与已有的最大和子序列并行算法相比,本文给出的算法更加高效并且可扩展。(本文来源于《全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集》期刊2010-08-20)

韦伟,冯佩,柯琦,林瑞,钟诚[4](2009)在《多核机器上线程级并行加解密数据库数据方法》一文中研究指出利用数据划分思想和多线程技术,提出一种加解密数据库数据的方法并用实验来检验方法的有效性。该方法使用3-DES密码算法,参考资源调度策略与划分机制,在多核计算机系统上对数据库中待加解密的数据进行划分,并利用多线程并行技术对数据进行加解密处理。实验结果表明,多核多线程并行方法能够显着地加快数据库数据加解密速度。(本文来源于《广西科学院学报》期刊2009年04期)

韦伟,冯佩,柯琦,林瑞,钟诚[5](2009)在《多核机器上线程级并行加解密数据库数据》一文中研究指出多核处理器已成为当今主流微处理器,它提供更强的并行处理能力。通过分解二维数据库表,运用多线程技术,在多核计算机上设计实现线程级并行加解密数据库数据算法。处理核数和线程数组合的实验结果表明,多核多线程并行技术能显着加快数据库加解密速度。(本文来源于《广西计算机学会2009年年会论文集》期刊2009-09-19)

周昔平,高德远,樊晓桠,张盛兵,徐邦海[6](2006)在《网络处理器的线程级并行技术研究》一文中研究指出线程级并行技术能有效的提高微处理器内核的资源利用率,是目前高性能微处理器研究的重点内容。文章分析了网络处理器的线程级并行技术中存在的几个关键问题,结合网络协议处理的特征提出了一种适合于网络协议处理的混合多线程结构。并将其成功应用于网络协议处理微引擎NRS05的设计中,最大程度的提高了网络处理器的分组吞吐率。(本文来源于《微电子学与计算机》期刊2006年07期)

董立平,胡苏太[7](2006)在《创新型多核处理器的发展》一文中研究指出仅靠扩充目前占主流的超标量和VLIW技术,要实现新一代处理器是十分困难的,其中一个主要原因是布线延迟问题。随着芯片制造技术的发展,一个时钟周期中信号在芯片内所能传输的范围越来越小。特别当未来采用35纳米以下设计技术时,在一个时钟周期内信号所能传输的范围仅(本文来源于《计算机世界》期刊2006-06-05)

朱霞[8](2003)在《线程级并行的硬件技术研究》一文中研究指出本文受到国防十五预研课题的资助,研究高性能微处理器系统结构,在国内率先研究并设计了32位嵌入式微处理器ARMP (Aviation microelectronics center RISC MicroProcessor)。该处理器具有自主版权,采用自主设计的流水线结构进行控制,具有优良的实时性和精确中断的特点,在指令集上与PowerPC 603e指令集完全兼容。该处理器目前正在进行后端设计,即将采用0.25μm CMOS工艺流片,整个处理器的晶体管数目为380万,封装形式是QFP240,Die面积为98mm~2。 为了对今后的微处理器设计提供技术储备,本文深入了解国内外目前最先进的微处理器系统结构研究工作,明确了该领域研究的发展方向和研究难点。目前微处理器系统结构设计已经进入线程级并行的时代。多份硬件现场共享一组执行单元的多线程处理器能灵活地利用程序中的指令级并行和线程级并行,从而提供更好的性能。2002年2月Intel公布其在Intel(?) Xeon~(TM)处理器上使用了超线程技术~([MBHH+02]),表明Xeon~(TM)处理器本质上是两份硬件现场共享一组处理器执行单元的多线程处理器。 在这种背景下,本文研究支持线程级并行的硬件技术,尤其是执行单元为超标量结构的多线程处理器。 首先,在设计的嵌入式微处理ARMP的基础上进行改进,提出了一个超标量处理器模型,用于多线程处理器系统结构的研究与验证。 其次,指令发射逻辑是超标量处理器中的关键路径,也是制约执行单元为超标量结构的多线程处理器主频提高的关键因素。本文提出了两种新的发射逻辑方案,使之更适合多线程处理器。其中,IET(Issue Enable Table)发射使能表方案,能及时得到操作数准备好信息,从而有效减少发射逻辑中进行相联比较的比较器数目,并能减少发射逻辑的功耗;另一种是EDM(Effective Dependence Matrix)高效相关阵列方案,能有效减少发射逻辑的线延时。此外,本文还提出了基于前导1计算的发射队列表项分配方案,该方案能够提高多线程处理器中发射队列表项的利用率。 再次,目前的高性能微处理器都采用转移预测来解决控制相关。在执行单元为超标量结构的多线程处理器中,转移误预测损失会随着指令发射带宽和流水线级数的增加而增加。这使得高效地控制流处理成为微处理器系统结构设计的重要问题之一。本文提出多线程处理器的选择性双路径执行方案(Selective Dual Path Execution)。使用置信度评估方案来判断转移预测结果正确的概率,即转移预测的可信度。选择在多线程处理器中有空闲的硬件现场,并且置信度评估方案判断当前的转移预测为低置信度时,双路径执行转移指令的两个目标路径,从而降低西北工业大学博士学位论文误预测损失。 为了得到适合选择性双路径执行的置信度评估方案,本文对提高处理器性能的转移预测进行深入研究,并根据误预测集群性,提出了新的置信度评估方案一一DCR(Deerease Constant or Reset)方案。DCR方案相对国际上现有方案能有效提高转移误预测被标识为低置信度的概率(由SPEC参数表示),同时能提高标识为低置信度的转移预测最终结果确实错误的概率(由PVN参数表示)。与国际上最新提出的置信度评估MDC方案比较,DCR方案中SPEC值和PVN值的提高分别为151.8%和42.19%。 本文采用DCR置信度评估方案指导选择性双路径执行时的路径创建,接着设计了选择性双路径执行的标一记符,提出了选择性双路径执行的系统结构,并详细分析了选择性双路径执行的实现策略。 本论文在进行各种理论和设计方法分析的同时,还针对采用的设计方法和提出的算法进行了大量的仿真工作,验证了正确性,其结果是令人鼓舞的,也为进一步研究打下了良好的基础。(本文来源于《西北工业大学》期刊2003-05-01)

线程级并行性论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

针对并行计算技术在当前图形渲染系统中应用层面较浅的问题,为提高多核平台下图形应用程序CPU利用率,提出了一种新的Fork-Join多线程渲染方案。对当前流行的开源图形渲染引擎——OGRE引擎的渲染框架进行了多线程优化,用OpenMP方法对图形引擎的逻辑帧实现并行化,根据Win32线程库和DirectX11的多线程支持提出了一种渲染帧并行化方法,并将其应用于图形引擎。在多核平台上的实验结果表明,该方案能有效提高渲染速率和CPU利用率,改善CPU负载均衡。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

线程级并行性论文参考文献

[1].李兵.CMP结构下基于Cache感知线程级并行优化研究[D].湖南大学.2015

[2].赵建斌,李灵巧,杨辉华.线程级并行计算在图形渲染引擎中的研究[J].计算机工程与设计.2011

[3].柯琦,钟诚,李智,王刚强.多核计算机上最大和子序列线程级并行算法[C].全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集.2010

[4].韦伟,冯佩,柯琦,林瑞,钟诚.多核机器上线程级并行加解密数据库数据方法[J].广西科学院学报.2009

[5].韦伟,冯佩,柯琦,林瑞,钟诚.多核机器上线程级并行加解密数据库数据[C].广西计算机学会2009年年会论文集.2009

[6].周昔平,高德远,樊晓桠,张盛兵,徐邦海.网络处理器的线程级并行技术研究[J].微电子学与计算机.2006

[7].董立平,胡苏太.创新型多核处理器的发展[N].计算机世界.2006

[8].朱霞.线程级并行的硬件技术研究[D].西北工业大学.2003

标签:;  ;  ;  ;  

线程级并行性论文-李兵
下载Doc文档

猜你喜欢