期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《山东科技大学学报(自然科学版)》2021,(4)

面向高性能计算领域的多核、众核处理器飞速发展,为了降低并行编程的难度,提高并行计算效率,数据驱动的并行编程模型成为高性能计算领域的研究热点。AceMesh是数据流驱动的、支持多核和众核异构平台的任务并行编程模型,能自动发掘结构化网格应用中存在的数据驱动的任务图并行性。但如果任务粒度划分较细,其构图过程会造成很大开销。本研究结合"申威26010"异构众核处理器的结构特点,从主、从核通信优化、内存池、无后继任务收集等方面对AceMesh构图过程进行优化,并采用航天飞行器应用中的7个热点子程序对优化效果进行测试。测试数据表明以上优化取得5倍的加速。为验证构图优化对AceMesh整体性能的提升,对航天飞行器应用分别在Acemesh和神威OpenACC的加速效果进行了测试,优化后的AceMesh加速效果约为神威OpenACC的1.5倍。相似文献

2.

“神威·太湖之光”上Tend_lin并行优化

傅游王坦郭强高希然《山东科技大学学报(自然科学版)》2019,(2)

大气环流模式是中科院地球系统模式中最为复杂的模式,在当前主流的众核异构平台上开展大气环流模式的众核并行化是高性能计算的热点研究问题。针对AGCM4.0热点程序动力框架的适应过程Tend_lin,利用神威OpenACC编程模型在"神威·太湖之光"高性能计算平台上实现并行化,并从循环分布、循环分块、数据传输的表达、函数调用的从核化等方面提升应用性能。详细讨论了不同场景下的数据传输表达,对比测试了不同分块尺寸对程序性能的影响。相比主核串行,两种测试规模下,Tend_lin应用的单核组多线程并行均获得6倍以上的加速;且随着应用分辨率的扩大,众核处理器的性能得到更好发挥,在C规模下,多进程获得了69倍的全应用加速。相似文献

3.

一种面向雷达应用可重构系统中的数据缓存结构和管理机制

刘波王晓彤张冬明葛伟琪《上海交通大学学报》2017,51(5):628

针对面向雷达应用可重构系统中数据访存冲突严重、访存效率低等问题,设计了一种片上层次化缓存结构,并提出基于多存储体的线性步长可变的数据管理机制,通过建立计算阵列与各个存储体之间可配置的逻辑映射关系,有效降低了多个计算阵列并行工作时产生的访存冲突,提高了计算阵列的数据吞吐率,从而提高了可重构系统的数据访存性能.结果表明,该方案在有效控制硬件开销的同时,极大地提升了可重构系统的数据访存性能,以256~64×210快速傅里叶变换为例,与经典并行缓存机制相比,可重构系统的数据访存性能提升了26.09%~54.60%. 相似文献

4.

一种基于GPU的二维离散多分辨率小波变换加速方法

刘磊张子佳刘雷张睿《吉林大学学报(理学版)》2015,53(2):267-272

针对传统CPU平台下小波变换算法难满足当前高分辨率、大数据规模下的实时性要求, 提出一种基于GPU的并行小波变换算法, 并通过改善Local Memory访存数据的局部性和增加Global Memory访存带宽的优化技术, 利用多Kernel并行提高多种分辨率下小波变换的性能. 实验结果表明, 与CPU串并行版本相比, GPU并行优化算
法在高分辨率变换情况下, 加速比最高可达30~60倍, 可满足对变换实时性的要求. 相似文献

5.

CPU-GPU系统中基于剖分的全局性能优化方法 总被引：1，自引：0，他引：1

张保董小社白秀秀曹海军刘超梅一多《西安交通大学学报》2012,(2):17-23

针对将应用移植到CPU-GPU异构并行系统上时优化策略各自分散、没有一个全局的指导思想的问题,提出了一种基于剖分的全局性能优化方法.该方法由优化策略库、剖分工具库和策略配置模块组成.优化策略库将应用移植到异构并行系统上的性能优化过程划分为访存级、内核加速级和数据划分级3级优化;针对3级优化剖分工具库提供了3级剖分机制,通过运行时的剖分技术获取剖分信息;策略配置模块根据所获取的信息指导用户在每级优化中选择合适的优化策略.实验证明,基于剖分的全局性能优化方法可以明确地指导将应用移植到CPU-GPU异构并行系统上的全局优化过程,利用该优化方法后,以矩阵相乘和傅里叶变换为例的应用性能提升明显,最终性能相对于访存级优化最高可提高30%左右. 相似文献

6.

异构多核处理器多发射动态调度技术研究

唐旭张多利王杰宋宇鲲《合肥工业大学学报(自然科学版)》2023,(5):632-640

随着多核处理器片上集成核数的不断增多，并行任务的调度能力越来越成为制约性能提升的关键因素。文章设计一种面向异构多核计算系统的动态任务调度控制器，主要实现动态监控处理单元的负载情况、动态任务唤醒、乱序任务发射、任务写回安全管理等功能；研究一种降低计算任务结果数据回写双倍数据速率(double data rate, DDR)外存储器次数的方法，大幅节省了访存开销，进一步提升了计算性能。仿真及性能测试显示，在典型应用场景下，与已有的无动态调度功能的任务发射控制器相比，实现了显示并行化编程向任务并行的自动化控制过渡，编程友好度显著提高，在不同类型的测试案例中，分别提升了11.3%～37.9%的计算性能。相似文献

7.

孤东七区西油藏大规模并行模拟应用研究 总被引：1，自引：0，他引：1

杨耀忠曹建文戴涛潘峰韩子臣《中国科学技术大学学报》2004,34(Z1):161-167

针对特高含水期油藏精细挖潜的需求,应用流行的Newton-Kry1ov-Schwarz非线性问题求解算法及SPMD并行模式,充分考虑了国产神威计算机的结构特点,解决了处理器间数据通讯、I/O优化等技术瓶颈,有效地提高了软件的并行能力.应用改进的神威版并行软件对孤东七区西油藏模型应用神威机上4、8、16、32、64、80、96、128个CPU开展并行计算,在保证模拟精度的条件下,优化出了最优加速比所需的CPU个数,并对影响加速比的因素进行了深入研究. 相似文献

8.

开放式计算语言加速的分段前缀和并行算法

肖汉李彩林郭宝云周清雷《科学技术与工程》2019,19(31):215-221

针对数值计算中前缀和运算数据量大、耗时巨大这一难题,提出了一种基于开放式计算语言（Open Computing Language,OpenCL）的分段式前缀和并行算法。首先进行了分段式前缀和算法的并行性分析,对任务进行了层次化分解与组合,设计了两级并行的分段式前缀和算法;然后通过OpenCL编程将前缀和并行算法映射到CPU+GPU系统平台上,实现了层次化并行前缀和处理;最后,根据计算单元（Compute Unit,CU）的资源条件,增加CU中本地存储器的分配,通过改进工作节点的访问模式来降低bank冲突,提高访存速度。实验结果表明,与基于AMD Opteron 2439 SE CPU的串行算法、基于OpenMP（Open Multi-Processing）并行算法和基于统一计算设备架构并行算法性能相比,前缀和并行算法在OpenCL架构下NVIDIA Tesla C2075计算平台上分别获得了33.51倍、6.26倍和2.41倍的加速比。验证了提出的并行优化方法的有效性和性能可移植性。相似文献

9.

MPP上的并行松弛迭代算法

陈妹陈云霞殷新春周解《中国科学技术大学学报》2002,32(6):732-737

讨论了松驰迭代算法在大规模并行处理机（massively parallel processor，MPP）计算模型上的并行化，给出了在MPP上的并行算法。该算法将计算近似解向量各分量值的时间错开，从而使各个分量的迭代计算可并行进行。对算法性能进行的分析和在大规模并行处理机系统曙光2000中对算法进行的计算均表明：并行松驰迭代算法具有较好的收敛速度、较高的加速比和可扩放性。相似文献

10.

基于GPU的高光谱遥感岩矿信息快速提取方法 总被引：2，自引：0，他引：2

柳家福吴泽彬刘天石韦志辉王启聪《中国科技论文在线》2014,(10):1137-1143

提出了基于图形处理单元（graphics processing unit,GPU）的高光谱岩矿信息快速提取方法,利用GPU的并行计算优势对高光谱岩矿信息提取的核心步骤进行了并行优化设计。针对高光谱岩矿信息提取的算法特点,提出了相应的性能优化策略,包括优化算法流程、提高访存效率和减少数据访问冲突。实验结果表明,并行设计模型与优化方法能够快速有效地进行岩矿信息提取,并且最大加速比达到了81倍。相似文献

11.

基于切比雪夫距离的支撑点选择算法的并行优化研究

陶顺安李强尚小敏周全张璁《青岛大学学报(自然科学版)》2023,(4):41-45+53

求解切比雪夫距离的支撑点选择算法中，由于计算量较大，如何快速判断支撑点的优劣是一个难以解决的问题，为此，提出一套以切比雪夫距离为目标函数的快速支撑点优选策略。通过并行化分析找出相对独立的计算任务，使用OpenMP对支撑点的选择并行化处理；为降低算法层面的时间复杂度，将切比雪夫距离转化为曼哈顿距离，减少了总体计算量；采用多线程的方法对目标函数值的排序环节进行总体重构，避免了无意义的访存开销。实验结果表明，相比传统方法，支撑点优选算法具有较为明显的加速效果，加速比达到了174.62,并解决了算法的数据依赖问题。相似文献

12.

一种利用Spark-GPU加速 CT图像重建的设计

熊威曾有灵李喆《暨南大学学报(自然科学与医学版)》2019,40(6)

目的:进一步解决CT图像重建耗时长的问题,实现大批量重建CT图像.方法:利用大数据框架Spark构建GPU集群.首先对加速滤波反投影(FBP)和同时代数迭代重建技术(SART)算法的复杂度进行分析及并行化设计,并比较在GPU和CPU上的运行速度.通过对比耗时选择最佳的计算组合,实现单机GPU加速.通过thunder工具读取批量的投影数据并创建分布式数据集,使用Numba开发CUDA程序并部署在Spark运行.结果:FBP算法运行速度有近40倍的提升,SART算法运行速度有近10倍的提升.结论:Spark和GPU结合能够扩展Spark的性能,突破单机加速瓶颈,大幅提升计算速度,对于不同的图像重建算法均有良好的加速效果,表明Spark-GPU在图像重建方向有良好的应用前景. 相似文献

13.

利用访存模式构建GPU高效率数据访问

《延安大学学报(自然科学版)》2020,(3)

针对访存相对密集的应用,提出了一种基于访存模式高效率数据访问技术。该技术结合应用程序的访存特性和GPU的片上高速共享存储器特性减少应用程序对高延迟片外存储访问的次数从而提高系统数据访问的效率,通过在不同架构的GPU上进行了验证,分别取得了N卡最高9倍和A卡最高8倍的加速效果,并对各个优化策略在不同架构GPU上取得效果的原因进行了分析。相似文献

14.

基于图形处理器加速的叶轮机流场数值模拟研究

张翔黄秀全《科学技术与工程》2013,13(11):3195-3199

近年来,图形处理器(GPU)已经逐渐发展成一种能够满足通用计算的多核心细粒度并行化的处理器,它往往能够提供10倍于CPU的浮点计算能力和更高的存储带宽,在其上开发计算流体力学(CFD)求解器正成为一种趋势。通过采用Jameson有限体积中心差分格式和四步Runge-Kutta时间推进法求解圆柱坐标系下的三维定常欧拉方程来模拟叶轮机械内部流场,并将原有运行在CPU上的代码移植到GPU上。通过比较,获得相同的流场计算结果;在运行速度上,获得了一个数量级的提升。相似文献

15.

阵列处理器分布式存储的簇内全访问结构设计

蒋林刘鹏山蕊刘阳《西安科技大学学报》2018,(4)

采用分布式存储结构来解决阵列处理器片内访问延迟等"存储墙"问题已经成为研究主流。针对阵列处理器中分布式存储簇内互连问题,设计了一种电路结构简单、使用效率高和延迟低的簇内全访问电路结构,实现了簇内16个处理单元对存储单元的并行访问。实验结果表明,在无冲突情况下,最高频率达223 MHz,访问峰值带宽可达7.42 GB/S.测试结果表明,相比于行列交叉互连结构,全访问结构具有更小的访问延迟。通过对256×256和512×512边缘检测canny算法在该结构上进行并行化实现和性能比较发现,相比于CPU+GPU结构的处理时间,加速比分别提升了2.84倍和2.91倍。相似文献

16.

一种基于可编程逻辑器件的卷积神经网络协处理器设计

杨一晨张国和梁峰何平吴斌高震霆《西安交通大学学报》2018,(7)

针对大数据时代下深层次大规模深度学习网络模型在预测中对运算资源和访存带宽需求指数的增长,以及业界传统CPU+GPU解决方案难以应用于日益普遍的移动嵌入式应用场景等问题,提出了一个基于可编程逻辑器件(FPGA)的卷积神经网络协处理器异构加速设计方案。该方案采用通用模型设计思想,具有可编程性,并且能够兼容多种网路模型从而实现硬件加速;方案具有可扩展性,可在硬件资源允许的范围内进行多核扩展以获得性能翻倍提升。利用硬件的并行性,数据的复用性设计的卷积运算模块提高了硬件资源利用率及运算效率;合理配置的多级缓存结构降低了协处理器对外部存储器读写频率和带宽的占用率,提升了模块内部的通信效能。在XILINX VC707评估板的上板进行实验,结果表明,MNIST-LeNet测试集的准确率高达99%,CIFAR-10可实现80%,浮点运算速度为5.511×1010 s-1,综合性能约两倍于Intel Xeno E5-2640V4服务器通用处理器,达到同期FPGA解决方案的主流水平。相似文献

17.

一种基于FPGA的卷积神经网络协处理器设计

杨一晨张国和梁峰何平吴斌高震霆《西安交通大学学报》2018,(7)

针对大数据时代下深层次大规模深度学习网络模型在预测中对运算资源和访存带宽需求指数的增长,以及业界传统CPU+GPU解决方案难以应用于日益普遍的移动嵌入式应用场景等问题,提出了一个基于FPGA可编程逻辑器件的卷积神经网络协处理器异构加速设计方案。该方案采用通用模型设计思想,具有可编程性,并且能够兼容多种网路模型从而实现硬件加速;方案具有可扩展性,可在硬件资源允许的范围内进行多核扩展以获得性能翻倍提升。利用硬件的并行性,数据的复用性设计的卷积运算模块提高了硬件资源利用率及运算效率;合理配置的多级缓存结构降低了协处理器对外部存储器读写频率和带宽的占用率,提升了模块内部的通信效能。在XILINX VC707评估板的上板进行实验,结果表明,MNIST测试集的准确率高达99%,CIFAR10可实现80%,运算峰值能力为55.11 GFLOPS,综合性能约两倍于Intel Xeno E5-2640 V4服务器通用处理器,达到同期FPGA解决方案的主流水平。相似文献

18.

基于MapReduce的中文词性标注CRF模型并行化训练研究 总被引：1，自引：0，他引：1

刘滔雷霖陈荦熊伟《北京大学学报(自然科学版)》2013,49(1):147-152

针对条件随机场模型面对大规模数据传统训练算法单机处理性能不高的问题, 提出一种基于MapReduce框架的条件随机场模型训练并行化方法, 设计了条件随机场模型特征提取及参数估计的并行算法, 实现了迭代缩放算法的并行。实验表明, 所提出的并行化方法在保证训练结果正确性的同时, 大大减少了训练时间, 效率得到较大提升。相似文献

19.

基于内外两级并行的多通道闪存存储系统设计 总被引：1，自引：0，他引：1

秦国杰谢民高梅国傅雄军刘国满《北京理工大学学报》2013,33(8):841-847

针对单片闪存存取速率低、存储容量小的问题,根据对NAND型闪存存取带宽影响因素的分析,提出了一种多通道闪存存储系统结构,同时采用通道间流水和通道内交织两级并行访问方法提高存储系统吞吐量,推导出了通道内外并行多通道存储系统的存取带宽计算公式. 此外,通过给出的系统并行加速比公式,对影响系统并行加速性能的原因进行了分析. 设计和实现了以该系统模型为核心的多通道闪存存储模块,验证了两级并行方法的可行性和有效性. 相似文献

20.

面向媒体处理可重构系统中数据缓存结构和缓存管理策略优化

刘波肖建曹鹏杨苗苗《东南大学学报(自然科学版)》2014,(6):1149-1154

研究并提出了一种基于二维访问机制的数据缓存结构(2D Cache)及其更新管理策略.该缓存结构可以在控制硬件存储开销的同时,有效提升可重构系统的数据访存效率.实验结果表明,仅需4 KB的数据缓存开销,可重构系统的访存性能提升了29.16%~35.65%,并且对于不同标准的媒体处理算法都能获得较好的优化效果,具有很好的适应性.芯片实测结果表明,采用所述数据缓存设计方案的可重构系统可以在200 MHz下满足1080p@30fps的实时解码需求,与国际同类架构相比,性能提高了1.8倍以上. 相似文献