首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
程序自动并行化系统   总被引:23,自引:10,他引:23       下载免费PDF全文
朱传琪  臧斌宇  陈彤 《软件学报》1996,7(3):180-186
有效的自动并行化系统能帮助用户充分地利用并行计算机资源.本文介绍了自动并行化的历史及现状,并着重介绍了作者所开发的自动并行化系统AFT(automaticFortrantransformer)及其特色和所用的关键技术.测试结果表明AFT系统在功能上已超越了传统的自动并行化系统.  相似文献   

2.
陆申明  左志强  王林章 《软件学报》2020,31(5):1243-1254
静态程序分析发展至今,已在多个方面取得了长足的进步,应用于软件开发的众多方面.但对现代大规模复杂软件系统(如千万行代码规模的Linux操作系统、分布式大数据处理系统Hadoop等)进行高精度的静态分析,因其极大规模数据量的计算,仍有一定难度.精度、效率和可扩展性相互制约,是静态分析技术在工业界应用的主要障碍.对此,近年来,随着多核、众核架构的兴起,研究人员提出了静态分析的各种并行化解决方案.首先梳理了静态分析的发展历程,然后针对当前静态分析面临的挑战,在分析了传统算法优化研究的不足后,对利用硬件资源进行并行优化的方法进行了充分讨论,包括单机的CPU并行、分布式和GPU实现这3个方面;在此基础上,对一些使用较为广泛的支持并行的静态分析工具进行了评估;最后,对未来如何从算法和算力角度对静态分析进行并行优化作了讨论和展望.  相似文献   

3.
容红波  汤志忠 《软件学报》2000,11(12):1648-1655
提出扩展选择调度,统一处理循环和非循环代码,对它们不加区分但却分别产生软件流水和全局压缩的效果;程序并行化不需要分层简化,只要顺序扫描一遍即可.该方法打破了有环调度和无环调度的界限,是一种基于一般图而不是路径或有向无环图的全局调度算法.它从一个全新的角度来看待多重循环,通过恰当地计算可用集合和活变量集合,实现了多重循环的直接调度,对任意控制流程序都是适用的.  相似文献   

4.
该文介绍了大规模并行处理系统程序自动并行化工具FAX(FortranAutomatedXlator)的系统概况。重点阐述了FAX中所采用的先进技术。测试结果表明,FAX已具备一定的可用性及有效性,作为面向分布主存并行机系统的程序自动并行化工具,基本达到了设计目标。  相似文献   

5.
程序自动并行化工具FAK   总被引:1,自引:0,他引:1  
该文介绍了大规模并行处理系统程序自动并行化工具FAX(Fortran Automated Xlator)的系统概况。重点阐述了FAX中所采用的先进技术。测试结果表明,FAX已具备一定的可用性及有效性,作为面向分布主存并行机系统的程序自动并行化工具,基本达到了设计目标。  相似文献   

6.
<正> §1 研究背景向量化和并行化本来是巨型机的特色,随着超大规模集成电路,芯片处理机的出现。中小型机和大型机厂商纷纷向向量机和多机系统进军。形成了“小型巨型机(Minisupercomputer)”、“多机系统”等许多新颖的系统结构。据报导:DEC 公司  相似文献   

7.
基因序列拼装是分子生物研究的重要环节之一。随着DNA序列的快速增长,如何提高基因序列拼装的速度,成为当前基因组研究的重要问题。为充分利用SMP以及集群的资源,在找出Phrap程序的瓶颈后,分别在SUNEnterprise3500及集群上将串行的Phrap程序进行了并行化。论文论述实现并行拼接程序的机理和性能。  相似文献   

8.
程序并行化中的强化别名分析   总被引:2,自引:0,他引:2  
  相似文献   

9.
MPP Fortran是Cray公司为分布存储、全局编址的Cray T3D MPP系统推出的一种数据并行语言。本文首先介绍了MPP Fortran的主要特点,然后以该语言为例,对面向MPP系统程序自动并行化的基本内容以及关键技术进行了分析和探讨。  相似文献   

10.
针对并行处理的热点问题,本文分析了面向CFD的程序自动并行化工具APFC。APFC实现了数组共享变量的识别和相关性分析,能够自动搜索贴内同步和通信点,并自动生成并行划分后的节点源程序。经APFC处理的程序有很好的可移植性和较高的并行效率。  相似文献   

11.
针对并行处理的热点问题,本文介绍了面向CFD的程序自动并行化工具APFC。APFC实现了数组共享变量的识别和相关性分析,能够自动搜索帧内同步和通信点,并自动生成并行划分后的节点源程序。经APFC处理的程序有很好的可移植性和较高的并行效率。  相似文献   

12.
商业CFD程序已广泛应用于反应堆的热工水力模拟,但不能完全满足反应堆的应用需求;开源CFD程序有部分应用,但与商业CFD程序相比,在物理模型全面性、计算精度、计算效率及易用性等方面仍存在差距。为更好地满足局部精细热工水力分析的需求,需要更全面的物理模型、较高的计算精度和较好的并行计算效率,因此有必要开发自主热工CFD程序。详细描述了热工流体力学并行应用程序YH-ACT的设计、实现方案以及测试结果。选取3个典型案例,通过与典型商业软件Fluent计算结果进行对比验证软件正确性, 程序并行计算规模达到400个结点共9 600个进程,稳态计算加速比为111.7,并行效率为27.9%,瞬态计算加速比为37.2,并行效率为9.3%。  相似文献   

13.
随着多核处理器的出现和迅速发展,将以前经典的串行程序并行化,更好地利用多核体系结构提高其性能,成为了当前多核处理器应用研究值得关注的-个问题.以并行化光线跟踪程序PBRT为例,深入研究了串行程序并行化中的并行模型的设计与实现、正确性验证,以及并行化后的性能优化等问题.优化后的并行PBRT取得了4个线程时近3.5倍的加速比,证明了所给出的并行化及性能优化有良好的效果.  相似文献   

14.
程序自动并行化系统中IR的面向对象设计   总被引:3,自引:0,他引:3  
从构造一个高性能的程序自动并行化系统的需求出发,介绍了程序自动并行化系统AGASSIZ中IR(IntermediateRepresentation)的设计原则与设计方法,阐明了此种IR的设计给整个程序自动并行化系统的设计所带来的便利。  相似文献   

15.
随着多核处理器的出现和迅速发展,将以前经典的串行程序并行化,更好地利用多核体系结构提高其性能,成为了当前多核处理器应用研究值得关注的一个问题。以并行化光线跟踪程序PBRT为例,深入研究了串行程序并行化中的并行模型的设计与实现、正确性验证,以及并行化后的性能优化等问题。优化后的并行PBRT取得了4个线程时近3.5倍的加速比,证明了所给出的并行化及性能优化有良好的效果。  相似文献   

16.
三维激光烧蚀流体界面不稳定性程序的并行化   总被引:1,自引:0,他引:1  
在共享存储并行机和MPP并行机上,基于MPI(MessagePassingInterface)并行编程环境,本文研究三维激光烧蚀界而不稳定性程序(Lared-S)的并行实现.三维激光烧蚀的数值模拟采用分裂方法,其90%以上的计算负载存在于流体方程和热传导方程的求解(流体方程的求解采用分裂显格式,热传导方程的求解采用分裂隐格式).本文给出基于三维分裂格式的交替平面数据通信模式.分裂隐格式的求解转化为三对角方程组的求解,其并行实现采用块流水线并行算法.数值实验结果表明交替平面数据通信策略和块流水线并行算法是有效且可扩展的.在共享存储并行机上,应用64台处理机获得93%以上的并行效率;在MPP并行机上,应用128台处理机获得90%以上的并行效率.  相似文献   

17.
支持向量机算法是一种基于结构风险最小化原则上,尽量提高学习机的泛化能力,在处理小样本、非线性及高维模式识别问题有许多优势,但在解决大规模数据时,训练速度会变得缓慢,影响训练的效果。所以,本文在原有支持向量机实现方式上,利用类似级联方式,增加算法处理的数据规模,并且基于云计算平台,利用Map/Reduce机制实现算法过程,加快算法的训练速度。  相似文献   

18.
面向程序并行化的过程间相关分析以开发过程间大粒度并行性为目的,对它的研究无疑将具有非常重要的意义。然而这类并行性的开发又是困难的,它需要精确计算被调用过程的访问信息。本文从效率和精度角度出发对现有技术作了深入系统的分析和比较,并指出了它们所存在的优缺点。  相似文献   

19.
张瑜  黄波 《计算机工程》1999,25(11):5-7
从构造一个高性能的程序自行并行化系统的需求出发,介绍了程序自动并行化系统AGASSIZ中IR的设计原则与设计方法,阐明了此种IR的设计给整个程序自动并行化系统的设计所带来的便利。  相似文献   

20.
支持向量机(support vector machine, SVM)是一种广泛应用于统计分类以及回归分析的监督学习方法.基于内点法(interior point method, IPM)的SVM训练具有空间占用小、迭代趋近快等优点,但随着训练数据集规模的增大,仍面临处理速度与存储空间所带来的双重挑战.针对此问题,提出利用CPU-GPU异构系统进行大规模SVM训练的混合并行机制.首先利用计算统一设备架构(compute unified device architecture, CUDA)对基于内点法的SVM训练算法的计算密集部分并行化,并改进算法使其适合利用cuBLAS线性代数库加以实现,提高训练速度;然后利用消息传递接口(message passing interface, MPI)在集群系统上实现CUDA加速后算法的分布并行化,利用分布存储有效地增加所处理数据集规模并减少训练时间;进而基于Fermi架构支持的页锁定内存技术,打破了GPU设备存储容量不足对数据集规模的限制.结果表明,利用消息传递接口(MPI)和CUDA混合编程模型以及页锁定内存数据存储策略,能够在CPU-GPU异构系统上实现大规模数据集的高效并行SVM训练,提升其在大数据处理领域的计算性能和应用能力.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号