首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
由通用微处理器和专用加速器构成的异构并行系统比传统的同构系统显示出更高的性能和效能,目前已成为高性能计算领域的重要发展趋势。然而,编程问题成为限制异构系统发展的一大挑战,因此引起学术界和业界广泛关注。本文首先阐述了异构系统编程问题的来源;其次分析了近年来面向异构系统编程方法的研究工作,并对其进行分类;最后总结了异构系统编程方法未来的研究问题。  相似文献   

2.
异构并行编程模型研究与进展   总被引:1,自引:0,他引:1  
刘颖  吕方  王蕾  陈莉  崔慧敏  冯晓兵 《软件学报》2014,25(7):1459-1475
近年来,异构系统硬件飞速发展.为了解决相应的编程和执行效率问题,异构并行编程模型已被广泛使用和研究.从异构并行编程接口与编译/运行时支持系统两个角度总结了异构并行编程模型最新的研究成果,它们为异构架构和上层应用带来的技术挑战提供了相应的解决方案.最后,结合目前的研究现状以及异构系统的发展,提出了异构并行编程模型的未来方向.  相似文献   

3.
传统并行编程模型和框架不能有效利用和发挥GPU异构并行系统特点,应用开发难度大,性能优化困难,文中采用混合编程模型思想,建立了一种以协处理器为中心的GPU计算核心与CPU控制相融合的多任务流编程模型.模型将并行任务与CUDA流相结合,利用系统硬件并行性特点实现程序任务级和数据级并行;采用任务间消息通信和任务内数据共享通信方式,既保证对传统并行应用的继承又降低了不同存储空间给应用开发带来的复杂性和难度.基于该编程模型实现了一个运行时支持系统原型,测试结果表明可保证高效的数据通信,且能充分利用系统计算能力,提高了应用程序运行效率.  相似文献   

4.
UPPA:面向异构众核系统的统一并行编程架构   总被引:1,自引:0,他引:1  
  相似文献   

5.
论文运用XML的强大数据表达能力以及J2EE的反射以及Annotation编程来实现异构系统数据集成方式。该方式通过对原始结构代码进行简单的标记,将不同的数据结构串联起来。同时在转换的过程中将细节屏蔽起来并封装成标准接口,用户只需要将提供输入以及所需要的数据结构类型就可以方便地进行转换。最后论文给出集成系统详细的设计方法。  相似文献   

6.
随着生物信息学的不断发展,生物医学领域积累了大量的数据,大数据已经贯穿基础研究、临床诊断、医药开发、健康管理等生物医学领域的各个环节。如何有效存储、管理、分析这些海量数据面临严峻的而挑战。基于超级计算机的计算分析和存储能力,在生物医学大数据处理的异构融合架构,面向生物医学大数据的层次式存储系统,生物医学大数据处理的异构并行计算和多源数据的汇聚机制与分析方法,突破生物医学大数据的汇聚、存储、分析等方面的关键技术,构建一个计算、分析处理和存储融合平台,以满足多种类型生物医学大数据应用的不同需求。  相似文献   

7.
一种基于智能物体的物联网系统及应用开发方法   总被引:2,自引:0,他引:2  
随着普适计算和物联网技术的发展和应用,人们不断地把传感、效应、通信和计算能力嵌入到现实世界的人工物体中,使其更加智能化、自动化甚至协同地完成复杂的任务,这类能力得以增强的新型物体被称为智能物体或者智能对象.智能物体将成为物联网的基本构造单元,促进新型物联网应用的涌现.但是,基于智能物体开发物联网系统和应用面临着智能物体的动态性以及它们在固有功能、计算能力、网络接口等方面的异构性带来的挑战.为此,提出了一种智能物体交互机制和统一的编程抽象来支持基于智能物体的应用系统开发,实现了一个中间件系统来完成该交互机制和编程抽象,同时提供运行时支持.基于提出和实现的智能物体编程抽象,应用开发者可以容易地开发基于智能电视、智能空调、智能投影仪、智能电灯等设备的应用程序.应用举例和实验结果表明,利用基于智能物体的开发方法能够灵活有效地开发物联网应用.  相似文献   

8.
主从式单边异构体系结构的异构多核处理器广泛应用于面向专门应用领域的计算加速,如异构多核嵌入式处理器、DSP、SoC等;高性能的该类处理器也可用于一些大规模科学和工程计算问题的处理。主从式单边异构处理器对编程模型和编译技术提出了很多挑战性问题,如编程模型的选择、编程语言的设计、编译器架构设计以及运行库的设计等。本文分析了这一类处理器结构特点和执行模型,认为功能卸载模型是最适用于这一体系结构的编程模型;并分析了面向功能卸载模型的编程语言设计关键问题,提出了编译系统的架构,讨论了相应的运行库设计问题。  相似文献   

9.
当前GPU集群的主流编程模型是MPI与CUDA的松散耦合,采用这种编程模型进行编程,存在编程复杂度大、程序的可移植性差、执行效率低等问题。为此,提出一种面向通用计算GPU集群的任务自动分配系统StreamMAP。对编译器进行改造,以编译制导的方式提供集群任务的计算资源需求,通过运行时系统动态地发现、建立并维护系统资源拓扑,设计一种较为契合GPU集群应用特征的任务分配策略。实验结果表明,StreamMAP系统能降低集群应用程序的编程复杂度,使之较为高效地利用GPU集群的计算资源,且程序的可移植性和可扩展性也得到了保证。  相似文献   

10.
多流编程机制为异构众核加速器提供流水、资源划分等多种资源使用方式,但如何选择有效使用方式目前缺乏指导。基于异构众核处理器Intel MIC上的hStreams,提出了针对单应用多流程序多硬件分区执行的性能模型,分析不同配置下多流程序性能差异的原因,指出了影响多流程序性能的关键因素,提出多流程序划分优化策略,同时所提性能模型能够帮助判断算法实现的效果。实验结果表明,性能模型与多流配置实际测试结果误差小于1%,根据性能模型指导调优稠密矩阵乘的多流程序,比单流程序获得了5.83%的性能提升。  相似文献   

11.
提出了一种能量有效的具有范围选择的网络再编程协议.该协议首先根据要更新的应用程序、节点的剩余能量、有效度数和节点间的链路质量,选出合适的核心节点,创建虚拟骨干网.然后分两个阶段实现数据传输.在第一阶段软件影像由Sink节点通过流水线的方式,先传输给核心节点;在第二阶段由核心节点并行传输到需要的普通节点.有效地减少了参与再编程的节点数,节省了能量,实现了范围选择.另外,引进协调的睡眠机制,进一步降低节点的能量消耗.性能分析与仿真实验表明:与协议ThreeStages和Aqueduct相比,本协议节省了大约5.6%~24.8%的平均延时和5.1% ~27.7%的能量消耗.  相似文献   

12.
MPI(消息传递接口)作为一种著名的底层并行编程模型已被提出来作为网格编程的基础。描述了基于网格的消息传递接口的实现MPICH-G2,它基于MPICH和Gllobus工具包实现,在启动和管理中隐藏了异构性,具有良好的异构通讯性能。用一个例子说明如何在一个由Globus搭建的计算网格环境中通过MPICH-G2来创建和执行MPI计算。  相似文献   

13.
现代化的机器人控制也可以配置在一个异构的环境,这已被Kuka验证为事实。机器人控制,软PLC和可视化成功的集成,这给制造商和客户都带来了利益。这一控制概念基于工业PC,利用KW—Software的运行系统成为在Windows下的强大PLC。它很容易被编程.并可由同样是KW—Software开发的MULTIPROG系统所检验。Kuka利用这项技术为许多自动化任务提供了已建成的通用标准控制。  相似文献   

14.
动态内存分配器是现代应用程序重要组成部分, 它负责管理空闲内存并处理用户内存请求. 现代通用动态内存分配器能够提供较为平衡的性能与内存利用率, 但考虑到不同应用场景的内存使用情况和优化目标不同, 使用通用内存分配器并非最优解. 针对应用场景定制的专用内存分配器通常能够更好地满足系统需要, 然而编写专用内存分配器较为费时, 也容易出错. 开发者通常使用内存分配框架搭建专用动态内存分配器. 然而, 现有的内存分配框架存在抽象能力较差, 组合性与定制性不足的问题. 为此, 从函数式编程视角审视动态内存分配过程, 基于函数可组合性提出了一种可组合的定制化动态内存分配器框架榫卯. 榫卯框架将系统内存分配抽象为多个互不耦合的内存分配层级函数的组合, 这些层级函数能够扩展出策略槽, 以提供更高的定制性和组合性. 榫卯框架基于标准C实现, 依赖C预处理器的元编程特性实现层级函数组合的零性能开销. 开发者能够通过组合与定制分配器的层级函数, 快速构建出适合应用场景的内存分配器. 为了证明榫卯框架的有效性, 使用榫卯框架构建了3种不同的内存分配器实例: tlsfcc, hslab与wfslab, 其中tlsfcc针对多核嵌入式应用场景, 通过替换同步策略优化并发吞吐率; hslab是核心感知的slab式分配器, 通过定制线程缓存优化在异构硬件的性能; wfslab是低延迟的无等待/无锁分配器. 为了评估这3种内存分配器实例, 通过运行基准测试对比现有内存分配器. 实验分别在8核x86/64平台和8核异构aarch64嵌入式平台进行. 实验表明tlsfcc与原始tlsf分配器相比, 在上述两个平台上分别取得了平均1.76和1.59的加速比; 对比hslab与类似架构的tcmalloc, 它在两个平台的平均执行时间仅为tcmalloc的69.6%和85.0%; wfslab则取得了参与实验对比的内存分配器中最小的最差情况内存请求延迟, 其中包括目前最先进的无锁内存分配器mimalloc和snmalloc.  相似文献   

15.
基于异构GPU集群的主流编程方法是MPI与CUDA的混合编程或者其简单变形。因为对底层的集群架构不透明,程序员对GPU集群采用MPI与CUDA编写应用程序时需要人为考虑硬件计算资源,复杂度高、可移植性差。为此,基于数据流模型设计和实现面向节点异构GPU集群体系结构的新型编程框架分布式并行编程框架(DISPAR)。 DISPAR框架包含2个子系统:(1)代码转换系统StreamCC,是DISPAR源代码到MPI+CUDA代码的自动转换器。(2)任务分配系统StreamMAP,具有自动发现异构计算资源和任务自动映射功能的运行时系统。实验结果表明,该框架有效简化了GPU集群应用程序的编写,可高效地利用异构GPU集群的计算资源,且程序不依赖于硬件平台,可移植性较好。  相似文献   

16.
异构众核架构具有超高的性能功耗比,已成为超级计算机体系结构的重要发展方向.但众核系统更为复杂的并行层次和存储层次,给编程和优化带来了极大的挑战,因此研究面向众核系统的并行编程技术,对于降低国产众核系统并行应用的编程难度、提升并行程序的性能都具有重要的意义.提出统一架构的多模式并行编程模型,包括异构融合的加速运算模型和按同构方式编程的自主运算模型,根据编程模型设计了Parallel C语言,能有效描述国产众核系统的异构并行性,与其它众核系统上MPI+X的使用模式相比,编程和系统优化都具有全局视角,在多级局部性描述、单边消息、兼容已有多核应用等方面具有特色;基于Open64构建了Parallel C编译系统,全面支持加速运算模型和自主运算模型,提出并实现了数据布局与自动DMA、编译指导的线程代理和拓扑位置感知的集合通信等优化.Micro Benchmark和实际应用在神威太湖之光计算机系统上的测试数据表明,Parallel C语言和编译系统具有良好的性能和可扩展性,能够有效支撑大型应用.  相似文献   

17.
异构并行体系结构是当前高性能计算的重要技术趋势。由于各种异构平台通常支持不同的编程模型,跨平台性能可移植异构并行应用开发非常困难。SYCL是一个基于C++语言的单源跨平台并行编程开放标准。目前针对SYCL的研究主要集中于与其他并行编程模型的性能比较,对SYCL中提供的不同并行内核实现及其性能优化研究得较少。针对这一现状,基于SYCL编程模型对开源多相流数值模拟软件openLBMmflow实现跨平台异构并行模拟,通过对比基础并行版本、细粒度调优的ND-range并行版本以及计算到工作项多对一映射方法,系统总结了SYCL并行应用的性能优化方法。测试结果表明,在Intel Xeon Platinum 9242 CPU以及NVIDIA Tesla V100 GPU上,相比优化后的OpenMP并行实现,在不需要额外调优的情况下,基础并行版本在CPU上获得了2.91的加速比,表明了SYCL的开箱即用性能具备一定优势。以基础并行版本为基准,ND-range并行版本通过改变工作组大小及形状,在CPU与GPU上分别取得了最高1.45以及2.23的加速比。通过优化计算到工作项的多对一映射改变每个工作项处理...  相似文献   

18.
一种基于异构系统发现日志本体关联规则的方法   总被引:1,自引:0,他引:1  
孙明  陈波  周明天 《计算机科学》2009,36(12):187-190
构建日志本体之上的访问模式关联规则是语义Web使用挖掘的主要任务之一.在DL-safe规则的限定下,将日志本体和一阶应用规则相结合,构成异构日志知识库,以提高Web日志系统的知识表示和推理能力.在此基础上借助ILP理论从异构日志知识库中挖掘出频繁用户访问模式,并生成访问模式关联规则,以发现用户访问行为之间更丰富的潜在关联知识.该方法提高了语义Web使用挖掘的质量,为改进站点结构提供了更有效的决策知识.实验结果证明了该方法的可行性和有效性.  相似文献   

19.
探索信息系统的异构性问题   总被引:5,自引:0,他引:5  
同构是相对的,异构是绝对的。异构性在信息系统中普遍存在,它是信息共享以及信息系统之间互操作的主要障碍。该文探索了信息系统异构性的合理化描述,给出几种定义异构性的方法。另外,异构性和任何事物一样,存在积极和消极的两个方面。论文研究并指出开发和利用异构性可增强信息系统的功能,屏蔽和抑制异构性可消除负面影响,从而拓宽信息系统的互操作和可用性。以上研究工作尚处于起步阶段,为深入探索异构性的规律及解决方案奠定了基础。  相似文献   

20.
分析了现有的异构数据集成中存在的语义异构问题,提出了一种基于本体的异构数据集成系统框架,并给出了关键模块的设计。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号