首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 109 毫秒
1.
介绍了一种基于Open MP的多核并行程序设计方法,并使用此方法实现了对基于隐马尔可夫模型的Web文本挖掘程序的并行化改造.实验证明重新设计的多核并行程序相比于原有串行程序在多核微机系统上的运行时间大大减少、程序整体性能得到明显提升.  相似文献   

2.
一种基于循环并行模式的多核优化方法   总被引:1,自引:0,他引:1  
从并行编程模式角度出发,分析了计算稠密型程序基于多核平台的优化方法,并结合循环并行模式与OpenMP、Intel parallel studio工具实现了对部分连接神经演化(PARCONE)模型的多核优化.优化结果表明,基于循环并行模式的设计方法是实现计算稠密型程序多核优化的一种快速有效方法.  相似文献   

3.
数据流编程作为一种编程模式被广泛地应用于多核处理器系统,其多核处理器的并行调度和对主存的访问延迟对程序的性能有很大的影响.为此,结合X86多核处理器的特点,提出一种数据流程序的任务调度与缓存优化方法.任务调度优化首先在预处理阶段提高目标程序的局部性和并行粒度;然后利用数据流程序的数据并行、任务并行和流水并行优化核间负载均衡,并构造软件流水调度.缓存优化针对目标系统的层次性缓存结构特征,通过消除缓存伪共享减少多核并行运行时相互间的干扰,根据逻辑线程间的通信分布实现逻辑线程到处理器核的映射.以COStream作为数据流编程语言,输出经过编译优化后的目标代码.实验选取数字媒体领域典型的算法进行测试,测试结果表明,编译优化后的测试程序基本达到线性加速比,验证了编译系统的有效性.  相似文献   

4.
基于消息传递的编程模型设计了一款片上多核系统,该系统在4SymboltB@4的2D mesh片上网络中集成了16个小型RISC处理器,这些处理器各自使用一个可配置的私有SRAM用于指令和数据的存储,而处理器间的数据包通信则通过虫孔交换的路由器及网络接口实现.此外,在软件层面实现了基本的数据传输与进程同步接口,并采用SPMD并行模式设计了3个应用案例,以对该系统进行验证和性能分析.仿真及FPGA测试结果表明,对于整数矩阵乘法、浮点FFT计算以及基于灰度图像的模板匹配问题,该多核系统的并行加速比最高可分别达到7.6,10.5和15.9.  相似文献   

5.
微处理器向多核和众核方向的发展给计算机体系结构带来了新挑战.针对这一挑战,多核处理器加速平台RAMP应运而生,通过采用多FPGA模拟,用FPGA以硬件的速度级来模拟高度并行体系结构,给并行和多核体系结构的研究带来了新的途径和手段.分析了RAMP平台的体系结构和设计框架,简介了当前主要的RAMP研究项目,并从RAMP架构...  相似文献   

6.
随着多核处理器片上集成核数的不断增多,并行任务的调度能力越来越成为制约性能提升的关键因素。文章设计一种面向异构多核计算系统的动态任务调度控制器,主要实现动态监控处理单元的负载情况、动态任务唤醒、乱序任务发射、任务写回安全管理等功能;研究一种降低计算任务结果数据回写双倍数据速率(double data rate, DDR)外存储器次数的方法,大幅节省了访存开销,进一步提升了计算性能。仿真及性能测试显示,在典型应用场景下,与已有的无动态调度功能的任务发射控制器相比,实现了显示并行化编程向任务并行的自动化控制过渡,编程友好度显著提高,在不同类型的测试案例中,分别提升了11.3%~37.9%的计算性能。  相似文献   

7.
针对目前视频解码器实现方案存在的灵活度低、开发周期长、不能适应快速变化的算法升级等问题,提出一种面向多种视频编解码标准的通用视频解码器架构设计方案.采用软硬件协同设计方法,基于可编程同构多核处理器+协处理器的硬件架构,同构多核处理器采用指令级和任务级并行加速,协处理器采用硬件定制单元实现矢量加速,同时利用分布式片上便笺式存储器(Scratchpad Memory,SPM)代替数据Cache实现高效的数据存储系统,以应用广泛的H.264视频标准为验证实例.实验结果表明,基于本文所提架构实现的H.264视频解码器高效可行,平均并行加速比为9.12,相比于传统多核并行解码算法提高了1.31倍.  相似文献   

8.
提出一种针对任意点数运算的并行地址无冲突的存储器结构的FFT处理器.该方法利用高基底的分解方法减少整体计算时钟周期,以及小基底互联的多路延迟交换结构降低计算引擎的复杂度.该方法可以将存储器结构FFT处理器中的几个重要特性如连续帧处理模式,多点数计算和并行无地址冲突等特点集成在一起.另外,素因子FFT算法也被运用到该处理器当中用以降低乘法器个数和蝶形因子存储,以及满足任意点数的计算需求.设计了一种统一的基-2,3,4,5的Winograd算法的蝶形计算单元用以降低计算复杂度.实验仿真结果表明,本FFT处理器在122.88 MHz工作频率下功耗只有40.8 mW,非常适合LTE系统的应用.   相似文献   

9.
本文是对多核程序设计的一种探索,在OpenMP模型下以赫夫曼算法为基础设计并行压缩程序.首先对传统的串行程序进行分析,使应用程序开发人员了解程序行为、发现性能瓶颈、明确优化方向.再用OpenMP的基本结构进行并行程序的设计之后,借助开发工具对并行程序进行优化和调试,得到改进方案.然后在双核处理器上分别运行并行程序与串行程序,将两者进行性能上的比较,实验结果证明性能得到很大程度地提高。  相似文献   

10.
基于多核处理器, 结合自底向上和自顶向下两种算法, 提出一种图遍历驱动的双向优化算法, 该算法充分利用两种遍历算法的优点, 并发挥多核环境的优势, 实现了最优查询计划的高性能并行构建, 解决了并行双向枚举连接问题. 实验结果表明, 该算法的性能优于已有算法, 可明显提高数据库查询速度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号