首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 28 毫秒
1.
为了减少传统SIMD多媒体扩展体系存在的数据置换时间开销,该文提出了一种新的多媒体扩展体系.该体系在指令定义中,包含显性的数据置换信息;在实现体系中,融合了计算和数据置换操作.采用H.264的解码程序测试,与基本型的双发射SIMD处理器体系比较表明:整体上可以获得1.4到1.5的加速,而程序代码大小却减少了17.8%.本体系的硬件实现基于TSMC 0.18μm工艺综合显示,增加的数据置换网络只占用了0.66%的芯片面积和0.71ns的延时.  相似文献   

2.
为满足计算密集且数据带宽大的混合多媒体应用在嵌入式系统中的实现需求,介绍了一款采用层次化互连结构的异构多核嵌入式可视媒体处理系统芯片(EVMPSoC)的设计与实现方法.该SoC芯片由一个32位嵌入式RSIC主处理器EPStar3和两个应用定制指令集的SIMD协处理器核组成,采用层次化高低速总线和多通道双位宽并行访存结构...  相似文献   

3.
针对部分层间并行球形译码(PIPSD)算法的特点,基于超长指令字(VLIW)和单指令多数据(SIMD)混合结构的矢量处理器原型,合理安排处理器结构参数,选择合适的寄存器数目和长度。根据算法和结构的相互作用特点,挖掘算法内在的数据并行性和指令并行性,设计高效的指令集和相应的功能单元,软硬件协同优化VLIW分布,在支持多种配置的基础上尽可能减小执行周期数,提高译码吞吐率,从而设计出高效的基于专用指令集矢量处理器的可编程并行MIMO检测器。  相似文献   

4.
SIMD短向量扩展指令是实现细粒度数据级并行的一条重要途径,自动SIMD并行化是利用SIMD扩展指令最简单直接的方法,但现有编译器无法充分挖掘程序中的SIMD并行成分.文章在深入研究SIMD扩展部件执行方式基础上,提出SIMD短向量数据依赖关系约束条件,并实现了一种基于Tarjan算法的SIMD并行判定框架,提高了SIMD并行性识别率.实际程序测试结果显示,在面向复杂依赖关系的SIMD并行性判定方面优于ICC v11.0编译器.  相似文献   

5.
为了提高视频图像处理速度与硬件资源利用,针对一种基于精简指令集处理器与数字信号处理器(RISC/DSP)混合体系结构的媒体处理器:浙大数芯(MD32),给出了一种软硬件协同设计策略.所给策略结合视频处理核心算法,研究分析MPEG视频编码标准的处理过程,进行了视频处理指令扩展设计,提高了数据的并行处理能力,利用了指令内并行执行特性.为有效实现扩展指令,处理器执行级采用了可扩展流水级技术.实验结果表明,指令扩展硬件成本仅占MD32的2.7%,逆离散余弦变换实现性能比MMX/SSE指令集实现的性能分别提高31%和23%,运动补偿性能比MMX指令集实现的性能提高了40%.  相似文献   

6.
PowerPC G4系列以后的CPU中增加了SIMD扩展指令集,并命名为AltiVec技术,利用这些指令可以显著提高需要处理大量数据运算的软件的效率.本文提出了一种基于AltiVec技术优化矩阵乘积运算的改进算法,实验结果表明此算法是行之有效的.  相似文献   

7.
针对新型多态并行阵列机,设计一种专用处理单元。该处理单元采用四级流水线的超长指令字结构,指令系统采用无寄存器文件的直接寻址方式,加入独有的阻塞-非阻塞模式和邻接共享存储实现分布式指令并行和流处理运算,使用特殊指令完成PE间通信以及MIMD和SIMD的快速切换。实验结果表明,该处理单元能够实现运算模式分区并发执行和切换,工作最大频率可达167MHz.。  相似文献   

8.
以串行FFTW为基准,从程序运行时间、通信开销两方面分析了基于消息传递型(MPI-FFT)和共享内存型(CUFFT)并行FFT实现的性能.实验表明,并行FFT都可以提升计算速度至FFTW的30~80倍,对于中等规模的数据,CUFFT的计算速度略优于MPI-FFT,且其通信开销明显较低,具有较高性价比和较好的应用前景.  相似文献   

9.
面向图形和图像处理的轻核阵列机结构   总被引:1,自引:1,他引:0  
提出一种适用于图形和图像处理的高效并行阵列机结构。该结构的处理单元有单指令多数据(SIMD)和多指令多数据(MIMD)两种运行模式,兼有异步执行机制、硬件的多线程管理器和高效通信机制。这些机制使得此种阵列机能够实现效率很高的线程级并行运算、数据级并行运算和操作级并行运算。尤其值得指出的是,此种阵列机的流处理性能可以达到或接近专用集成电路的性能。该结构还能有效实现静态与动态数据流计算。  相似文献   

10.
关于并行程序设计方法的分析与研究   总被引:1,自引:0,他引:1  
并行程序设计与并行计算机的体系结构密切相关,因此其复杂性要远远大于串行程序设计.介绍了数据分解和循环体依赖等概念,提出了一个cache利用率和并行计算机有效速度的近似关系模型.通过该模型和一个实例,阐述了在并行程序设计中降低和拆解计算目标中数据依赖的方法过程,从而达到尽可能多地发掘指令级并行性,提高cache利用率即提高并行系统有效速度的目的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号