首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 281 毫秒
1.
随着计算机GPU硬件的快速发展,GPU编程环境变得友好,CPU/GPU异构体系结构也被广泛的应用。文章为了有效利用CPU/GPU异构体系结构的优点,并提出了基于该体系结构的两种并行编程模型,使得并行程序设计研究人员使用CPU/GPU异构体系结构的并行编程模型来对大量的程序进行设计,从而最大程度地提高程序的性能。  相似文献   

2.
提出了一种DSP和通用CPU一体化的处理器架构,并完成了一款基于该架构的同构4核处理器设计和流片验证.该处理器基于VLIW结构,支持自主定义的DSP指令系统,兼容现有通用的MIPS 4KC处理器指令集,支持最大8个指令通道的并行发射.处理器在不改变CPU的指令编码以及执行顺序的前提下,实现了芯片结构上的DSP和CPU执行处理的一体化,适合在统一的平台上同时完成宽带通信和多媒体的信号和协议处理的嵌入式应用开发.处理器内核通过自主定义的DSP指令字中前后并行标识位和一条专用的前导paralink指令实现了DSP与CPU指令的并行发射.在4核处理器的同构架构上,采用了全局读局部写的多核间片上数据存储策略,在控制硬件开销的基础上实现片上数据的共享.仿真和流片验证结果表明,所提出的DSP和CPU一体化处理器架构可行,在宽带通信和多媒体等嵌入式应用上具有优势.  相似文献   

3.
基于GPU的快速二维沃尔什变换研究   总被引:2,自引:1,他引:1  
提出了一种基于GPU(Graphics Processing Unit,图形处理器)CUDA(Compute Unified Device Architecture,计算统一设备架构)平台的快速二维沃尔什变换(Walsh Transform)实现方法.该方法利用GPU的并行结构和硬件特点,从算法实现、存储类型、逻辑构架设置等方面提高了沃尔什变换的运算速度.实验结果表明,随着图像分辨率的增加,沃尔什变换在GPU上运行时间远低于CPU,GPU比CPU具有更明显的加速效果.  相似文献   

4.
提出了一个基于硬件抽象机的流水线微处理器设计框架,创造性地使用了一种基于标签结构的模拟执行技术.基于这一框架,描述了一个堆栈抽象机的工作原理,实现了一个Java指令级并行处理器.利用堆栈硬件抽象机和堆栈指令折叠技术的组合解决了Java处理器中的堆栈依赖瓶颈问题.软件模拟证明了该处理器能够最大限度地挖掘出Java程序中的指令级并行,并且拥有更高的处理能力.  相似文献   

5.
郭海涛  陈健 《电子科技》2005,(10):24-26,33
CPU管理板在交换机中起管理作用,以便网管人员可以对交换机进行灵活的实时监控和全局管理.该文介绍了一种基于摩托罗拉公司MPC8241的CPU管理板.首先介绍了基于该CPU管理板的硬件结构和特点,以及软件所采用的操作系统和完整的开发工具.接着详细给出了结合以上的硬件和软件来开发管理板的具体的实现步骤.为广大工程技术人员提供参考.  相似文献   

6.
一种基于JTAG的SoC片上调试系统的设计   总被引:1,自引:0,他引:1  
基于SoC的硬件设计,提出了一种基于JTAG的SoC3片上调试系统的设计方法.该调试系统可设置多种工作模式,含有CPU核扫描链和片上总线扫描链.能硬件实现调试启动与停止、断点设置、单步执行及存储访问等调试功能.对外围IP模块调试诊断时,可绕开CPU核,通过片上总线扫描链直接进行读写访问.该调试系统对其他SoC的设计具有一定的参考价值.  相似文献   

7.
基于GPU的人脸检测和特征点定位研究   总被引:1,自引:0,他引:1  
人脸分析相关应用越来越广泛,但随着高清视频影像的广泛使用,传统的基于CPU设计实现的程序已难以满足时效性要求。本文基于GPU平台实现了人脸检测和特征点定位的并行化。首先为了加速人脸检测过程,使用Nvidia的CUDA计算范式,通过"窗口级并行"和"分类器级并行"两步实现基于Haar特征的Adaboost算法;然后在人脸检测的基础上,提出一种在常量时间内获得初始模型的方法,并行实现ASM算法。与OpenCV中基于CPU的方法相比,基于GPU的本方法有一定速率提升。  相似文献   

8.
陆智俊  贲德  毛博年 《红外与激光工程》2016,45(11):1126003-1126003(6)
针对立方体钠卫星GNC信息处理系统高计算性能与低功率消耗相矛盾的问题,提出了一种资源限制型可重构并行信息处理方法。该方法采用紧耦合可重构并行信息处理架构,将GNC信息处理中需要多次迭代计算且不适合CPU处理的复杂软件算法,以动态部分重构硬件电路单元(DPR)的方式实现,采用基于互斥量的多核并行可重构资源调度算法,通过多核CPU并行管理与调度共享的DPR单元,完成软件算法的硬件加速与优化。实验结果表明,该方法实现了立方星GNC信息处理系统的高效实时快速处理,与传统信息处理方法相比,可节约50%左右的功耗,可应用于计算资源极为有限的星上信息处理领域,具有很好的工程应用前景。  相似文献   

9.
遥感图像融合技术是有效利用多传感器、多平台、多光谱、多时相遥感数据的主要途径.针对经典的主成分分析(PCA)融合串行算法,提出一种新的基于CPU/GPU异构系统的并行PCA融合算法.实验结果表明,基于CPU/GPU异构系统CUDA架构的并行PCA融合算法充分利用GPU的并行处理能力,计算速度提高幅度明显,图像越大越复杂,提高的幅度越大,处理4096×4096图像数据时,最高能获得将近134倍的加速速率,极大的提高了PCA融合算法在实际应用中的实时性.  相似文献   

10.
提出了一种基于有限域内移位三项式基及其弱共轭基的比特并行乘法器的新结构.在由三项式生成的域内,此种结构的比特并行乘法器易于设计者使用硬件描述语言实现.采用Encounter软件对该结构进行布局布线后,发现其面积与关键路径时延都达到了设计目标的要求,在设计性能和硬件约束条件上取得了比较好的平衡.  相似文献   

11.
H.264指数哥伦布码解码部件的硬件设计和实现   总被引:5,自引:3,他引:2  
姚栋  虞露 《电视技术》2004,(11):14-16,23
提出了一种针对H.264视频编码标准的变长码-指数哥伦布码解码的硬件设计结构,对传统的桶形移位器进行优化,主要采用基于PLA的并行解码算法以达到实时解码,同时辅助使用串行解码算法降低硬件资源消耗,保证在能够对符合H.264标准baseline Profile的码流实时解码的基础上优化了电路资源,给出实现该硬件结构对应的FPGA仿真结果及其ASIC硬件规模.  相似文献   

12.
The paper proposes a resource efficient solution for Network Coding (NC) based congestion control consisting in identification around the congested links of multiple butterfly or other low complexity NC-capable topologies by using the Discrete Lagrange Multiplier optimization algorithm. The identification of the NC-capable topologies is based on the resource management capabilities foreseen for the network entities of the Future Internet. The congestion control issue is tackled by separate encoding of appropriately selected groups of data flows passing through the bottleneck link. By optimal selection of the data flows to be encoded, the additional network resources required by the NC operations can be minimized. The encoding is realized by using an XOR-based algorithm adapted for unequal bit rate data flows, and the experimental performances are reported here. Due to its efficient usage of the network resources and high degree of scalability, the congestion control solution proposed in this paper is suitable for large bit rate transmissions, like video streaming.  相似文献   

13.
针对5G网络在网络资源分配存在的问题,从用户业务QoS等级角度提出基于贝叶斯模型的网络资源优化分配策略模型。在对用户业务QoS等级划分的基础上采用优先节点自主控制策略进行网络资源分配,通过构建贝叶斯模型评价网络状态并进行动态学习推理,指导网络优先节点的控制决策,实现优先节点对最佳信道的优先选择。实验表明,与基于信道容量的信道资源分配策略相比,本文的策略在网络总体容量和网络公平性上具有更好的表现,能够更好满足异构网络的实际需求。  相似文献   

14.
结合三网融合的异构网络环境,提出了一种基于固件虚拟的承载网络资源重构模型,并对异构环境下动态可重构网络的关键技术——资源分配算法进行研究,提出了一种基于动态重构的资源分配算法.该模型基于平台化支撑、构件化处理的思想,设计基于底层承载网络中核心节点虚拟化的可重构网络,支持异构网络环境下的动态重构,从而构建更为灵活的高速率、可定制、多服务提供网络.  相似文献   

15.
软件系统日益复杂化的需求对软件建模方法提出了更高的要求。针对传统MAS(Multi-Agent System)建模方法在分析系统扩展性方面的不足,以资源、协议两大模型为核心,提出一种新的、面向高可扩展性的建模方法——EM—MAS,并将该方法成功地运用到安全管理平台系统的构建之中,使得该系统具有热部署、动态设备扩展等高度可扩展特性。  相似文献   

16.
以ARM7EJ—S微处理器的MT6226芯片为核心,阐述了在Nucleus实时操作系统下实现气象数据采集的设计方案。给出了硬件设计框图,同时根据气象数据的特点采用了优先级和时间片轮转法相结合的调度算法对系统任务进行划分,实现各种任务的并行执行,从而提高了资源的利用率,使整个系统运行更加稳定。  相似文献   

17.
杜敏  王培东 《信息技术》2008,32(4):134-137
提出了一种并行K均值聚类和贪婪算法融合的软硬件划分算法.算法首先将有相似属性的任务节点通过并行K均值聚类算法组成一个大的任务节点,而后使用贪婪算法划分由大的任务节点组成的系统.实验结果表明,这种软硬件划分的方法具有高效率及高面积利用率的特点,尤其对多节点的复杂任务算法的求解时间远小于贪婪算法.  相似文献   

18.
In this paper, we propose an efficient parallel dynamic linear solver, called GPU-GMRES, for transient analysis of large linear dynamic systems such as large power grid networks. The new method is based on the preconditioned generalized minimum residual (GMRES) iterative method implemented on heterogeneous CPU–GPU platforms. The new solver is very robust and can be applied to power grids with different structures as well as for general analysis problems for large linear dynamic systems with asymmetric matrices. The proposed GPU-GMRES solver adopts the very general and robust incomplete LU based preconditioner. We show that by properly selecting the right amount of fill-ins in the incomplete LU factors, a good trade-off between GPU efficiency and convergence rate can be achieved for the best overall performance. Such tunable feature can make this algorithm very adaptive to different problems. GPU-GMRES solver properly partitions the major computing tasks in GMRES solver to minimize the data traffic between CPU and GPUs to enhance performance of the proposed method. Furthermore, we propose a new fast parallel sparse matrix–vector (SpMV) multiplication algorithm to further accelerate the GPU-GMRES solver. The new algorithm, called segSpMV, can enjoy full coalesced memory access compared to existing approaches. To further improve the scalability and efficiency, segSpMV method is further extended to multi-GPU platforms, which leads to more scalable and faster multi-GPU GMRES solver. Experimental results on the set of the published IBM benchmark circuits and mesh-structured power grid networks show that the GPU-GMRES solver can deliver order of magnitudes speedup over the direct LU solver, UMFPACK. The resulting multi-GPU-GMRES can also deliver 3–12× speedup over the CPU implementation of the same GMRES method on transient analysis.  相似文献   

19.
马歌  肖汉 《现代电子技术》2014,(20):103-106
Prewitt算法是数字图像分割中最常用的边缘检测算法。采用传统CPU上的串行方法实现该算法需要较大的计算量、耗时较长,因此,通过GPU对其进行性能加速有着重要的意义。然而由于GPU硬件体系结构的差异性,跨平台移植是一件非常困难的工作。针对上述问题,提出了一种基于OpenCL异构框架的Prewitt图像边缘检测并行算法。实验结果表明,该并行算法比CPU上的串行算法运行速度快,加速比可达30倍,有效地提高了大规模数据处理的效率,可移植性好,具有较高的应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号