首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
胡正伟  仲顺安  陈禾 《计算机工程》2007,33(21):237-239
研究了VelociTI结构浮点数字信号处理器寄存器堆的流水线读写原理并提出了一种设计方法。该方法对单操作数双精度浮点指令采用2个32位数据通路用1个流水线周期读取源操作数,双操作数双精度浮点指令采用锁定译码单元,利用若干流水线周期读取源操作数。采用写控制向量的方法实现了流水线多个周期执行写操作。该方法正确实现了基于IEEE754标准的双精度浮点数据在寄存器堆与功能单元之间的32位数据通路上的传输,仿真结果验证了其正确性。  相似文献   

2.
许瑾晨  郭绍忠  黄永忠  王磊  周蓓 《软件学报》2015,26(12):3088-3103
异常会造成程序错误,实现完全没有异常的浮点计算软件也很艰难,因此,实现有效的异常处理方法很重要.但现有的异常处理并不针对浮点运算,并且研究重点都集中在整数溢出错误上,而浮点类型运算降低了整数溢出存在的可能.针对上述现象,面向基于汇编实现的数学函数,提出了一种针对浮点运算的分段式异常处理方法.通过将异常类型映射为64位浮点数,以核心运算为中心,将异常处理过程分为3个阶段:输入参数检测(处理INV异常)、特定代码检测(处理DZE异常和INF异常)以及输出结果检测(处理FPF异常和DNO异常),并从数学运算的角度对该方法采用分段式处理的原因进行了证明.实验将该方法应用于Mlib浮点函数库,对库中600多个面向不同平台的浮点函数进行了测试.测试结果表明:该方法能够将出现浮点异常即中断的函数个数从90%降到0%.同时,实验结果验证了该方法的高效性.  相似文献   

3.
张德富  盛篮 《计算机学报》1989,12(8):617-625
本文基于任务相关、作业排队等理论,提出构造宏流水线并行算法的一种有效方法,并且利用这种方法构成了一组用于数字信号处理的线性和非线性宏流水线并行算法.其中部分算法已应用于分布式自动控制与测试系统FZC-1中,具有并行计算效率高和性能价格比好等优点.  相似文献   

4.
文章介绍TMS320C54xDSP流水线操作及其在实际编程中的应用,包括流水线的操作过程,延时,MMR保护指令和实际编程中防止流水线冲突的检查方法。  相似文献   

5.
定点DSPs的定标及其运算方法   总被引:5,自引:0,他引:5  
分析了定点DSPs的定标问题,讨论了定点运算中的Qs值选择和解决数值超范围的方法,提出了定点DSPs加法的通用处理方法,并就定点运算程序设计中的一些具体问题进行了讨论。  相似文献   

6.
保证Java精确异常的软件流水线技术   总被引:1,自引:0,他引:1  
Java对精确异常的支持严重限制了JIT编译器的动态优化的能力.目前已经有不少在精确异常存在下的优化技术,但它们都是针对代码块内部顺序指令的调度算法,依然没有在软件流水线这样循环级别做带精确异常的优化的算法.针对存在精确异常要求的Java程序,提出了一种软件流水线的算法,并以安腾作为底层平台对该算法进行了测试,实验结果显示该算法在保证Java精确异常要求的情况下能够大幅度提高Java程序的性能.  相似文献   

7.
基于VelociTI体系结构的DSP指令分配的实现   总被引:1,自引:0,他引:1  
在设计基于VelociTI体系结构的数字信号处理器过程中,为了高速实现并行指令的分配,提出了一种基于该体系结构的指令分配方法:排序法。该方法结合决策树原理实现取指包指令并行性测试,并将处理器的功能单元按照一个规定的顺序排列,使每一个功能单元与执行包的某一个字段对应,将执行包中的指令根据译码的结果和功能单元的顺序进行重新排序,从而完成指令到功能单元的分配。仿真结果证明该方法是十分有效的。  相似文献   

8.
本文着重介绍了32位浮点数字信号处理器的性能、种类及特点,对此类DSP进行了综述。  相似文献   

9.
TMS320C80是一种MIMD结构的数字信号处理芯片民的为实时并行信号处理提供了强有力的保证,在硬件平台上,构成不同的处理器连接形式,对实时并行处理算法在算法映射,处理器间通信等方面的特点进行研究,总结设计这类系统的方法。  相似文献   

10.
一种改进的流水线CORDIC算法结构   总被引:9,自引:0,他引:9  
近些年CORDIC算法与飞速发展的VLSI技术结合,其优点越加受到人们的重视,且广泛地应用于计算性能要求较高的实时高质量信号、图像处理等方面。所以提出了一种对流水线CORDIC算法中模校正部分的改进方法。通过对该方法的理论分析、结构建模和综合,表明该方法在不降低其它性能指标的同时,可以有效减少流水级数,降低硬件复杂度,提高精度,且使CORDIC在圆周旋转和双曲旋转两种工作状态下的结构更加统一,有利于VLSI实现。  相似文献   

11.
在采用并行超长指令字结构的DSP芯片中,CPU处理速度与片外数据存取速度不匹配的问题,导致了CPU处理延时,限制了DSP系统性能的提升,针对这一问题,根据Cache的结构提出一种适宜于在DSPCPU上进行视频数据处理的数据排列新算法,并且将其成功地应用到基于Trimedia PNXl301的MPEG-4程序优化工作中,系统编码结果表明,该方法有效地减少了Cachemiss及片外数据存取的时间开销,在同等条件下,采用本算法后系统编码性能提高2帧/秒(CIF格式)左右。  相似文献   

12.
本论文主要介绍了基于DSPs(Digital Signal Processers)多路温度巡检系统的研制.通过对传统模拟积分电路详细的理论计算和误差分析,完成了基于DSPs技术的长时间无零漂数字积分器和变替式模拟积分器的64路温度巡检仪的设计和研制.研制出基于DSPs的64路温度巡检仪,并将该巡检仪用到多路高速数据采集系统中,且对该系统的软硬件构成及总线通信进行研究.使采集系统更科学化,系统化和准确化。该系统的实际运行收到了很好的效果。  相似文献   

13.
本论文主要介绍了基于DSPs(DigitalSignalProcessers)多路温度巡检系统的研制。通过对传统模拟积分电路详细的理论计算和误差分析,完成了基于DSPs技术的长时间无零漂数字积分器和交替式模拟积分器的64路温度巡检仪的设计和研制。研制出基于DSPs的64路温度巡检仪,并将该巡检仪用到多路高速数据采集系统中,且对该系统的软硬件构成及总线通信进行研究,使采集系统更科学化,系统化和准确化。该系统的实际运行收到了很好的效果。  相似文献   

14.
主要探讨了如何在DSPs上高效地实现MPEG-4的视频压缩算法,问题的关键是怎样在DSPs程序中合理地设计能够描述视频对象的数据结构并有效利用DSPs甚长指令和流水线的特点以加速压缩过程的实现。此外,还利用了混合编成的方法以协调程序的高效性和复杂性。通过合理的设计程序代码和分配内存资源,完全可以在DSPs上实现复杂的MPEG-4压缩算法.独到之处是设计的程序充分利用了DSPs的各种特点来实现这种复杂的视频压缩算法。  相似文献   

15.
浮点数求和与点积计算在科学计算,信号处理,图像处理等领域中广泛应用.对浮点和与点积计算的硬件结构进行了研究.在只有一次舍入误差的前提下,提出一种通用的浮点数求和算法和结构,利用重对阶方法,解决了多个粘贴位和尾数过抵消所产生的精度损失问题.然后将这种算法移植到浮点点积计算中.为了增加结构的通用性,将提出的结构和常用的SIMD计算单元进行结合.根据提出的算法,设计实现了FADD4和FDP4的硬件结构,和使用离散的加法器和乘法器来实现求和与点积的方法相比,计算速度分别提高了20.4%和42.1%.  相似文献   

16.
针对具有多种逻辑块和互连线结构的现代主流现场可编程门阵列(FPGA),给出一种通用的FPGA结构描述方法.根据FPGA硬件版图由几类重复单元在水平和垂直方向复制拼接而成的特点,提出基于层次化重复单元的FPGA结构模型,在该模型的基础上,通过定义一套完整的语法来描述FPGA.实验结果表明,该方法能正确描述FPGA硬件信息,并配合FPGA软件系统正常工作,具有结构通用和描述文件小的优点.  相似文献   

17.
多位平面并行的EZW零树编码电路研究   总被引:4,自引:0,他引:4  
零树编码技术已经被MPEG-4国际标准所采用,多位平面并行的EZW零树编码电路方案为实时应用中的零树编码提供了一条高效的技术途径,它具体包括一种简单、巧妙的预处理器,对不同位平面之间存在的关联加以分离,保证多位平面并行零树编码的实现。另外,在每个位平面中,此方案利用符号分配与跳过处理的执行特点,将编码操作分解成两步,分别结合到两次正、反向的树深度扫描之中,避免了不规则的扫描、处理。此设计在FPGA电路上进行了验证,它可以实时编码CIF格式视频图像,需要2500个左右的逻辑单元。  相似文献   

18.
In multi-core Digital Signal Processing (DSP) Systems, the processor-memory gap remains the primary obstacle in improving system performance. This paper addresses this bottleneck by combining task scheduling and memory accesses so that the system architecture and memory modules of a multi-core DSP can be utilized as efficiently as possible. To improve the system and memory utilization, the key is to take advantage of locality as much as possible and integrate it into task scheduling. Two algorithms are proposed to optimize memory accesses while scheduling tasks with timing and resource constraints. The first one uses Integer Linear Programming (ILP) to produce a schedule with the most efficient memory access sequence while satisfying the constraints. The second one is a heuristic algorithm which can produce a near optimal schedule with polynomial running time. The experimental results show that the memory access cost can be reduced up to 60% while the schedule length is also shortened.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号