首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 110 毫秒
1.
DLX处理器整数流水线性能的研究   总被引:5,自引:0,他引:5  
蔡启先  李日初 《计算机应用》2005,25(Z1):374-376
介绍了DLX微处理机针对流水线处理的结构调整和流水线工作原理,结合实例介绍了对DLX整数流水线性能的分析研究.  相似文献   

2.
银河TS-1微处理器的流水线   总被引:1,自引:0,他引:1  
赵学秘  陆洪毅  王蕾  戴葵  王志英 《计算机工程》2003,29(5):142-143,F003
银河TS-1微处理器是国防科技大学计算机学院自行设计的具有自主版权的32位嵌入式微处理器,参考标准DLX5级流水线设计了银河TS-1流水线核基本的指令处理通路和数据通路,并以此为基础提出了一种更为高效的6级流水线:取指,译码,操作数准备,ALU执行,数据获取,写回。此6级流水线与5级流水线相比,硬件开销增加很少,但加速比小于1.54。  相似文献   

3.
为了优化矩阵乘法的并行运算效率,提高流水线的性能,采用了基于Strassen算法的矩阵来运算,并通过缟码在DLX模拟的并行流水线环境中仿真运行.实验结果表明,优化后的矩阵秉算法降低了时间复杂度,减少了指令条数和运算周期,显著地提高了流水线上矩阵秉法的并行运算效率.  相似文献   

4.
虚拟现实仿真的实时性要求需要有多处理器任务分布的支持.本文研究了基于PC集群的多用户分布式虚拟现实流水线同步系统结构,并针对流水线的具体实现给出了相应的解决办法,基于PC集群的流水线结构是当今VR应用的主体,也是VR仿真的基础,最后分析了减少网络通信吞吐量的三种可行的方法.  相似文献   

5.
根据对距离多普勒(Range Doppler)成像算法的特点进行研究,提出了一种基于流水线的合成孔径雷达(SAR)并行成像算法。这种算法基于C/MPI编写并成功地在32节点的IBM PC集群实现。通过与已建立的通用的并行成像算法进行比较分析,得出基于流水线的并行算法是一种更适合SAR并行成像的一种算法,能够提供更高的并行效率。  相似文献   

6.
一人攒一机、按订单组装生产PC已成为PC生产方式的时尚。Dell是这个时尚的始作俑者,Compaq有67条生产线紧随,就连IBM公司的RS/6000工作站、AS/40小型机生产流水线也变成“攒机”了。我国浪潮集团,不愧于自己的名字,今年初将PC流水线也改成一人攒一机了,这个现象对于别的国家倒无所谓,但是,对于拥有176家PC厂商、244个PC品种(获得许可证的厂商)的中国来说,就不能不无所谓了。生产PC用流水线的好处在哪里就不用说啦,大批量、标准化生产,20多个工位每工位一个人,对生产工位熟悉得不能再熟悉啦、好管理啦等等而“攒机”的好处在哪里呢?  相似文献   

7.
本文讨论了高速向量机实际应用中并行度的极限,几种计算机结构可提供的并行能力及使用该潜在能力的两种方法:指令控制流及数据控制流。提出了一个流水线式多处理单元的向量机方案,给出了其基本系统结构及高稀疏向量处理功能。此外,为了提供足够高的数据传输率,采用了向量高速缓存及分布式主存储器的方案。介绍了一个用微处理机构成的该方案的模拟模型。  相似文献   

8.
复式并行流水线在基于PC集群机的并行绘制中的应用   总被引:2,自引:0,他引:2  
提出基于动态绘制组的混合式体系结构,除了动态绘制组间的并行处理流水线外,在动态绘制组内部设计了缓帧并行流水线改进工作流程,形成了复式的并行绘制流水线,大大地提高了基于PC集群机的并行图形绘制系统的整体性能.采用此复式流水线的原型系统在实际测试中表现突出,性能比单层并行绘制流水线绘制系统有较大提高.  相似文献   

9.
DLX是一种32位微处理器体系结构,由于其结构简单、硬件开销相对较小而且易于流水实现,因此多被RISC CPU采用。本文将重点阐述DLX体系结构的指令集和执行特性,以及它的广泛应用。  相似文献   

10.
针对传统流水线在运动控制中运动速度难以控制、定位精度不高和运行不稳定等问题,结合电动伺服精准定位和气动技术快速抓取的特点,搭建了智能流水线运动控制系统。系统建立了PC+运动控制卡的结构,硬件主要由PC机、固高GTS系列运动控制卡、伺服电机、气缸等组成,系统软件将LabVIEW环境作为开发平台,实现运动的实时、快速、高精度控制。目前该系统已在某公司流水线上通过测试并已得到应用,结果表明,该智能流水线运动控制系统不仅缩短了程序开发周期,而且可以美化人机交互界面,提高了传输运送单元的工作效率,传输运送成功率在95%以上。  相似文献   

11.
12.
结合应用型专业教育特点,明确教学目标,强化微机系统结构内容,引入DLX虚拟处理器实验,构建既有理论又有实践的新的计算机系统结构课程体系;并且利用信息技术,努力实现课程的立体化;从而促使《计算机系统结构》课程建设再上新台阶。  相似文献   

13.
基于FPGA的1024点高性能FFT处理器的设计   总被引:1,自引:0,他引:1  
为了提高FFT(Fast Fourier Transformation)处理数据的实时性,本文研究了16位1024点FFT并提出了几种有效的优化方案。在Xilinx公司Virtex-E系列FPGA上实现了工作频率50MHz以上、流水线型、基22单路径反馈结构(R22SDF)FFT处理器。仿真和性能评估结果表明本FFT处理器的有较高的性能。  相似文献   

14.
In the verified architecture microprocessor (VAMP) project we have designed, functionally verified, and synthesized a processor with full DLX instruction set, delayed branch, Tomasulo scheduler, maskable nested precise interrupts, pipelined fully IEEE compatible dual precision floating point unit with variable latency, and separate instruction and data caches. The verification has been carried out in the theorem proving system PVS. The processor has been implemented on a Xilinx FPGA. A shorter version of this article with the title “Instantiating uninterpreted functional units and memory system: functional verification of the VAMP” appeared in [8]. The work reported here was done while all the authors were with Saarland University.  相似文献   

15.
在采用基于VelociTI结构浮点DSPs流水线模式设计具有自主知识产权的数字信号处理器中,为了正确有效地实现对流水线异常的控制,提出了一种该结构流水线发生异常时的处理方法。对引起流水线异常的情况进行了合理的分类,存储器阻塞、多执行包和多周期NOP指令采用通过控制流水线寄存器的时钟信号实现控制。采用控制指令的执行条件实现了中断引起的流水线队列中部分指令的废除。对提出的方法采用VHDL语言建模设计,仿真结果验证了其正确性。  相似文献   

16.
为获得安全而紧致的WCET估计,需要考虑执行程序的目标处理器的体系结构特征.Cache、流水线等用于提高性能的技术已经广泛地应用于现代处理器中,如果在静态分析过程中不考虑它们带来的影响,必然会导致WCET过估计.以Petri网作为模型工具,以WCET分析为应用目标构造MIPS处理器的体系结构模型,该方法讨论了各种RISC处理器中常见的体系结构特征的抽象以及它们在Petri网模型中的表示方法.通过实验验证,指令序列在Petri网模型上的模拟执行时间与指令序列在DLXView模拟器上的测试结果具有一致性,表明构建处理器的体系结构Petri网模型是一种有效的指令序列执行时间的静态分析方法.  相似文献   

17.
龙芯1号处理器结构设计   总被引:33,自引:7,他引:26  
首先介绍了龙芯处理器的研制背景及其技术路线。分析了龙芯处理器坚持高性能定位、稳扎稳打的设计策略以及兼容主流处理器的原因,并指出在目前达到与国外相同主频的客观条件不具备的情况下,应走通过优化处理器结构来提高性能的道路,并以处理器结构技术的突破为根本。然后介绍了龙芯1号处理器的体系结构设计,包括基于操作队列复用的动态流水线设计、在乱序执行的情况下实现精确例外处理、取指与转移控制结构、存储管理以及针对缓冲区逐出攻击的系统安全设计等等。测试表明龙芯1号处理器的指令流水线效率高,其安全设计能有效防范使用缓冲区送出技术进行的网络攻击。但龙芯1号处理器的Cache过小,在组织方式上也有待改进。  相似文献   

18.
We propose pixel pipeline architecture with a selective z-test scheme that focuses on reducing the data processed in the pixel pipeline by employing preprocessing. Reduction of data can reduce the data transmission between the 3D graphics processor and the memory and also reduce the power consumption of memory access, which is a critical point in the case of mobile devices. In 3D graphics processor, most of the memory transmissions are occurred in rasterization stage, especially in pixel pipelines. To reduce memory transmission, the proposed architecture exploits the coherency among pixel fragments to predict the visibility of each pixel fragment. Through this, the proposed architecture eliminates invisible fragments before texture mapping using a single z-test, which would require two z-tests in the mid-texturing architecture. According to the simulations, the proposed architecture reduces data transmission by 19.9–22.6% as compared to the mid-texturing architecture at the expense of a 5% reduction in performance. Further, the proposed architecture also reduces the cell area of the depth cache by 26.4% and the area of overall architecture by 6% as compared to that in the mid-texturing architecture.  相似文献   

19.
现代高性能处理器PowerPC620与Alpha21164的核心技术分析   总被引:2,自引:0,他引:2  
PowerPC620和Alpha21164是当今世界上的两种高性能的处理器,它们的实现体现了两种截然不同的高性能处理器设计思想,故从体系结构、指令流水线性、指令调度规则、转移处理、存储系统等角度对他们作一详细分析,有助于了解当今高性能处理器的核心技术和指令级并行处理技术的发展方向。  相似文献   

20.
基于ARM920T内核的FFT算法的高效实现   总被引:2,自引:0,他引:2       下载免费PDF全文
随着ARM体系结构的发展,ARM处理器已经可以胜任许多DSP应用。为了充分挖掘ARM处理器数字信号处理能力,结合ARM内核设计特点设计了基4-FFT算法的高效ARM程序。代码设计中,对寄存器分配和指令调度作了精细地控制,提出了ARM汇编中浮点数的定点格式存储和计算方法,充分利用桶形移位器和5级流水线,避免了流水线互锁问题。实验结果表明优化后的程序指令周期总数减少并且运算精度很高。这些优化方法对ARM程序优化具有实际指导意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号