首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对嵌入式处理器中指令Cache功耗显著的特点,提出了一种基于分支执行历史的循环缓冲低功耗方法.利用分支指令当前信息与分支执行历史信息之间的关系,实现了应用程序中循环的动态检测与加载.通过对取指通道的精确控制,该方法能够过滤大部分不必要的指令Cache访问,有效降低了指令Cache的功耗.在SuperV_EF01DSP上的实验结果表明,采用该方法后,在处理器性能没有损失的情况下,指令Cache功耗平均降低32.58%,面积仅增加8.31%.  相似文献   

2.
Cache能够提高DSP处理器对外部存储器的存取速度,提高DSP的性能,设计高性能低功耗的Cache,对于提高DSP芯片的整体性能有着十分重大的意义。描述了DSP芯片中一种高性能低功耗的数据Cache。这种Cache可以通过增加具备重装功能的Line Buffer来减少处理器对Cache的访问频率,从而降低Cache功耗。通过FFT、AC3、FIR三种基准程序测试表明,Line Buffer可以降低35%的Cache访问频率,明显降低了数据Cache功耗。  相似文献   

3.
高性能DSP器件对功耗指标要求越来越高,功耗主要来源于对存储空间的访问,因此提出了一种改进型Cache功耗优化策略,实现了对指令Cache的分阶段访问,同时兼顾了Cache的动态功耗和静态漏流功耗的优化,改进了传统的基于非分阶段访问的按需唤醒策略NPOWP(Non-Phased Cache with On-Demand Wakeup Prediction)显著影响处理器性能的缺点。设计应用于DSP设计的4路组相连昏睡指令Cache中,使用基于分阶段访问的按需唤醒策略POWP(Phased Cache with On-Demand Wakeup Prediction)策略平均可降低75.4%的指令Cache功耗,降低6.7%的处理器总功耗,性能损失仅为0.77%.  相似文献   

4.
本文提出了一种基于"组拼合"技术的嵌入式片上高速缓存(Cache)在线可配置结构.在线可配置Cache可以针对不同的应用,配置Cache的组关联等参数,从而在保持应用性能基本不变的前提下,有效降低Cache的动态功耗.其中水平组拼合方式与Gated-Vdd技术配合使用,不仅可以有效降低动态功耗,而且可以降低超深亚微米工艺中不断凸现的静态漏电功耗.将该结构应用于32-bit嵌入式处理器CK510中,PowerStone测试基准中的一组应用测试表明,组拼合可在线配置Cache结构可以显著降低处理器功耗.  相似文献   

5.
Cache作为处理器和系统总线之间的桥梁,是芯片功耗的主要来源,低功耗Cache设计在嵌入式芯片设计中具有重要意义.传统Cache设计一般依赖于特定体系结构,难以在不同的系统中进行集成,通用性差.本文提出了一种低功耗高效率的AHB-AXI双总线结构联合Cache的IP设计.实验结果显示,本设计可以显著降低Cache功耗和提高系统性能.  相似文献   

6.
为了对嵌入式系统中存储模块的访问操作进行低功耗优化设计,文章从软件设计角度提出了一种功耗优化的方法,该方法包括"减少分支程序与函数调用"、"块数据连续存放"以及"Cache替换算法"三个方面,但其关键是减少存储访问,提高Cache命中率,降低系统内电路状态的翻转频率.实验证明,该方法能有效降低系统功耗,减少系统成本.  相似文献   

7.
LRU-Assist:一种高效的Cache漏流功耗控制算法   总被引:5,自引:4,他引:1       下载免费PDF全文
随着集成电路制造工艺进入超深亚微米阶段,漏电流功耗在微处理器总功耗中所占的比例越来越大,在开发新的低漏流工艺和电路技术之外,如何在体系结构级控制和优化漏流功耗成为业界研究的热点.Cache在微处理器中面积最大,是进行漏流控制的首要部件.LRU是组相联Cache最常用的替换算法,而研究发现,访存操作命中LRU后半区的概率很低.LRU-Assist算法以Drowsy Cache、Cache Decay等控制策略为基础,在保证处理器性能不受影响的前提下,利用既有的LRU信息把Cache的关闭率平均提高了15%,大大降低了漏电流功耗.  相似文献   

8.
针对数据高速缓存短时间内频繁访问连续区段的特征,该文提出了一种基于热点硬件自搜索和历史访问轨迹的数据高速缓存低功耗方法.该方法通过动态搜索热点片段,缓存目标热点行在高速缓存中的位置信息,过滤标签存储器和冗余数据存储器的访问.运行EEMBC测试基准的实验结果表明,与基于MRU(Most Recently Used)的路预测方法相比,该方法Cache的动态功耗可降低30.77%,性能提升26.21%.  相似文献   

9.
基于低功耗ASIP的循环缓存的设计   总被引:1,自引:1,他引:0  
针对ASIP处理器的低功耗设计要求,提出了多段式的循环缓存结构.该结构与原有的循环缓存结构相比,提高了缓存存储器的利用率.本设计通过减少对主存储器的读操作和缓存存储器的写操作的方式来降低程序存储器的功耗.在SMIC的0.13μm工艺条件下,将该结构应用于助听器处理器中,并进行功耗验证.分析表明,该方法以较小的面积开销,最高可将存储器的功耗降低大约50%,有效的降低程序存储器的功耗.  相似文献   

10.
 为提高按序处理器的性能和能效性,本文提出一种基于值预测和指令复用的预执行机制(PVPIR).与传统预执行方法相比,PVPIR在预执行过程中能够预测失效Load指令的读数据并使用预测值执行与该Load指令数据相关的后续指令,从而对其中的长延时缓存失效提前发起存储访问以提高处理器性能.在退出预执行后,PVPIR通过复用有效的预执行结果来避免重复执行已正确完成的指令,以降低预执行的能耗开销.PVPIR实现了一种结合跨距(Stride)预测和AVD(Address-Value Delta)预测的值预测器,只记录发生过长延时缓存失效的Load指令信息,从而以较小的硬件开销取得较好的值预测效果.实验结果表明,与Runahead-AVD和iEA方法相比,PVPIR将性能分别提升7.5%和9.2%,能耗分别降低11.3%和4.9%,从而使能效性分别提高17.5%和12.9%.  相似文献   

11.
非阻塞Cache是指Cache在等待预取数据返回时,还能继续提供指令和数据.首先分析了多线程非阻塞Cache的处理器需求,然后提出其时序要求和一种实现方案.利用SystemVerilog对该方案进行RTL级建模和性能评估.仿真结果表明,该方案可以很好地应用于多线程、乱序执行处理器的指令引擎设计之中.  相似文献   

12.
介绍了一种复用JTAG标准接口来实现处理器片上调试和性能分析的方法.以SuperV DSP处理器为研究对象,通过设计调试和性能分析模块以及相应指令,实现了运行控制,断点设置等调试功能以及统计执行周期数,Cache缺失率等性能分析数据的功能,极大地方便软件开发和应用程序优化,同时对处理器性能和功耗影响甚微.  相似文献   

13.
处理器分簇技术是进一步提高超标量处理器性能的一种有效手段,实现了更大指令窗口和发射宽度的同时对Cache系统提出了严峻要求,需要一种访存延迟更小、扩展性更强的Cache结构.采用分簇投机的LO Cache结构,处理器在访存时投机访问各簇内简单快速的LO Cache,较好地隐藏了下级Cache的访问延迟.仿真结果显示在8簇的分簇处理器中,采用4kB,2路组相连的分簇L0 Cache后处理器性能平均提升5.6%,在部分测试程序中达到20%以上.  相似文献   

14.
非一致Cache体系结构(NUCA)几乎已经成为未来片上大容量Cache的发展方向。本文指出同构单芯片多处理器的设计主要有多级Cache设计的数据一致性问题,核间通信问题与外部总线效率问题,我们也说明多处理器设计上的相应解决办法。最后给出单核与双核在性能、功耗的比较,以及双核处理器的布局规划图。利用双核处理器,二级Cache控制器与AXI总线控制器等IP提出一个可供设计AXI总线SoC的非一致Cache体系结构平台。  相似文献   

15.
陈芳园  张冬松  王志英 《电子学报》2012,40(7):1372-1378
在共享Cache的多核处理器中,线程在共享Cache中的指令可能被其他并行线程的指令替换,从而导致了线程间在共享Cache上的干扰.多核结构下WCET估值需要考虑并行线程间在共享Cache上的干扰.针对当前典型的共享Cache和共享总线的多核结构,本文提出了一种迭代的WCET估值分析方法.考虑共享总线对共享Cache访问的时序影响,基于该时序分析线程间在共享Cache上的干扰,得到较精确的WCET估值.理论分析证明了该方法的有效性,实验结果表明本文的分析方法较之当前的两种方法分别可以提高21%和14%的精确度.  相似文献   

16.
应用于超宽带系统中的低功耗、高速FFT/IFFT处理器设计   总被引:1,自引:0,他引:1  
设计了一种应用于超宽带(UWB)无线通信系统中的FFT/IFFT处理器.采用8×8×2混合基算法进行FFT运算,实现了2路64点或者1路128点FFT功能,并为该算法提出了一种新型的8路并行反馈结构.该结构提高了处理器的数据吞吐率,降低了芯片功耗.为了减少处理器中的乘法数目,提高时序性能,提出了改进型移位加算法.设计的FFT/IFFT处理器采用SMIC 0.13μm CMOS工艺制造,芯片的核心面积为1.44mm2.测试结果表明,该芯片最高数据吞吐率到达1Gsample/s,在典型的工作频率500Msample/s下,芯片功耗为39.6mW.与现有同类型FFT芯片相比,该芯片面积缩小了40%,功耗减少了45%.  相似文献   

17.
王青松  李跃进  李筱濛  刘毅   《电子器件》2007,30(2):702-705,709
采用改进T0编码技术实现了数字信号处理器(DSP)的程序总线编解码器,并改进了翻转编码技术实现了DSP的数据总线编解码器,有效降低DSP的内部数据和地址总线的动态功耗.经功耗分析,DSP的程序地址总线功耗降低了73.2%,数据的地址总线和数据总线功耗降低了45.88%.在此基础上,基于TSMC0.25μmCMOS工艺,实现了低功耗16位定点DSPIP核.  相似文献   

18.
《电子与电脑》2007,(12):27
降低存储器功耗高达30% Tensilica公司发布第二代钻石系列处理器,该低功耗高性能的钻石系列处理器,自推出便在可授权处理器市场上大获成功.第二代钻石系列处理器提供更多新特性,包括增加的乘法和除法运算单元、对硬件进行优化以降低30%的存储器功耗以及可选的基于AXI的AMBA总线转接桥.  相似文献   

19.
应用预取策略的行缓冲指令Cache设计   总被引:1,自引:0,他引:1  
行缓冲是一种有效的低功耗方案,但其极大地降低了处理器的运算性能.设计并实现了使用预取策略的行缓冲Cache,使用一个缓冲行来预取存储在L1 Cache中的指令,从而降低了行缓冲结构中由于容量缺失而造成的流水线停顿,提升了处理器的运算性能.以Leon2的VHDL模型为试验环境进行了验证,带有预取策略的行缓冲结构较原来的结构平均提升了12.4%.  相似文献   

20.
ADI公司的DSP Blackfin是嵌入式多媒体终端理想的核心处理器,其性能与Cache和DMA的使用方式紧密联系。AD6532芯片是ADI公司推出的最新的一款双核(包含Blackfin核和ARM核)基带处理器,可用于GSM和TD—SCDMA的移动终端设备。本文阐述了AD6532的内存空间分配及其别名技术,并提出了基于该技术的数据操作方法,使得数据Cache和DMA能够同时使用同一块内存资源。实验表明该方法比传统的数据Cache失效方法性能优越。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号