共查询到20条相似文献,搜索用时 31 毫秒
1.
针对嵌入式处理器中指令Cache功耗显著的特点,提出了一种基于分支执行历史的循环缓冲低功耗方法.利用分支指令当前信息与分支执行历史信息之间的关系,实现了应用程序中循环的动态检测与加载.通过对取指通道的精确控制,该方法能够过滤大部分不必要的指令Cache访问,有效降低了指令Cache的功耗.在SuperV_EF01DSP上的实验结果表明,采用该方法后,在处理器性能没有损失的情况下,指令Cache功耗平均降低32.58%,面积仅增加8.31%. 相似文献
2.
3.
高性能DSP器件对功耗指标要求越来越高,功耗主要来源于对存储空间的访问,因此提出了一种改进型Cache功耗优化策略,实现了对指令Cache的分阶段访问,同时兼顾了Cache的动态功耗和静态漏流功耗的优化,改进了传统的基于非分阶段访问的按需唤醒策略NPOWP(Non-Phased Cache with On-Demand Wakeup Prediction)显著影响处理器性能的缺点。设计应用于DSP设计的4路组相连昏睡指令Cache中,使用基于分阶段访问的按需唤醒策略POWP(Phased Cache with On-Demand Wakeup Prediction)策略平均可降低75.4%的指令Cache功耗,降低6.7%的处理器总功耗,性能损失仅为0.77%. 相似文献
4.
本文提出了一种基于"组拼合"技术的嵌入式片上高速缓存(Cache)在线可配置结构.在线可配置Cache可以针对不同的应用,配置Cache的组关联等参数,从而在保持应用性能基本不变的前提下,有效降低Cache的动态功耗.其中水平组拼合方式与Gated-Vdd技术配合使用,不仅可以有效降低动态功耗,而且可以降低超深亚微米工艺中不断凸现的静态漏电功耗.将该结构应用于32-bit嵌入式处理器CK510中,PowerStone测试基准中的一组应用测试表明,组拼合可在线配置Cache结构可以显著降低处理器功耗. 相似文献
5.
Cache作为处理器和系统总线之间的桥梁,是芯片功耗的主要来源,低功耗Cache设计在嵌入式芯片设计中具有重要意义.传统Cache设计一般依赖于特定体系结构,难以在不同的系统中进行集成,通用性差.本文提出了一种低功耗高效率的AHB-AXI双总线结构联合Cache的IP设计.实验结果显示,本设计可以显著降低Cache功耗和提高系统性能. 相似文献
6.
7.
随着集成电路制造工艺进入超深亚微米阶段,漏电流功耗在微处理器总功耗中所占的比例越来越大,在开发新的低漏流工艺和电路技术之外,如何在体系结构级控制和优化漏流功耗成为业界研究的热点.Cache在微处理器中面积最大,是进行漏流控制的首要部件.LRU是组相联Cache最常用的替换算法,而研究发现,访存操作命中LRU后半区的概率很低.LRU-Assist算法以Drowsy Cache、Cache Decay等控制策略为基础,在保证处理器性能不受影响的前提下,利用既有的LRU信息把Cache的关闭率平均提高了15%,大大降低了漏电流功耗. 相似文献
8.
9.
基于低功耗ASIP的循环缓存的设计 总被引:1,自引:1,他引:0
针对ASIP处理器的低功耗设计要求,提出了多段式的循环缓存结构.该结构与原有的循环缓存结构相比,提高了缓存存储器的利用率.本设计通过减少对主存储器的读操作和缓存存储器的写操作的方式来降低程序存储器的功耗.在SMIC的0.13μm工艺条件下,将该结构应用于助听器处理器中,并进行功耗验证.分析表明,该方法以较小的面积开销,最高可将存储器的功耗降低大约50%,有效的降低程序存储器的功耗. 相似文献
10.
为提高按序处理器的性能和能效性,本文提出一种基于值预测和指令复用的预执行机制(PVPIR).与传统预执行方法相比,PVPIR在预执行过程中能够预测失效Load指令的读数据并使用预测值执行与该Load指令数据相关的后续指令,从而对其中的长延时缓存失效提前发起存储访问以提高处理器性能.在退出预执行后,PVPIR通过复用有效的预执行结果来避免重复执行已正确完成的指令,以降低预执行的能耗开销.PVPIR实现了一种结合跨距(Stride)预测和AVD(Address-Value Delta)预测的值预测器,只记录发生过长延时缓存失效的Load指令信息,从而以较小的硬件开销取得较好的值预测效果.实验结果表明,与Runahead-AVD和iEA方法相比,PVPIR将性能分别提升7.5%和9.2%,能耗分别降低11.3%和4.9%,从而使能效性分别提高17.5%和12.9%. 相似文献
11.
非阻塞Cache是指Cache在等待预取数据返回时,还能继续提供指令和数据.首先分析了多线程非阻塞Cache的处理器需求,然后提出其时序要求和一种实现方案.利用SystemVerilog对该方案进行RTL级建模和性能评估.仿真结果表明,该方案可以很好地应用于多线程、乱序执行处理器的指令引擎设计之中. 相似文献
12.
介绍了一种复用JTAG标准接口来实现处理器片上调试和性能分析的方法.以SuperV DSP处理器为研究对象,通过设计调试和性能分析模块以及相应指令,实现了运行控制,断点设置等调试功能以及统计执行周期数,Cache缺失率等性能分析数据的功能,极大地方便软件开发和应用程序优化,同时对处理器性能和功耗影响甚微. 相似文献
13.
处理器分簇技术是进一步提高超标量处理器性能的一种有效手段,实现了更大指令窗口和发射宽度的同时对Cache系统提出了严峻要求,需要一种访存延迟更小、扩展性更强的Cache结构.采用分簇投机的LO Cache结构,处理器在访存时投机访问各簇内简单快速的LO Cache,较好地隐藏了下级Cache的访问延迟.仿真结果显示在8簇的分簇处理器中,采用4kB,2路组相连的分簇L0 Cache后处理器性能平均提升5.6%,在部分测试程序中达到20%以上. 相似文献
14.
15.
在共享Cache的多核处理器中,线程在共享Cache中的指令可能被其他并行线程的指令替换,从而导致了线程间在共享Cache上的干扰.多核结构下WCET估值需要考虑并行线程间在共享Cache上的干扰.针对当前典型的共享Cache和共享总线的多核结构,本文提出了一种迭代的WCET估值分析方法.考虑共享总线对共享Cache访问的时序影响,基于该时序分析线程间在共享Cache上的干扰,得到较精确的WCET估值.理论分析证明了该方法的有效性,实验结果表明本文的分析方法较之当前的两种方法分别可以提高21%和14%的精确度. 相似文献
16.
应用于超宽带系统中的低功耗、高速FFT/IFFT处理器设计 总被引:1,自引:0,他引:1
设计了一种应用于超宽带(UWB)无线通信系统中的FFT/IFFT处理器.采用8×8×2混合基算法进行FFT运算,实现了2路64点或者1路128点FFT功能,并为该算法提出了一种新型的8路并行反馈结构.该结构提高了处理器的数据吞吐率,降低了芯片功耗.为了减少处理器中的乘法数目,提高时序性能,提出了改进型移位加算法.设计的FFT/IFFT处理器采用SMIC 0.13μm CMOS工艺制造,芯片的核心面积为1.44mm2.测试结果表明,该芯片最高数据吞吐率到达1Gsample/s,在典型的工作频率500Msample/s下,芯片功耗为39.6mW.与现有同类型FFT芯片相比,该芯片面积缩小了40%,功耗减少了45%. 相似文献
17.
18.
19.
应用预取策略的行缓冲指令Cache设计 总被引:1,自引:0,他引:1
行缓冲是一种有效的低功耗方案,但其极大地降低了处理器的运算性能.设计并实现了使用预取策略的行缓冲Cache,使用一个缓冲行来预取存储在L1 Cache中的指令,从而降低了行缓冲结构中由于容量缺失而造成的流水线停顿,提升了处理器的运算性能.以Leon2的VHDL模型为试验环境进行了验证,带有预取策略的行缓冲结构较原来的结构平均提升了12.4%. 相似文献