期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

覃爱娜黄仲桂卫华《计算机工程与应用》2008,44(18):141-143

语音信号的产生过程是非线性的,而且具有混沌性。相对于线性模型,在重构相空间中建立的语音信号模型更接近实际系统,神经网络是建立非线性系统模型的常用工具。实验结果表明：在重构相空间中建立的基于径向基函数神经网络的预测器较线性预测器在性能上有明显提高。相似文献

2.

基于真实历史反馈的自适应值预测器的设计与优化

隋兵才《计算机工程与科学》2021,43(2):274-279

乱序超标量处理器所能获得的指令级并行能力越来越有限,为了获得更高的指令并行性,必须增加更多的乱序执行和控制资源.随着处理器架构的变化,值预测技术能够在现有主流处理器微架构的基础上以更少的硬件开销,获得更高的数据并行性,进一步提升处理器的乱序执行性能.提出了一种基于真实历史反馈的上下文值预测器(RH-VTAGE),通过设置失效列表和预测精度表来控制反馈RH-VTAGE的预测精度,减少预测失效时的流水线恢复开销.同时,在值预测器的最后阶段增加了真实历史反馈的控制计数器,并设计了自适应置信度控制逻辑,针对不同类型的指令按概率对置信度进行动态调整.实际测试结果表明,相对于其他预测器,RH-VTAGE的整数程序预测性能没有明显提升,但是对于浮点程序性能最大提升31.2％. 相似文献

3.

基于指令距离的存储相关性预测方法

路冬冬何军杨剑新王飙《计算机应用》2013,33(7):1903-1907

存储相关性预测对于减少存储相关性冲突、提高微处理器性能具有十分重要的作用。针对传统相关性预测器硬件开销大、可实现性较差的缺点,通过对存储相关性的局部性分析,提出了一种基于指令距离的存储相关性预测方法。该方法充分利用了发生存储相关性冲突的指令在指令距离上的局部性,预测冲突指令的指令距离,进而控制部分访存指令的发射时机,大大减少了存储相关性冲突的次数。实验结果表明,在硬件开销约为1KB的情况下,使用基于指令距离的相关性预测器后,每个时钟周期平均执行的指令数可以提高1.70%,最高可以提高5.11%。在硬件开销较小的情况下,较大程度提高了微处理器的性能。相似文献

4.

一种静态LoC关键性预测器设计

下载免费PDF全文

李清波苟鹏飞孙骏杨兵王进祥《计算机工程》2012,38(7):253-256

针对不同分簇超标量处理器结构下SPEC2000程序中指令关键可能性(LoC)的特性,提出一种静态LoC关键性预测器的设计方法。对指令LoC进行研究,根据其结构无关性和动态不变性,设计预测器。仿真结果表明,在对1×8分簇超标量处理器使用该设计时,程序的每周期指令数平均提升5.3%,性能优于动态LoC预测器。相似文献

5.

基于同时多线程的TBHBP分支预测器研究

李静梅关海洋《计算机科学》2012,39(9):307-311

针对传统处理器分支预测器存在分支预测信息混乱、分支指令别名冲突和容量冲突率高的缺点,提出基于同时多线程处理器的分支预测器TBHBP。该分支预测器采取线程历史信息与基于地址索引的局部历史信息相结合的综合历史信息作为模式匹配表PHT的索引,并采取线程独立拥有线程历史寄存器和分支历史寄存器的方式,通过新增分支结果输出表来提高指令的分支预测执行速度。研究结果表明,TBHBP分支预测器有效解决了分支信息过时、分支指令别名和容量冲突的问题。与Gshare分支预测器相比,其指令吞吐率提升了12.5%,分支误预测率和误预测路径取指率分别下降了0.5%和2.1%。相似文献

6.

基于类型预测的甚块预测器

苟鹏飞喻明艳杨兵李清波王诗博《计算机学报》2012,35(7):1539-1552

高性能的甚块预测器是保证EDGE体系结构性能的关键手段.为研究性能更好的甚块预测器,文中通过仿真实验发现甚块的出口类型独立于甚块的出口个数和甚块的动态执行结果而存在.以此为据,提出了基于类型预测的甚块预测器.该预测器摈弃了甚块出口号,直接对甚块出口类型进行预测.随后,根据对甚块出口类型可预测性的分析,通过实验证明甚块出口类型与历史和路径信息相关.仿真结果显示,与经典的基于出口预测的甚块预测器相比,文中提出的基于类型预测的甚块预测器能够将每千条指令误预测次数平均降低约10％. 相似文献

7.

分片式处理器上的谓词执行技术优化

邓春华安虹路璐王耀彬《小型微型计算机系统》2012,33(2):399-403

谓词执行能使分片式处理器充分利用众多的执行单元,开发指令级并行性.但因此形成的超块也使得分支误预测代价增大,所以提高分支预测器的性能至关重要.本文提出一种基于剖析信息决策的谓词执行技术,该技术利用剖析信息对谓词执行前后的执行周期进行估算,从而对分支的谓词执行进行决策.该技术使分支预测器的命中率提高了0.68%～3.50%,使系统性能提高了1.67%～8.33%.同时,利用select指令表示谓词化指令也消除了重命名阶段寄存器多定义问题. 相似文献

8.

基于历史长度自适应的分支预测方法

赵朝君陈晨陈志坚孟建熠《计算机辅助设计与图形学学报》2015,(4)

通过研究处理器动态分支预测器中预测效率与分支历史长度的关系,针对程序中各分支指令存在不同最优历史长度的规律,提出一种搜索各分支指令最佳历史长度的分支预测方法.该方法通过实时监测分支指令的预测准确率,在分支预测表硬件资源不变的情况下动态调整预测器的历史长度,以适应程序的动态运行特征.实验结果表明,在相同硬件资源下,文中方法相对于Gshare预测器错误率降低15.8%,相对于Bi-mode预测器预测错误率降低10.3%. 相似文献

9.

基于SimpleScalar的动态分支预测器研究

张筱史战果吴迪《微型电脑应用》2011,27(11):19-21,68,69

分支预测精度是影响当代处理器性能的重要指标,在近十年内一直是学术界和工业界的研究热点。为给不同应用场合的处理器动态分支预测器设计提供性能参考,针对处理器架构设计中应用广泛的几种动态分支预测器,使用SPEC CPU2000在SimpleScalar模拟器中进行仿真及测试分析。测试结果以预测精度和指令/时钟周期作为指标,并结合硬件开销,分析了不同种类分支预测器的适用对象和场合。相似文献

10.

基于整数线性规划的VLIW DSP指令分簇调度

周鹏《计算机应用研究》2022,39(10)

在分簇VLIW DSP上,指令分簇是一项对程序性能有重要影响的编译优化,但现有的指令分簇算法只能处理顺序的程序区域,且难以获得最佳的分簇方案。针对这些问题,提出一种基于整数线性规划的统一指令分簇与指令调度的方法。该方法使用零一决策变量表示函数中指令的分簇、指令的局部调度以及簇间传输指令的全局调度,并将指令之间的依赖关系和对处理器资源的竞争关系构造为线性约束,最终得到一个以最小化函数的估计执行时间为目标的整数线性规划模型。实验结果表明,求解该模型得到的分簇调度方案对程序性能的优化显著强于现有算法,并且求解模型所耗费的时间是可接受的。相似文献

11.

同时多线程处理器上的动态分支预测器设计方案研究

任建安虹路放梁博《计算机科学》2006,33(3):239-243

同时多线程处理器（SMT）每个周期能够从多个线程中发射指令执行，从而大大地提高了超标量微处理器的指令吞吐量，但多个线程的同时执行也带来了许多硬件资源的共享冲突问题.其中，多个线程共享分支预测硬件的方案会对分支预测精度产生较大的影响.研究SMT处理器中分支处理方案对于处理器整体性能的影响，对于指导SMT处理器的设计是十分重要的.本文利用SMT处理器模拟器，针对各线程运行独立应用的SMT结构实验评估了几种著名的分支预测方案;给出了在单线程和多线程情况下，分支预测方案对分支预测精度和处理器整体性能的影响的分析;总结出在这样的SMT结构中，各线程拥有独立的预测器是一种较好的选择，并且由于各独立预测器可以采用小而简单的结构，所以不会带来太多的硬件开销. 相似文献

12.

值预测技术中基本值预测模型的功耗分析

下载免费PDF全文

冀蓉张民选陈怒兴《计算机工程与科学》2006,28(4):126-129

值预测是通过推断执行来提高ILP的有效技术之一，但实现其预测模型的硬件成本和功耗却是制约它的两个主要因素。本文从实现值预测的底层电路入手，着重探究了启用值预测时功耗的主要来源，并从性能与功耗比率的角度对目前值预测中采用的几种预测模型进行了比较和评估。相似文献

13.

An enhanced two-level adaptive multiple branch prediction for superscalar processors

《Journal of Systems Architecture》1999,45(8):591-602

This paper proposes an enhanced method of multiple branch prediction using a per-primary branch history table. This scheme improves the previous ones based on a single global branch history register, by reducing interferences among histories of different branches caused by sharing a single register. This scheme also allows the prediction of a branch not to affect the prediction of other branches that are predicted in the same cycle, thus allowing independent and parallel prediction of multiple branches. Our experimental results indicate that these features help to achieve higher prediction accuracy than that of the previous global history scheme (which is already high) with the less hardware cost (i.e., 96.1% vs. 95.1% for integer code and 95.7% vs. 94.9% for floating-point code including nasa7, for a given hardware budget of 128K bits). Moreover, the increased prediction accuracy causes better fetch bandwidth of a superscalar machine (i.e., 7.1 vs. 6.9 instructions per clock cycle for integer code and 11.0 vs. 10.9 instructions per cycle for floating-point code). 相似文献

14.

车载自组网中基于无证书的密钥隔离批量消息认证方案

汪锐曹素珍王斐郎晓丽杜霞玲《计算机工程与科学》2019,41(9):1588-1596

针对车载自组网(VANET)中匿名认证存在的安全性问题,提出了一种高效的车载自组网的匿名认证方案。该方案将无证书密码体制和密钥隔离技术结合应用在车载自组网的环境中,通过更新协助器RSU与车辆用户OBUi的密钥,使得某时间段的临时私钥的泄漏不会影响到前向和后向的安全性,并在随机预言模型下证明了该方案的安全性。最后,性能分析结果表明,该方案不仅提高了消息签名匿名认证的效率,而且降低了整个系统运算的开销,具有较好的理论意义与实用价值。相似文献

15.

Java监视器的硬件支持及其操作算法

李宗伯邓佳贾蕾胡守仁《计算机研究与发展》2000,37(10):1204-1211

为支持线程间的同步,Ｊａｖａ虚拟机中引入了监视器进入与退出指令,但这会在大部分的Ｊａｖａ程序中产生严重的性能问题,在目前的软件实现方法中,存在内存开销大或性能较低等问题。因此,ｐｉｃｏＪａｖａ内核对监视器进行了硬件支持,能大大提高性能,降低内存开销,但是,它却存在进入命中率较低的问题,根据Ｊａｖａ程序中监视器操作具有再入频率低但格局性好的特征,提出了一种高效的硬件支持方案及相应算法,有效地提高了命相似文献

16.

基于Hash树热点窗口的存储器完整性校验方法

侯方勇王志英刘真《计算机学报》2004,27(11):1471-1479

该文描述了一种存储器完整性校验的硬件方案．首先．介绍了存储器完整性校验的情况；然后．提出了基于Hash树热点窗口的存储器完整性校验方法．该方法将存储器访问的局部性特征与Hash树完整性校验原理相结合．通过缩短多数情况下校验所需路径的长度以及对节点实施恰当的缓冲，来有效减小完整性检验的代价．该文描述了该方法的原理、算法与系统实现．并进行了模拟．理论分析和模拟结果表明该方法在应用上是高性能的，同时也是低代价的．相似文献

17.

大型柴油车电子调速器设计

常建军李声晋卢刚皇甫剑锋《测控技术》2011,30(9):34-37

提出了一种数字式电子调速器设计方案.硬件方面进行了合理的器件选型,设计了转速信号处理、执行器驱动等电路.通过对执行器特性的分析,提出了分段自适应PID控制策略,确立了PID相关参数的分段规律,制定了详细的数值列表.为了更好地解决柴油机运动滞后问题,在PID调速控制中引入了史密斯预估校正.最后,为了验证设计方案可靠性与合... 相似文献

18.

Hardware and compiler-directed cache coherence in large-scalemultiprocessors: Design considerations and performance study

Choi L. Pen-Chung Yew 《Parallel and Distributed Systems, IEEE Transactions on》2000,11(4):375-394

In this paper, we study a hardware-supported, compiler-directed (HSCD) cache coherence scheme, which can be implemented on a large-scale multiprocessor using off-the-shelf microprocessors, such as the Cray T3D. The scheme can be adapted to various cache organizations, including multiword cache lines and byte-addressable architectures. Several system related issues, including critical sections, interthread communication, and task migration have also been addressed. The cost of the required hardware support is minimal and proportional to the cache size. The necessary compiler algorithms, including intra- and interprocedural array data flow analysis, have been implemented on the Polaris parallelizing compiler. From our simulation study using the Perfect Club benchmarks, we found that in spite of the conservative analysis made by the compiler, for four of six benchmark programs tested, the proposed HSCD scheme outperforms the full-map hardware directory scheme up to 70 percent while the hardware scheme outperforms the HSCD scheme in the remaining two applications up to 89 percent. Given its comparable performance and reduced hardware cost, the proposed scheme can be a viable alternative for large-scale multiprocessors such as the Cray T3D, which rely on users to maintain data coherence 相似文献

19.

Algorithm/Architecture Co-Design of 3-D Spatio–Temporal Motion Estimation for Video Coding

Gwo Giun Lee Ming-Jiun Wang He-Yuan Lin Drew Wei-Chi Su Bo-Yun Lin 《Multimedia, IEEE Transactions on》2007,9(3):455-465

This paper presents a new spatio-temporal motion estimation algorithm and its VLSI architecture for video coding based on algorithm and architecture co-design methodology. The algorithm consists of the new strategies of spatio-temporal motion vector prediction, modified one-at-a-time search scheme, and multiple update paths derived from optimization theory. The hardware specification is for high-definition video coding. We applied the ME algorithm to H.264 reference software. Our algorithm surpasses recently published research and achieves close performance to full search. The VLSI implementation proves the low cost feature of our algorithm. The algorithm and architecture co-design concept is highly emphasized in this paper. We provide some quantitative example to show the necessity of algorithm and architecture co-design 相似文献

20.

动态量化的LDPC译码器结构

下载免费PDF全文

沈旭梁伟李婉叶凡任俊彦《计算机工程》2011,37(21):232-234,237

为降低低密度奇偶校验码(LDPC)译码器的复杂度,提出动态量化的LDPC译码器结构。针对传统并行结构,采用自适应动态量化算法、层调度策略以及最小和算法,在译码的同时调整信息量化方式,由此设计自适应估计电路,并统计幅值过大的信息比例。实验结果表明,该结构能以较小的性能损失降低LDPC译码器的复杂度。相似文献