期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

蔡雨孙成国杜朝晖刘子行康梦博李双双《软件学报》2021,32(8):2289-2306

异构HPL（high-performance Linpack）效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务、平衡负载的前提下,优化CPU端计算性能对整体效率的提升尤为重要.针对具体平台体系结构特点对BLAS（basic linear algebra subprograms）函数进行优化往往可以更加充分地利用通用CPU计算能力,提高系统整体效率.BLIS（BLAS-like library instantiation software）算法库是开源的BLAS函数框架,具有易开发、易移植和模块化等优点.基于异构系统平台体系结构以及HPL算法特点,充分利用三级缓存、向量化指令和多线程并行等技术手段优化CPU端调用的各级BLAS函数,应用auto-tuning技术优化矩阵分块参数,从而形成了HygonBLIS算法库.与MKL相比,在异构环境下,HPL算法整体性能提高了11.8%. 相似文献

2.

异构HPL算法中CPU端高性能BLAS库优化

蔡雨孙成国杜朝晖刘子行康梦博李双双《软件学报》2020,31(7)

异构HPL（High-performance Linpack）效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务,平衡负载的前提下,优化CPU端计算性能对整体效率的提升尤为重要.针对具体平台体系结构特点对BLAS（Basic linear Algebra Subprograms）函数进行优化往往可以更加充分的利用通用CPU计算能力,提高系统整体效率.BLIS（BLAS-like Library Instantiation Software）算法库是开源的BLAS函数框架,具有易开发、易移植和模块化等优点.本文基于异构系统平台体系结构以及HPL算法特点,充分利用三级缓存、向量化指令和多线程并行等技术手段优化CPU端调用的各级BLAS函数,应用auto-tuning技术优化矩阵分块参数,从而形成了HygonBLIS算法库,与MKL相比,异构环境下HPL整体性能提高了11.8%. 相似文献

3.

面向存储层次设计优化的GPU程序性能分析

唐滔彭林黄春杨灿群《计算机科学》2017,44(12):1-10

图形处理器凭借着比传统CPU更高的峰值性能和能效,以及日渐成熟的软件环境,逐渐成为构建异构并行系统的最流行的加速器之一。虽然GPU依靠轻量级线程的灵活切换来隐藏访存延迟,但其超高的并发度仍然给存储系统带来了很大压力,其性能的有效发挥受访存效率的强烈影响。因此GPU程序的访存行为分析及优化一直是GPU相关领域的研究热点,但很少有工作从体系结构的角度分析存储层次的设计对性能的影响。为了更好地指导GPU存储层次的设计和访存优化,从实验的角度详细地分析了GPU各存储层次对程序性能的影响,并总结出若干指导性的优化策略,为未来类似体系结构的存储层次设计和程序优化提供建议。相似文献

4.

缓冲区结构效率分析

下载免费PDF全文

苏航薛彦涛《计算机工程》2011,37(13):20-25

I/O设备与CPU的速度不匹配,制约了计算机系统性能的进一步提高。为此,根据计算机体系结构,对缓冲区结构的效率进行分析,使用EDA计算机辅助设计软件QuartusII设计异步双时钟FIFO缓冲区,并对其进行仿真验证及数据记录,通过对数据的分析,证明系统整体效率与FIFO效率密切相关,只有实现FIFO效率的最大化,才能使系统整体效率最大化,同时FIFO效率最大化也只能在完成系统效率最大化的过程中得以实现。相似文献

5.

面向数据库查询加速的异构体系结构设计与实现

李仁刚任智新黄广奎孙颉王峰张闯《计算机工程与科学》2020,42(12):2169-2178

数据库是数据分析、人工智能、云计算和大数据等领域的关键工作负载,是提高系统整体性能的关键。传统数据库系统查询执行效率偏低,并且CPU通常需要优先处理事务性负载,使数据查询逐渐成为制约整个数据库系统性能和效率提升的瓶颈。为了提高数据库在大规模并发访问时的数据处理能力,提出了一种CPU+FPGA加速数据库查询的异构体系结构,通过使用异构缓存一致性加速接口将加速器集成到CPU中,在FPGA内定制可配置的多引擎查询方式,对数据库查询进行加速。聚焦常用的SQL查询语句SELECT,详细分析了系统在延迟和简化的软件堆栈方面的优势,最后使用浪潮F37X加速卡和浪潮服务器对加速模型功能和性能进行了验证。实验结果表明,与使用POWER 9 CPU进行同样的查询操作相比,数据库系统整体处理速度提高了3～9倍,这种先进的异构计算加速结构可应用在未来数据库硬件专业化的设计中。相似文献

6.

钻井数据库集群监测系统的设计与实现

邱爽任树华《计算机技术与发展》2011,21(2)

为了及时了解制约整个钻井数据库集群系统在海量数据的OLTP商业应用中执行效率的主要性能瓶颈,有必要实施对集群的管理维护,保证系统件能的优化.因此,论文以钻井数据库集群系统为背景,分析集群系统的体系结构和性能优化,设计并实现了一种基于C#的轮询监测数据库集群系统的体系结构模型,还详细介绍了数据采集、管理以及数据可视化各个模块的具体实现.通过对钻井数据库集群系统进行轮询监测,周期的从节点中采样CPU利用率、网络流量以及各磁盘的状态情况等性能指标,进一步验证了该软件的町用性和有效性. 相似文献

7.

系统诊断、优化一条龙

《数字社区&智能家居》2008,(12)

Advanced Windows Care是一款可以分析系统性能瓶颈的优化工具，该软件通过对系统全方位的诊断，找到系统性能的瓶颈所在，然后有针对性地进行修改、优化，优化后系统性能和网络速度都会有明显提升!使用Advanced Windows Care还可以对电脑进行间谍软件扫描、安全防卫、注册表扫描、系统分析、启动项扫描、隐私清理、临时文件扫描等操作。相似文献

8.

VLIW DSP体系结构及其性能优化的软件方法 总被引：5，自引：0，他引：5

章立生韩承德《计算机工程与应用》2001,37(5):25-27,31

影响DSP系统性能的因素主要有DSP处理器的体系结构、存储器系统、外设接口等硬件技术和程序优化等软件技术,其中软件的优化设计在DSP性能优化中起着越来越重要的作用。文章简要介绍了常见DSP系统的体系结构和存储器组织方法,并通过实例说明了对VLIW DSP系统进行软件优化的几种技术。相似文献

9.

基于计算缓存方法的分子动力学程序性能优化

张宝印莫则尧曹小林《计算机工程与科学》2009,31(11)

分子动力学数值模拟程序在现代高性能计算机上的计算效率往往很低,只能发挥系统峰值性能的几个百分点。本文对并行分子动力学程序PMD3D在联想深腾6800超级计算机上进行性能优化。通过性能分析,我们发现粒子相互作用力计算中相互关联的浮点运算严重影响了处理器的指令级并行效率,为此我们应用计算缓存的方法,将大量不规则的浮点计算进行缓存,达到一定规模后再进行向量化计算。这样使得单机性能在优化后提升4倍多,达到处理器峰值性能5.2GFlops的32.3%。最后,在深腾6800的64个节点的256个CPU上进行了并行性能测试,达到峰值运算性能1.3万亿次的27%。相似文献

10.

面向Linux NC的Java虚拟机的性能优化

杨丽洁《计算机应用》2006,26(5)

针对目前Linux NC中Java虚拟机运行Java程序存在的性能问题.提出了一种优化方案,以直接线索式解释器为基础优化技术,并设计3项扩展优化点突出优化效果.旨在兼顾Linux NC现有的硬件和软件条件,有效地提升Java虚拟机运行效率,同时保证较低的CPU和内存成本. 相似文献

11.

龙芯2号同时多线程处理器的软硬件接口设计 总被引：1，自引：0，他引：1

李祖松许先超胡伟武唐志敏《软件学报》2007,18(7):1806-1817

随着生产工艺的提高,芯片上能集成越来越多的晶体管,多线程技术也逐步成为一种主流的处理器体系结构技术,而多线程处理器的软硬件接口也就成为急需解决的问题.在分析同时多线程的软件需求的基础上,提出龙芯2号同时多线程处理器的软硬件接口协同设计解决方案,给出相应的操作系统实现方案.同时,在Linux 2.4.20的基础上实现了龙芯2号同时多线程处理器相应的操作系统.通过运行SPEC CPU2000等测试程序进行性能评测,充分说明实现软硬件接口的龙芯2号同时多线程处理器极大地提高了多进程负载的性能.分析和设计方案不仅适用于同时多线程处理器,而且对于片内多核处理器的设计也有借鉴作用. 相似文献

12.

A software instruction prefetching method in architectures with static scheduling

A. B. Galazin E. V. Stupachenko S. L. Shlykov 《Programming and Computer Software》2008,34(1):49-53

The performance of modern microprocessors considerably depends on the efficient workload of their execution units. The performance in modern applications is considerably affected by instruction stalls. Until recently, the problem of instruction stalls was mainly studied for superscalar microprocessors. A software instruction prefetching method for VLIW/EPIC architectures that makes it possible to improve performance for a certain class of problems is described. 相似文献

13.

关于CPU的一些性能介绍

胡健《数字社区&智能家居》2014,(2):847-849

CPU（中央处理器）广泛应用于计算机工程领域。该文主要论述了CPU的性能,主要包括超长指令字处理器、超标量、处理器体系结构、优于最坏情况设计,分析了其发展方向。相似文献

14.

基于FPGA的TOE网卡设计与实现

赵喜全刘兴奎郡宗有刘朝辉窦晓光赵晓芳《计算机工程》2011,37(3):241-243,247

为进一步减轻CPU的负担,有效增加系统性能,描述一种基于FPGA的TCP减负引擎系统的设计与实现。该TOE网卡将部分TCP协议软件处理下移到FPGA中实现,以硬件的方法实现报文分类和TCP流还原等流量处理功能。实验数据表明,使用TOE网卡可以大幅降低主机的CPU占用率。相似文献

15.

龙芯2号处理器的同时多线程设计 总被引：1，自引：0，他引：1

李祖松许先超胡伟武唐志敏《计算机学报》2009,32(11)

提出了适合龙芯2号处理器的同时多线程处理器模型,并介绍了具体的微体系结构设计以及相应的Linux操作系统的实现方案.通过在设计的龙芯2号同时多线程处理器上启动Linux操作系统,并运行应用程序,例如SPEC CPU2000,进行性能评测.结果表明,龙芯2号同时多线程处理器通过挖掘线程级并行性,将龙芯2号处理器的性能提高了31.1%. 相似文献

16.

Algorithm level power efficiency optimization for CPU-GPU processing element in data intensive SIMD/SPMD computing

Da Qi Ren^{Author Vitae} 《Journal of Parallel and Distributed Computing》2011,71(2):245-253

Power efficiency investigation has been required in each level of a High Performance Computing (HPC) system because of the increasing computation demands of scientific and engineering applications. Focusing on handling the critical design constraints in the software level that run beyond a parallel system composed of huge numbers of power-hungry components, we optimize HPC program design in order to achieve the best possible power performance on the target hardware platform. The power performance of a CUDA Processing Element (PE) is determined by both hardware factors including power features of each component including with CPU, GPU, main memory and PCI buses, and their interconnection architecture; and software factors including algorithm design and the character of executable instructions performed on it. In this paper, approaches to model and evaluate the power consumption of large scale SIMD computation by CUDA PEs on multi-core and GPU platforms are introduced. The model allows obtaining design characteristic values at the early programming stage, thus benefitting programmers by providing the necessary environment information for choosing the best power-efficient alternative. Based on the model, CPU Dynamic frequency scaling (DFS) can be applied on CUDA PE architecture that adjusts CPU frequency to enhance power efficiency of the entire PE without compromising its computing performance. The power model and power efficiency improvements of the new designs have been validated by measuring the new programs on the real GPU multiprocessing system. 相似文献

17.

CRH1与CRH2动车组牵引变流器性能比较与优化

朱琴跃王俊哲刘爱雷《计算机工程与应用》2013,(21):255-261

动车组牵引变流器的性能是评估动车纽安全高效运行的重要指标之一。以CRH1A和CRH2A型动车组牵引变流器为对象,基于Matlab／Simulink仿真软件对两种变流器的性能及其优化进行了研究。根据两种变流器主电路实际设计参数分别建立了各自的仿真模型,比较和分析了相应主电路结构及其对应的控制策略对系统输入输出性能的影响。在此基础上,探究了空间矢量脉宽调制SVPWM控制策略应用在CRH2A型动车组变流器中对改善变流器输入输出特性及动态性能的效果,通过仿真建模初步验证了该结论。仿真结果和数据基本符合预期目标。相似文献

18.

VMW: a visualization-based microarchitecture workbench

Diep T.A. Shen J.P. 《Computer》1995,28(12):57-64

Superscalar processor design requires increasingly sophisticated software tools. The visualization-based microarchitecture workbench described in the paper addresses weaknesses common to most performance simulators: the lack of retargetability, visualization support, and interactive control. VMW provides a multifunction workbench for aiding designers of modern superscalar processors. It facilitates rigorous machine specification by providing specification templates at both the architecture and microarchitecture levels 相似文献

19.

用多智能代理和网络数据流测试应用软件性能

陈佳《计算机与网络》2009,35(2):69-71

现代信息系统中新型软件架构层出不穷,软硬件和网络通讯之间的相互关联作用日益复杂,加大了系统性能瓶颈查找的难度。文章探讨如何通过多智能代理技术等方法,截取、分析和回放网络数据流来评价软件系统的性能。相似文献

20.

A Cost-Effective Architecture for Vectorizable Numerical and Multimedia Applications

Francisca Quintana Jesus Corbal Roger Espasa Mateo Valero 《Theory of Computing Systems》2003,36(5):575-593

This paper analyzes the performance of vector-dominated regions of code in numerical and multimedia applications in a superscalar + vector architecture and compares it with an eight-way superscalar processor. The ability to split a program’s execution into scalar and vector regions allows us to show that (1) as expected, the vector unit is much better than the wide-issue superscalar at executing the vector-dominated regions of the code; (2) on the scalar regions, the eight-way superscalar, although better than a four-way superscalar, is clearly not worth the extra complexity in terms of extra transistors and potential cycle-time limitations. Overall, the vector-enhanced superscalar is from 6% to 303% better than an eight-way superscalar. We also present detailed data on the performance of the memory system, which is usually the key limiting factor when running numerical and multi-\break media applications. We evaluate two additional cache designs that try to alleviate problems created by non-unit stride memory references. 相似文献