期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

袁良张云泉龙国平王可张先轶《软件学报》2010,21(Z1):251-262

近年来在生物计算,科学计算等领域成功地应用了GPU 加速计算并获得了较高加速比.然而在GPU 上编程和调优过程非常繁琐,为此,研究人员提出了许多提高编程效率的编程模型和编译器,以及指导程序优化的计算模型,在一定程度上简化了GPU上的算法设计和优化,但是已有工作都存在一些不足.针对GPU低延迟高带宽的特性,提出了基于延迟隐藏因子的GPU 计算模型,模型提取算法隐藏延迟的能力,以指导算法优化.利用3 种矩阵乘算法进行实测与模型预测,实验结果表明,在简化模型的情况下,平均误差率为0.19. 相似文献

2.

HRBF500螺纹直条的质量控制要点

张先轶吴惠英陈华斌李刚王云川韩德飞《工业建筑》2009,39(11)

以20MnSi坯料为基本成分,通过调整化学成分,修改精轧孔型设计参数,采用控制轧制和控制冷却工艺,成功地生产铁素体晶粒尺寸在5~10μm的500 MPa级细晶粒钢筋。结合500 MPa级细晶粒螺纹直条的开发经验,对影响产品质量的若干因素进行分析,并提出解决办法。相似文献

3.

400MPa级细晶粒螺纹钢筋的生产开发 总被引：1，自引：0，他引：1

张先轶吴惠英陈华斌李刚王云川《钢铁》2010,45(1)

针对现有工艺设备,以20MnSi坯料为母材,通过调整化学成分,修改精轧孔型设计参数,采用控制轧制和控制冷却工艺,成功地生产铁素体晶粒尺寸在5～10μm的400 MPa级细晶粒钢筋。相似文献

4.

Memory E?cient Two-Pass 3D FFT Algorithm for Intelr Xeon PhiTM Coprocessor

下载免费PDF全文

刘益群李焱张云泉张先轶《计算机科学技术学报》2014,(6)

Equipped with 512-bit wide SIMD instructions and large numbers of computing cores, the emerging x86-based Intelr Many Integrated Core (MIC) Architecture provides not only high floating-point performanc... 相似文献

5.

P-QuantWiz:一种基于质谱的并行非标记定量软件

胡泽林张云泉王靖张先轶《计算机工程与科学》2009,31(11)

本文设计并实现了基于质谱的非标记定量软件QuantWiz,通过改变肽段定量的顺序,提高了定量软件的时间局部性和质谱数据缓存的命中次数。分析了QuantWiz的多种数据并行策略,设计并实现了按保留时间划分的并行定量软件P-QuantWiz。通过实验验证P-QuantWiz具有良好的并行效率,当进程数为32时,并行效率为63%。相似文献

6.

永钢SWRCH35K冷镦钢盘条的质量控制要点

张先轶李刚韩德飞王云川《冶金标准化与质量》2010,48(1):18-21

永钢立足现有工艺装备,通过调整化学成分,明确转炉冶炼、LF精炼、连铸和高线轧制等过程的质量控制点,成功生产出SWRCH35K冷镦钢盘条。结合永钢SWRCH35K的开发经验,分析了该钢种生产过程的质量控制要点,并提出改进措施。相似文献

7.

BLAS 库在多核处理器上的性能测试与分析

陈少虎张云泉张先轶程豪《软件学报》2010,21(Z1):214-223

BLAS 库是高性能计算中最基本的数学库,它的性能对超级计算机的性能有着极大的影响.而且随着CPU多核化的发展,BLAS 的多核并行性能已经变得比与体系结构相关的单核性能更加重要.实验以流行于高性能计算的Xeon、Opteron 系列多核X86 处理器为例,全面测试了GotoBLAS、Atlas、MKL 和ACML 四种主流的BLAS 库的所有1,2,3 级函数,并覆盖了不同计算规模和多核并行方面的测试.通过测试结果,分析源代码、BLAS 库资料和论文的方式,分析BLAS 有效的优化和并行方法,以及它们所适合的平台.为BLAS 的优化、使用,甚至高性能处理器的发展上提供有益的建议.实验结果表明,比起一个逻辑处理强大但是复杂的处理器,一个cache 更大、性能更好,内存带宽更宽、延迟更小,主频更高的处理器往往能在高性能计算中取得更好的性能.同时,X86 平台上的状况对其他体系结构也有巨大的借鉴意义. 相似文献

8.

基于混合精度算法的改进HPL软件包

下载免费PDF全文

王磊张云泉刘芳芳张先轶《计算机工程》2010,36(19):47-49

利用求解线性方程组的混合精度算法,对HPL软件包进行改进。从性能与加速比、迭代时间与迭代次数以及误差分析3个方面,在四路AMD Opteron870双核处理器平台上,对原HPL与改进的HPL软件包进行对比测试。实验结果表明,改进的HPL软件包在保证双精度浮点精度要求的前提下,计算性能大约提高1倍,并具有良好的可扩展性。相似文献

9.

CPU-GPU并行矩阵乘法的实现与性能分析 总被引：2，自引：1，他引：1

程豪张云泉张先轶李玉成《计算机工程》2010,36(13):24-26,29

实现ATI平台上的CPU-GPU混合并行DGEMM,采用在GPU和CPU上同时进行计算的方法来提高运算性能。实验结果证明,当矩阵规模较大时,在AMD Phenom II X4 940和ATI FireStream 9270平台上,混合DGEMM性能相对于单独使用GPU平均提升了16%。通过实验验证了混合DGEMM性能、加速比、任务分配比例的估算方法,并探讨了影响混合DGEMM性能的各种因素。相似文献

10.

Memory Efficient Two-Pass 3D Coprocessor FFT Algorithm for Intel（R） Xeon Phi TM

下载免费PDF全文

刘益群 ;李焱 ;张云泉 ;张先轶《计算机科学技术学报》2014,29(6):989-1002

Equipped with 512-bit wide SIMD inst d large numbers of computing cores, the emerging x86-based Intel（R） Many Integrated Core （MIC） Architecture ot only high floating-point performance, but also substantial off-chip memory bandwidth. The 3D FFT （three-di fast Fourier transform） is a widely-studied algorithm; however, the conventional algorithm needs to traverse the three times. In each pass, it computes multiple 1D FFTs along one of three dimensions, giving rise to plenty of rided memory accesses. In this paper, we propose a two-pass 3D FFT algorithm, which mainly aims to reduce of explicit data transfer between the memory and the on-chip cache. The main idea is to split one dimension into ensions, and then combine the transform along each sub-dimension with one of the rest dimensions respectively erence in amount of TLB misses resulting from decomposition along different dimensions is analyzed in detail. el parallelism is leveraged on the many-core system for a high degree of parallelism and better data reuse of loc On top of this, a number of optimization techniques, such as memory padding, loop transformation and vectoriz employed in our implementation to further enhance the performance. We evaluate the algorithm on the Intel（R） PhiTM coprocessor 7110P, and achieve a maximum performance of 136 Gflops with 240 threads in offload mode, which ts the vendor-specific Intel（R）MKL library by a factor of up to 2.22X. 相似文献