期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘世芳赵永华黄荣锋于天禹张馨尹《软件学报》2023,34(11):4952-4972

给出批量矩阵的LU分解和批量求逆算法在GPU上实现及优化方法.针对批量LU分解问题,分析Leftlooking和Right-looking等常用LU分解块算法在GPU上实现时对全局内存的数据读写次数,针对GPU架构特点,选择具有较少访存数据量的Left-looking块算法.在LU分解的选主元过程,采用适合GPU架构的并行二叉树搜索算法.此外,为了降低选主元引起的行交换过程对算法性能的影响,提出Warp分组行交换和行交换延迟2个优化技术.针对LU分解后的批量求逆问题,分析矩阵求逆过程中修正方法,为了减少修正过程对全局内存的访问,在批量求逆的GPU实现中采用延迟修正的矩阵求逆块算法.同时,为了加快数据读写速度,采用更多利用寄存器和共享内存的优化方法和减少访存数据量的列交换优化方法.另外,为了避免线程的闲置和共享内存等GPU资源浪费,提出运行时动态GPU资源分配方法,相较于一次性分配的静资源分配方法性能得到明显提升.最终,在TITAN V GPU上,对10 000个规模在33–190之间的随机矩阵进行测试,测试的数据类型为单精度复数、双精度复数、单精度实数和双精度实数.所实现的批量LU分解... 相似文献

2.

广义稠密对称特征问题标准化算法在GPU集群上的有效实现

刘世芳赵永华于天禹黄荣锋《计算机科学》2020,47(4):6-12

广义稠密对称特征问题的求解是许多应用科学和工程的主要任务,并且是计算电磁学、电子结构、有限元模型和量子化学等计算中的重要部分。将广义对称特征问题转化为标准对称特征问题是求解广义稠密对称特征问题的关键计算步骤。针对GPU集群,文中给出了广义稠密对称特征问题标准化块算法在GPU集群上基于MPI+CUDA的实现。为了适应GPU集群的架构,广义对称特征问题标准化算法将正定矩阵的Cholesky分解与传统的广义特征问题标准化块算法相结合,降低了标准化算法中不必要的通信开销,并且增强了算法的并行性。在基于MPI+CUDA的标准化算法中,GPU与CPU之间的数据传输操作被用来掩盖GPU内的数据拷贝操作,这消除了拷贝所花费的时间,进而提高了程序的性能。同时,文中还给出了矩阵在二维通信网格中行通信域和列通信域之间完全并行的点对点的转置算法和基于MPI+CUDA的具有多个右端项的三角矩阵方程BX=A求解的并行块算法。在中科院计算机网络信息中心的超级计算机系统“元”上,每个计算节点配置2块Nvidia Tesla K20 GPGPU卡及2颗Intel E5-2680 V2处理器,使用多达32个GPU对不同规模矩阵的基于MPI+CUDA的广义对称特征问题标准化算法进行测试,取得了较好的加速效果与性能,并且具有良好的可扩展性。当使用32个GPU对50000×50000阶的矩阵进行测试时,峰值性能达到了约9.21 Tflops。相似文献

3.

刚玉-莫来石质承烧板的研制

宋先刚谭汝泉彭文黄荣锋《佛山陶瓷》2013,23(2):23-26

本文采用正交设计方法研究了氧化铝微粉、高岭土及烧成温度对刚玉-莫来石复相陶瓷热震稳定性及蠕变性能的影响机制。结果表明：对于复相陶瓷的抗热震性而言,影响最大的是高岭土,其次是氧化铝微粉,烧成温度的影响最小;对于抗蠕变性而言,影响最大的是氧化铝微粉,其次是烧成温度,高岭土对蠕变量的影响最小。氧化铝微粉的加入量增加可以使蠕变量下降,抗热震性提高;烧成温度提高会使蠕变量减小,但是对抗热震性不利;随高岭土加入量增加抗热震性呈降低趋势。相似文献

4.

并行对称矩阵三对角化算法在GPU集群上的有效实现

刘世芳赵永华于天禹黄荣锋《计算机研究与发展》2020,57(12):2635-2647

相似文献