首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
油藏数值模拟和很多其他科学计算问题一样需要求解大型稀疏线性代数方程组.在求解稀疏线性代数方程组的迭代法中,稀疏矩阵向量乘法(SpMV)是影响计算效率的核心函数之一.随着计算机硬件架构异构化,科学计算从单核、多核CPU计算架构逐渐发展到多核CPU+众核加速卡(GPU卡或MIC等)的计算架构.SpMV的实现效率与稀疏矩阵的存储格式及硬件架构关系密切.本文针对油藏模拟中常见的Jacobian矩阵的稀疏模式,利用GPU核心的合并访问和并发计算等特点,结合油藏模拟线性解法器的算法要求,设计了一种BHYB矩阵存储格式及其对应的线程组并行策略.数值实验测得基于该存储格式的SpMV相对串行BCSR格式的SpMV的加速比可达19倍,比cuSPARSE库中效率最高的HYB格式的SpMV快30%到80%.此外,本文所提出的BHYB存储格式对块状矩阵在GPU上的存储以及线程组并行策略对其它GPU并行程序中内核函数的设计和优化能起到一定的借鉴作用.  相似文献   

2.
稀疏矩阵与向量相乘SpMV是求解稀疏线性系统中的一个重要问题,但是由于非零元素的稀疏性,计算密度较低,造成计算效率不高。针对稀疏矩阵存在的一些不规则性,利用混合存储格式来进行SpMV计算,能够提高对稀疏矩阵的压缩效率,并扩大其适应范围。HYB是一种广泛使用的混合压缩格式,其性能较为稳定。而随着GPU并行计算得到普遍应用以及CPU日趋多核化,因此利用GPU和多核CPU构建异构并行计算系统得到了普遍的认可。针对稀疏矩阵的HYB存储格式中的ELL和COO存储特征,把两部分数据分别分割到CPU和GPU进行协同并行计算,既能充分利用CPU和GPU的计算资源,又能够发挥CPU和GPU的计算特性,从而提高了计算资源的利用效能。在分析CPU+GPU异构计算模式的特征的基础上,对混合格式的数据分割和共享方面进行优化,能够较好地发挥在异构计算环境的优势,提高计算性能。  相似文献   

3.
稀疏矩阵向量乘(SpMV)在线性系统的求解问题中具有重要意义,是科学计算和工程实践中的核心问题之一,其性能高度依赖于稀疏矩阵的非零分布。稀疏对角矩阵是一类特殊的稀疏矩阵,其非零元素按照对角线的形式密集排列。针对稀疏对角矩阵,在GPU平台上提出的多种存储格式虽然使SpMV性能有所提升,但仍存在零填充和负载不平衡的问题。针对上述问题,提出了一种DRM存储格式,利用基于固定阈值的矩阵划分策略和基于迭代归并的矩阵重构策略,实现了少量零填充和块间负载平衡。实验结果表明,在NVIDIA? Tesla? V100平台上,相比于DIA、HDC、HDIA和DIA-Adaptive格式,在时间性能方面,该存储格式分别取得了20.76,1.94,1.13和2.26倍加速;在浮点计算性能方面,分别提高了1.54,5.28,1.13和1.94倍。  相似文献   

4.
稀疏矩阵向量乘法(sparse matrix vector multiplication,SpMV)是科学和工程领域中重要的核心子程序之一,也是稀疏基本线性代数子程序(basic linear algebra subprograms,BLAS)库的重要函数.目前很多SpMV的优化工作在不同程度上获得了性能提升,但大多数优化工作针对特定存储格式或一类具有特定特征的稀疏矩阵缺乏通用性.因此高性能的SpMV实现并没有广泛地应用于实际应用和数值解法器中.另外,稀疏矩阵具有众多存储格式,不同存储格式的SpMV存在较大性能差异.根据以上现象,提出一个SpMV的自动调优器(SpMV auto-tuner,SMAT).对于一个给定的稀疏矩阵,SMAT结合矩阵特征选择并返回其最优的存储格式.应用程序通过调用SMAT来得到合适的存储格式,从而获得性能提升,同时随着SMAT中存储格式的扩展,更多的SpMV优化工作可以将性能优势在实际应用中发挥作用.使用佛罗里达大学的2 366个稀疏矩阵作为测试集,在Intel上SMAT分别获得9.11GFLOPS(单精度)和2.44GFLOPS(双精度)的最高浮点性能,在AMD平台上获得了3.36GFLOPS(单精度)和1.52GFLOPS(双精度)的最高浮点性能.相比Intel的核心数学函数库(math kernel library,MKL)数学库,SMAT平均获得1.4~1.5倍的性能提升.  相似文献   

5.
稀疏矩阵与向量乘(SpMV)属于科学计算和工程应用中的一种基本运算,其高性能实现与优化是计算科学的研究热点之一。在微分方程的求解过程中会产生大规模的稀疏矩阵,而且很大一部分是一种准对角矩阵。针对准对角矩阵存在的一些不规则性,提出一种混合对角存储(DIA)和行压缩存储(CSR)格式来进行SpMV计算,对于分割出来的对角线区域之外的离散非零元素采用CSR存储,这样能够克服DIA在不规则情况下存储矩阵的列迅速增加的缺陷,同时对角线采用DIA存储又能充分利用矩阵的对角特征,以减少CSR的行非零元素数目的不均衡现象,并可以通过调整存储对角线的带宽来适应准对角矩阵的不同的离散形式,以获得比DIA和CSR更高的压缩比,减小计算的数据规模。利用CUDA平台在GPU上进行了实验测试,结果表明该方法比DIA和CSR具有更高的加速比。  相似文献   

6.
稀疏矩阵向量乘(SpMV)采取压缩行存储格式的算法性能非常差,而寄存器分块算法可以使得数据尽量在靠近处理器的存储层次中访问而提高性能.利用RAM(h)模型进行分析和比较不同算法形式的存储访问复杂度,可以比较两种算法的优劣.通过RAM(h)分析SpMV两种实现形式的存储访问复杂度,同时在奔腾四平台上,测试了7个稀疏矩阵的SpMV性能,并统计了这两种算法中L1,L2,和TLB的缺失率,实验结果与模型分析的数据一致.  相似文献   

7.
刘丽  陈长波 《计算机应用》2023,(12):3856-3867
稀疏-稠密矩阵乘法(SpMM)广泛应用于科学计算和深度学习等领域,提高它的效率具有重要意义。针对具有带状特征的一类稀疏矩阵,提出一种新的存储格式BRCV(Banded Row Column Value)以及基于此格式的SpMM算法和高效图形处理单元(GPU)实现。由于每个稀疏带可以包含多个稀疏块,所提格式可看成块稀疏矩阵格式的推广。相较于常用的CSR(Compressed Sparse Row)格式,BRCV格式通过避免稀疏带中列下标的冗余存储显著降低存储复杂度;同时,基于BRCV格式的SpMM的GPU实现通过同时复用稀疏和稠密矩阵的行更高效地利用GPU的共享内存,提升SpMM算法的计算效率。在两种不同GPU平台上针对随机生成的带状稀疏矩阵的实验结果显示,BRCV的性能不仅优于cuBLAS(CUDA Basic Linear Algebra Subroutines),也优于基于CSR和块稀疏两种不同格式的cuSPARSE。其中,相较于基于CSR格式的cuSPARSE,BRCV的最高加速比分别为6.20和4.77。此外,将新的实现应用于图神经网络(GNN)中的SpMM算子的加速。在实际应...  相似文献   

8.
稀疏矩阵向量乘(SpMV)是科学计算中常用的内核之一,其运行速率跟非零元分布相关.针对对角线稀疏矩阵,提出了压缩行片段对角(compressed row segment diagonal,CRSD)存储格式.它利用“对角线格式”有效描述矩阵的对角线分布,区别于以往通用的计算方法,CRSD通过对给定应用的对角线稀疏矩阵采样再进行特定的优化.并且在软件安装阶段,通过自适应的方法选取适合具体运行平台的最优SpMV实现.在CPU端进行多线程并行化实现时,自适应调优过程中收集的信息还被用于线程间任务划分,以实现负载平衡.同时完成CRSD存储格式在GPU端的实现,并根据GPU端计算与访存的特点进行优化.实验结果表明:在Intel和AMD的多核平台使用相同线程数的情况下,与DIA相比,使用CRSD的加速比可以达到2.37X(平均1.7X);与CSR相比,可以达到4.6X(平均2.1X).  相似文献   

9.
针对基于GPU求解大规模稀疏线性方程组进行了研究,提出一种稀疏矩阵的分块存储格式HMEC(hybrid multiple ELL and CSR)。通过重排序优化系数矩阵的存储结构,将系数矩阵以一定的比例分块存储,采用ELL与CSR存储格式相结合的方式以适应不同的分块特征,分别使用适用于不对称矩阵的不完全LU分解预处理BICGStab法和对称正定矩阵的不完全Cholesky分解预处理共轭梯度法求解大规模稀疏线性系统。实验表明,应用HMEC格式存储稀疏矩阵并以调用GPU kernel的方式实现前述两种方法,与其他存储格式的实现方式作比较,最优可分别获得31.89%和17.50%的加速效果。  相似文献   

10.
SpMV的自动性能优化实现技术及其应用研究   总被引:1,自引:0,他引:1  
在科学计算中,稀疏矩阵向量乘(SpMV)是一个十分重要且经常被大量调用的计算内核.由于SpMV一般实现算法的浮点计算和存储访问次数比率非常低,且其存储访问模式极为不规则,其实际运行性能往往很低.通过采用寄存器分块算法和启发式分块大小选择算法,将稀疏矩阵分成小的稠密分块,重用保存在寄存器中向量x元素,可以提高该计算内核的性能.剖析和总结了OSKI软件包所采用的若干关键优化技术,并进行了实际应用性能测试.测试表明,在实际应用这些优化技术的过程中,应用程序对SpMV的调用次数要达到上百次的量级,才能抵消由于应用这些性能优化技术所带来的额外时间开销,取得性能加速效果.在Pentium 4和AMD Athlon平台上,测试了10个矩阵,其平均加速比分别达到了1.69和1.48.  相似文献   

11.
基于JSP分页技术的研究   总被引:1,自引:0,他引:1  
电子商务应用中的数据量往往非常大,甚至会达到几十万到几千万条记录的规模,将如此大量的数据显示在一个页面里困难大、效率低。在这种情况下就需要采用分页显示技术将数据库中符合条件的数据逐页显示给用户。对JSP分页技术进行比较,在分析JSP分页技术特点的基础上,提出一种有效的分页解决方案,同时对分页技术的优化进行阐述。  相似文献   

12.
集成电路芯片工艺的发展已可使一个系统或一个子系统集成在一个芯片上 ,称为系统集成芯片。本文综述了系统集成芯片的硬件构造、超长指令 (VLIW )结构、芯片嵌入软件及软硬件协同设计方法。  相似文献   

13.
空间信息的存储和处理问题是地理信息系统(GIS)的核心问题.对空间数据和属性数据的统一存储管理已成为必然趋势.本文通过对GIS中海量数据的存储方式进行研究,指出对象-关系型的数据库存储方式是空间数据库的发展方向.在此基础上讨论了Hibernate技术与GIS数据库的结合,使用Hibernate技术将关系数据库中空间数据和属性数据进行封装,屏蔽了数据库底层操作,使得程序员可以用面向对象的思想随意操纵数据库,在利用了关系数据库的快速检索、查询能力的同时也增强了数据的一致性和可移植性.  相似文献   

14.
基于VRML的网上虚拟教室漫游研究   总被引:2,自引:0,他引:2  
张杜娟 《现代计算机》2009,(6):116-118,124
以一个虚拟教室为例进行3D虚拟漫游的初步设计.这种方式不同于目前网上的虚拟教室。介绍在WWW上采用VKML实现虚拟教室漫游系统的特点、VRML的工作模式和造型机制,采用了基于几何图形的建模方法,探讨场景中交互设计实现的方法,提出碰撞检测技术的应用.实现网上发布和优化。  相似文献   

15.
研究引导源的目标定位问题,为实现水下目标定位提供了一种新的途径。实际海洋环境中存在噪声,对定位精度的影响非常大,为了实现低信噪比条件下对目标的准确定位,提出了一种改进的邻域平均法对条纹图像进行降噪处理。同时,由于声场计算和图像处理需要非常大的计算量,实现会耗费较长的时间,提出了利用CUDA技术对GTL算法进行加速处理。处理结果表明,经降噪方法处理后,目标距离估计结果准确,误差较小;与传统CPU方法相比,CUDA技术能不改变精度,且使算法时间减少,为目标定位提供了依据。  相似文献   

16.
研究《伤寒论》中命名实体的识别方法,助力张仲景《伤寒论》不同版本文本的深度挖掘,有助于传承中医文化.该文尝试构建ALBERT-BiLSTM-CRF模型,提取《伤寒论》中疾病、证候、症状、处方、药物等实体,并与BiLSTM-CRF模型和BERT-BiLSTM-CRF模型进行对比.五次实验ALBERT-BiLSTM-CRF模型三个评价指标准确率(P),召回率(R)和F1-测度值(F1-score)的平均值分别为85.37%,86.84%和86.02%,相较于BiLSTM-CRF模型和BERT-BiLSTM-CRF模型F1-score分别提升了6%和3%.实验表明相比BiLSTM-CRF和BERT-BiLSTM-CRF模型,ALBERT-BiLSTM-CRF模型在基于《伤寒论》的实体识别任务中效果最好,更适用于中文古籍的知识挖掘.  相似文献   

17.
E1astos是具有中国自主知识产权的面向服务的新型嵌入式网络操作系统。目前主要用嵌入式设备,多款基于Elastos的3G手机已经面世.一款基于Elastos的电子书也即将进入量产。本文提出了基于Elastos的Content Provider,这是一种易于使用和扩展的应用程序数据访问模式.解决了在需求多变的市场背景下,手机应用程序如何方便的访问数据的问题。  相似文献   

18.
Elastos是具有中国自主知识产权的面向服务的新型嵌入式网络操作系统。目前主要用嵌入式设备,多款基于Elastos的3G手机已经面世,一款基于Elastos的电子书也即将进入量产。本文提出了基于Elastos的ContentProvider,这是一种易于使用和扩展的应用程序数据访问模式,解决了在需求多变的市场背景下,手机应用程序如何方便的访问数据的问题。  相似文献   

19.
AADL模型的测试方法研究   总被引:2,自引:1,他引:1  
王庚  周兴社  张凡  董云卫 《计算机科学》2009,36(11):127-130
近几年来,MDA开发方式的应用使得如何保证模型质量成为研究的热点.以基于模型的测试为研究对象,研究了对AADL模型进行模型测试的方法,并提出了结合马尔可夫链对AADL模型进行测试的框架以及实施方法.最后,通过示例进一步说明了该方法.  相似文献   

20.
邱奇志 《现代计算机》2005,(2):62-65,79
随着Internet和电子商务的发展,信息安全越来越得到业界的重视,其中网络操作系统的安全更是系统安全的基础.本文从计算机安全性的角度出发,着重讨论了Windows针对不同的使用环境所提供的用户身份验证的机制.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号