首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 234 毫秒
1.
针对当前嵌入式高光谱图像压缩方法未考虑高光谱图像空间相关性,导致压缩效果较差,解压精度较低,高分辨率图像占用空间大,造成网络传输效率低的问题,提出了窄带蜂窝物联网的嵌入式高光谱图像压缩方法.根据窄带蜂窝物联网上行、下行链路传输基本标准,通过具有统计特性的KLT算法,去除高光谱图像间谱间相关性,使待处理图像内容更加紧密,利用雅克比迭代算法,分解计算矩阵中的特征值,将多光谱图像每一波段,分成二维波形以及大小相等且不重叠的图像块,将光谱方向上相同位置的所有图像块转换成KLT,消除多光谱图像空间和光谱相关完成高光谱图像压缩.实验结果表明,所提方法具有较高的压缩精度,能够有效去除高光谱图像空间相关性,压缩效果较好,减少高光谱图像占用空间内存,缩短网络传输时间,提高网络传输效率.  相似文献   

2.
针对联机分析处理(OLAP)中事实表与多个维表之间的星形连接执行代价较高的问题,提出了一种在先进的多核中央处理器(CPU)和图形处理器(GPU)上的星形连接优化方法。首先,对于多核CPU和GPU平台的星形连接中的物化代价问题,提出了基于向量索引的CPU和GPU平台上的向量化星形连接算法;然后,通过面向CPU cache和GPU shared memory大小的向量划分来提出基于向量粒度的星形连接操作,从而优化星形连接中向量索引的物化代价;最后,提出了基于压缩向量的星形连接算法,将定长向量索引压缩为变长的二元向量索引,从而在低选择率时提高cache内向量索引的存储访问效率。实验结果表明,在CPU平台上向量化星形连接算法相对于常规的行式或列式连接性能提升了40%以上,在GPU平台上向量化星形连接算法相对于常规星形连接算法性能提升超过了15%;与当前主流的内存数据库和GPU数据库相比,优化的星形连接算法性能相对于最优内存数据库Hyper性能提升了130%,相对于最优的GPU数据库OmniSci性能提升了80%。可见基于向量索引的向量化星形连接优化技术有效地提高了多表连接性能,与传统优化技术相比,基于向量索引的向量化处理提高了较小cache上的数据存储访问效率,压缩向量进一步提升了向量索引在cache内的访问效率。  相似文献   

3.
何希  吴炎桃  邸臻炜  陈佳 《计算机应用》2019,39(7):2008-2013
形态学重建是医学图像处理中非常基础和重要的操作。它根据掩膜图像的特征对标记图像反复进行膨胀操作,直到标记图像中的像素值不再变化为止。对于传统基于中央处理器(CPU)的形态学重建系统计算效率不高的问题,提出了使用图形处理器(GPU)来加速形态学重建。首先,设计了适合GPU处理的数据结构:并行堆集群;然后,基于并行堆集群,设计和实现了一套基于GPU的形态学重建系统。实验结果表明,相比传统基于CPU的形态学重建系统,基于GPU的形态学重建系统可以获取超过20倍的加速比。基于GPU的形态学重建系统展示了如何把基于复杂数据结构的软件系统高效地移植到GPU上。  相似文献   

4.
高光谱图像的有效压缩已经成为高光谱遥感领域研究的热点。提出了一种基于分类KLT( Karhunen-Loeve Transform)的高光谱图像压缩算法。该算法利用光谱信息对高光谱图像进行地物分类,根据相邻波段的相关性对高光谱图像进行波段分组。在地物分类与波段分组的基础上,对每组的每一类地物数据分别进行KL变换,利用EBCOT(Embedded Block Coding with Optimal Trtmcation)算法对所有主成分进行联合编码。实验结果表明,该算法能够取得优于JPEG2000以及DWT-JPEG2000的压缩性能,适合实现高光谱图像的有效压缩。  相似文献   

5.
高光谱图像的有效压缩已经成为高光谱遥感领域研究的热点。提出了一种基于分类KLT(Karhunen-Loève Transform)的高光谱图像压缩算法。该算法利用光谱信息对高光谱图像进行地物分类,根据相邻波段的相关性对高光谱图像进行波段分组。在地物分类与波段分组的基础上,对每组的每一类地物数据分别进行KL变换,利用EBCOT(Embedded Block Coding with Optimal Truncation)算法对所有主成分进行联合编码。实验结果表明,该算法能够取得优于JPEG2000以及DWT-JPEG2000的压缩性能,适合实现高光谱图像的有效压缩。  相似文献   

6.
此次主要研究了基于GPU的集群渲染系统平台设计;为了提高平台的工作效率、增强集群渲染系统平台的数据传输能力,提出了一种采用DCT变换的方法来加速图像渲染速度;该方法利用DCT变换算法加速图像的实时压缩,加入CPU监控器和任务分配器模块,让GPU和CPU共同承担了绘图和渲染的目的,这样有效地降低处理流程对CPU的占用,实现了三维绘图和特效渲染的加速;为了验证平台的有效性以及图像压缩处理的效果,做了相应的功能验证;对640×480的RCB图像使用上述压缩方法和JPEG标准库在不同压缩设置下进行实验;仿真实验结果表明所提方案具有更高的压缩效率。  相似文献   

7.
基于平面波的第一原理计算方法是目前材料科学中最常用的方法,但传统的CPU并行计算遇到可扩展性瓶颈,无法改善其求解的绝对速度。系统地介绍了利用图形处理器(graphic processing unit,GPU)加速技术开发的大规模第一原理材料计算软件:Ultra-Mat。该软件对第一原理平面波算法进行了系统的算法设计和软件实现:(1)通过采用并行方案,实现了快速傅里叶变换(fast Fourier transform,FFT)的GPU局部操作;(2)设计了基于数据压缩的混合精度算法,显著减少了电子结构计算部分的MPI(message passing interface)通信;(3)完成了逾90%代码的GPU实现,目的是最大限度地减少中间流程,以避免CPU-GPU切换引发的数据传输,这是GPU应用中公认的性能瓶颈。测试结果显示Ultra-Mat具有很好的计算性能,对于512原子的GaAs系统,在电子结构计算部分,使用256 GPU卡相比4096 CPU核心有18倍的加速。  相似文献   

8.
近年来,基于GPU的新型异构高性能计算模式的蓬勃发展为众多领域应用提供了良好的发展机遇,国内外遥感专家开始引入高性能异构计算来解决高光谱遥感影像高维空间特点所带来的数据计算量大、实时处理难等问题。在此简要介绍了高光谱遥感和CPU/GPU异构计算模式,总结了近几年国内外基于CPU/GPU异构模式的高光谱遥感数据处理研究现状和问题;并面向共享存储型小型桌面超级计算机,基于CPU/GPU异构模式实现了高光谱遥感影像MNF降维的并行化,通过与串行程序和共享存储的OpenMP同构模式对比,验证了异构模式在高光谱遥感处理领域的发展潜力。  相似文献   

9.
高光谱图像分类算法通常需要逐点对图像中的像素点进行迭代处理,计算复杂度及并行程度存在较大差异。随着高光谱遥感图像空间、光谱和辐射分辨率的不断提升,这些算法无法满足实时处理海量遥感图像数据的需求。通过分析NPU存储计算一体化模式与遥感图像分类算法的实现步骤,设计低功耗CPU+NPU异构资源计算架构的低秩稀疏子空间聚类(LRSSC)算法,将数据密集型计算转移至NPU,并利用NPU数据驱动并行计算和内置AI加速,对基于机器学习算法的海量遥感数据进行实时分类。受到big.LITTLE计算范式的启发,CPU+NPU异构资源计算架构由8 bit和低精度位宽NPU共同组成以提高整体吞吐量,同时减少图网络推理过程中的能量损耗。实验结果表明,与CPU计算架构和CPU+GPU异构计算架构的LRSSC算法相比,CPU+NPU异构计算架构的LRSSC算法在Pavia University遥感数据集下的计算速度提升了3~14倍。  相似文献   

10.
Jacobi和Laplace算法在GPU平台上的设计与实现   总被引:1,自引:1,他引:0  
随着半导体工艺的发展,GPU的浮点计算能力迅速提高。如何把GPU处理技术应用到非图形计算领域成为体系结构以及高性能计算领域的热点研究问题。Jacobi和Laplace是科学计算领域常用的计算核心。本文基于AMD的流处理GPU平台设计并实现了这两个算法,相对于CPU平台取得了很好的加速效果。  相似文献   

11.
针对CPU-GPU平台提供了一种能显著降低高效视频编码(high efficiency video coding,简称HEVC)复杂度的优化方案.根据编码器的复杂度分布及不同模块的特点,针对帧内预测、帧间预测以及环路滤波分别进行了优化.在帧内预测中,基于相邻编码单元(coding unit,简称CU)之间的相关性,提出了一种CU的深度决策方法以及一种减少率失真优化(RDO)的模式数量的方法,降低了帧内编码的复杂度.在帧间预测中,提出将耗时最大的运动估计模块完善在图形处理单元(GPU)上,通过中央处理单元(CPU)和GPU的流水线工作获得了明显的加速,并基于预测残差的能量提出了一种编码单元提前终止划分的方法,有效降低了帧间编码复杂度.在环路滤波中,提出了一种GPU端的自适应样本点补偿(sample adaptive offset,简称SAO)参数决策方法及去块滤波方法,有效分担了CPU端的复杂度.上述优化实现在HM16.2上,实验结果表明,提出的优化方案可以获得高达68%的编码复杂度节省,而平均性能损失仅为0.5%.  相似文献   

12.
光束平差法(bundle adjustment,BA)是同步定位和地图构建(simultaneous localization and mapping,SLAM)后端优化的关键技术。在线使用光束平差时能否满足实时性要求,是将其应用于自动驾驶车端等实时系统的关键因素。首先分析特定场景中SLAM数据特点,提出滑动窗口机制降低计算规模;分析局部BA计算中稀疏矩阵性质提升算法的可并行性;最后基于嵌入式GPU对算法进行并行加速。将其应用于车载SLAM系统并在真实场景下测试,实验结果表明,在AGX Xavier嵌入式GPU上,针对720P道路场景,该方法比同平台CPU上处理性能平均提升4.8倍,可以处理15 fps的相机位姿地图数据,满足了30 fps的视频处理需求,达到了车载系统的实时性要求。  相似文献   

13.
Hyperspectral sensors acquire images in many, very narrow, contiguous spectral bands throughout the visible, near-infrared (IR), mid-IR and thermal IR portions of the spectrum, thus requiring large data storage on board the satellite and high bandwidth of the downlink transmission channel to ground stations. Image compression techniques are required to compensate for the limitations in terms of on-board storage and communication link bandwidth. In most remote-sensing applications, preservation of the original information is important and urges studies on lossless compression techniques for on-board implementation. This article first reviews hyperspectral spaceborne missions and compression techniques for hyperspectral images used on board satellites. The rest of the article investigates the suitability of the integer Karhunen–Loève transform (KLT) for lossless inter-band compression in spaceborne hyperspectral imaging payloads. Clustering and tiling strategies are employed to reduce the computational complexity of the algorithm. The integer KLT performance is evaluated through a comprehensive numerical experimentation using four airborne and four spaceborne hyperspectral datasets. In addition, an implementation of the integer KLT algorithm is ported to an embedded platform including a digital signal processor (DSP). The DSP performance results are reported and compared with the desktop implementation. The effects of clustering and tiling techniques on the compression ratio and latency are assessed for both desktop and the DSP implementation.  相似文献   

14.
许川佩  王光 《计算机应用》2016,36(7):1801-1806
针对尺度不变特征变换(SIFT)算法实时性差的问题,提出了利用开放式计算语言(OpenCL)并行优化的SIFT算法。首先,通过对原算法各步骤进行组合拆分、重构特征点在内存中的数据索引等方式对原算法进行并行化重构,使得算法的中间计算结果能够完全在显存中完成交互;然后,采用复用全局内存对象、共享局部内存、优化内存读取等策略对原算法各步骤进行并行设计,提高数据读取效率,降低传输延时;最后,利用OpenCL语言在图形处理单元(GPU)上实现了SIFT算法的细粒度并行加速,并在中央处理器(CPU)上完成了移植。与原SIFT算法配准效果相近时,并行化的算法在GPU和CPU平台上特征提取速度分别提升了10.51~19.33和2.34~4.74倍。实验结果表明,利用OpenCL并行加速的SIFT算法能够有效提高图像配准的实时性,并能克服统一计算设备架构(CUDA)因移植困难而不能充分利用异构系统中多种计算核心的缺点。  相似文献   

15.
徐启迪  刘争红  郑霖 《计算机应用》2022,42(12):3841-3846
随着通信技术的发展,通信终端逐渐采用软件的方式来兼容多种通信制式和协议。针对以计算机中央处理器(CPU)作为运算单元的传统软件无线电架构,无法满足高速无线通信系统如多进多出(MIMO)等宽带数据的吞吐率要求问题,提出了一种基于图形处理器(GPU)的低密度奇偶校验(LDPC)码译码器的加速方法。首先,根据GPU并行加速异构计算在GNU Radio 4G/5G物理层信号处理模块中的加速表现的理论分析,采用了并行效率更高的分层归一化最小和(LNMS)算法;其次,通过使用全局同步策略、合理分配GPU内存空间以及流并行机制等方法减少了译码器的译码时延,同时配合GPU多线程并行技术对LDPC码的译码流程进行了并行优化;最后,在软件无线电平台上对提出的GPU加速译码器进行了实现与验证,并分析了该并行译码器的误码率性能和加速性能的瓶颈。实验结果表明,与传统的CPU串行码处理方式相比,CPU+GPU异构平台对LDPC码的译码速率可提升至原来的200倍左右,译码器的吞吐量可以达到1 Gb/s以上,特别是在大规模数据的情况下对传统译码器的译码性有着较大的提升。  相似文献   

16.
深度强化学习(Deep Reinforcement Learning, DRL)是机器学习领域的一个重要分支,用于解决各种序贯决策问题,在自动驾驶、工业物联网等领域具有广泛的应用前景。由于DRL具备计算密集型的特点,导致其难以在计算资源受限且功耗要求苛刻的嵌入式平台上进行部署。针对DRL在嵌入式平台上部署的局限性,采用软硬件协同设计的方法,设计了一种面向DRL的FPGA加速器,提出了一种设计空间探索方法,在ZYNQ7100异构计算平台上完成了对Cartpole应用的在线决策任务。实验结果表明,研究在进行典型DRL算法训练时的计算速度和运行功耗相对于CPU和GPU平台具有明显的优势,相比于CPU实现了12.03的加速比,相比于GPU实现了28.08的加速比,运行功耗仅有7.748W,满足了深度强化学习在嵌入式领域的在线决策任务。  相似文献   

17.
基于CUDA的Kirchhoff叠前时间偏移算法设计与实现*   总被引:2,自引:2,他引:0  
Kirchhoff叠前时间偏移是地震数据处理中最耗时的常用模块之一。为加快计算和显示速度,针对CUDA平台多处理器流水线特性,对传统Kirchhoff叠前时间偏移算法在CUDA平台上进行了重新设计,包括基于CUDA的Kirchhoff叠前时间偏移算法、基于CUDA的纵波波动方程算法和GPU与CPU间的通信算法三个子算法。所有算法在NVIDIA GeForce 8800 GT系统上编译实现,通过对比相同数据在Intel Core2Due CPU 2.0 GHz的地震偏移,综合分析和实验结果表明,基于CUDA  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号