期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于GPU的LDPC增强准最大似然译码器并行实现 总被引：1，自引：0，他引：1

孔飞跃蒋学芹万雪芬陈思井崔剑杨义《计算机工程》2020,46(5):207-215

增强准最大似然(EQML)译码器对于码长较短的低密度奇偶校验(LDPC)码的译码性能优于传统置信传播(BP)译码器,可较好满足5G移动通信的高可靠性要求,但由于其计算结构复杂导致译码速度大幅降低。为提高EQML译码器的译码速度,提出一种基于GPU的EQML译码器并行化加速方案,压缩并存储不规则LDPC码的奇偶校验矩阵,通过对传统BP译码算法进行重新排序以最大化利用Kernel中的线程,并对再处理过程中的每个阶段进行多码字并行译码,实现内存访问优化及流并行译码。实验结果表明,基于GPU的EQML译码器在保持纠错性能的同时,相比基于CPU的EQML译码器的译码速度约提升了2个数量级。相似文献

2.

基于CUDA平台的规则LDPC码的译码实现研究

俞永盛陆佩忠《计算机应用与软件》2010,27(4):230-232,266

低密度奇偶校验(LDPC)码性能优越,允许全并行高速译码,已经在个人数字设备、移动无线通信等领域显示出了很大的应用价值,极可能取代Turbo码成为第四代移动通信的首选编码方案。NVIDIA公司的CUDA是一种新的用于GPU通用计算的软硬件架构。基于CUDA平台程序员可以写出C风格的代码来启动大量的GPU线程并行工作。基于CUDA平台提出和研究一种AWGN信道下的规则LDPC码的译码实现方案。仿真实验对LDPC码译码的CPU实现和CUDA实现的性能作了详细比较。研究表明CUDA能够带来明显的性能提升。相似文献

3.

基于GPU的并行Turbo乘积码译码器

李荣春周鑫潘衡岳牛新高蕾窦勇《计算机工程与科学》2020,42(5):761-769

Turbo乘积码是一类前向纠错码,在高码率下具有良好的误码率性能。TPC编码器的实现相对简单,其译码器的译码复杂度也比较合理。因此,TPC被广泛用于各种场景,例如卫星通信系统和数据存储系统等。提出了一种基于GPU的并行TPC译码器,可以同时译码二维乘积码矩阵的所有行或列。设计了一种并行基本译码器,以简化由扩展汉明码构成的TPC的译码过程。实现了测试样例和有效码字计算的并行化,降低了译码延迟。为了进一步提高译码吞吐率,提出了多通道TPC译码器。在不同的GPU上测量了并行译码器的性能,实验结果表明,与基于CPU的TPC译码器相比,基于GPU的并行TPC译码器的译码延迟显著降低。此外,基于GPU的并行TPC译码器的吞吐率在NVIDIA RTX 2080 Ti上达到30 Mbps,在NVIDIA GTX Titan V上达到38 Mbps,是基于CPU的TPC译码器性能的44倍和54倍。相似文献

4.

基于多核CPU的DVB-RCS2并行Turbo译码方法

翟绪论张永光靳安钊强薇李梦冰《计算机科学》2023,(6):22-28

DVB-RCS2在卫星广播、海事卫星通信、军事卫星通信等领域有着广泛应用，而无论是通信还是军事侦察都需要大吞吐量高速译码。多核CPU算力不断提升以及软件无线电SDR平台的广泛应用，使得基于多核CPU的并行译码成为一种灵活高效的应用方式。为了满足其中双二元Turbo码大吞吐量软件译码的需求，提出了一种基于多核CPU的高速并行软件译码方案。首先对比分析了双二元Turbo码与传统二进制Turbo码的计算复杂度；然后重点对并行计算过程中的内存占用和采用8比特位宽整型数据时的输入量化方法进行了分析和优化，设计了基于多核CPU并行译码的实现方案；最后在Intel 12核CPU上使用SSE并行指令集实现了大于169 Mbps的译码吞吐率，且纠错性能较浮点运算损失小于0.1 dB。通过与现有GPU译码方案对比，说明了所提方案在译码效率和能耗方面的优势，其在高速卫星接收机中具有极高的应用价值。相似文献

5.

IEEE 802.1 6e中LDPC译码器的实现

李刚黑勇仇玉林《微计算机信息》2008,24(29)

面向IEEE 802.16e中LDPC码,分析了各种译码算法的译码性能,归一化最小和(NMS)算法具备较高译码性能和实现复杂度低的特点.提出一种基于部分并行方式的LDPC译码器结构,可以满足IEEE802.16e中非规则LDPC码的译码要求.在FPGA上实现了该译码器,数据吞吐率可以达到130 Mb/s. 相似文献

6.

面向量子密钥分发的自适应LDPC双码并行机制

尹清清赵国鸿赵宝康刘博《计算机工程与科学》2016,38(9):1763-1768

信息协调是量子密钥分发中的关键步骤,基于LDPC实现量子信息协调是当前国内外研究的焦点。目前QKD系统LDPC译码器普遍采用单码字顺序译码机制设计,且采用的是性能较差的准循环LDPC码,LDPC译码器吞吐量和纠错上限较低,无法满足高速率高误码下量子安全性及性能需求。设计了一种面向量子密钥分发的新型自适应LDPC双码并行机制ADCPM,采用随机型LDPC码,且在译码的同时进行双密钥串并行纠错,较传统方法吞吐量提升了近1倍。真实平台实验结果表明,ADCPM支持高达10%的误码率,吞吐量超过140 Mbps,可有效支撑高误码下高速安全量子信息协调。相似文献

7.

通用高效LDPC译码智能化数据分配方案

王健李集林《计算机技术与发展》2012,(10)

20世纪末期,LDPC码以其优良的误码性能和可实现性重新成为人们研究的焦点,随着LDPC码的普及和计算机技术的进步,很多低速条件下的译码器设计开始采用软件译码的方法来实现.文中在分析了LDPC码的相关论述和研究了目前主流LDPC码译码方法的基础上,针对今后LDPC码广阔的市场应用前景,通过对每个循环子矩阵中数据初始化、水平运算和垂直运算过程中的分布规律的研究,在保证整套方案不存在不利于计算机处理的运算前提下,给出一种通用的LDPC码软件高效实现方案,在保证误码率损失不大的情况下,极大地节约软件仿真时间,同时为后续FPGA开发提供参考.该方案可以适用于多码率、多码长的LDPC码,同时实验结果表明,在同一平台上,该方法比传统的软件译码方法快4~5倍.这种方法缩短了LDPC码的研制周期,提高研发效率. 相似文献

8.

基于FPGA的(3,6)LDPC码并行译码器设计与实现

钟永信杜兴民《微计算机信息》2007,23(8):214-216

本文基于Altera的FPGA(StatixⅡ-EP2S30F484C3)架构,实现了码率为1/2,帧长为1008bits的规则(3,6)LDPC码译码器。所采用的最小-和算法相对于传统的和-积算法在不损失译码性能的前提下,降低了硬件实现的复杂度,设计的并行结构有效地解决了串行结构所带来译码延时过大的问题,最大译码速率可达到60Mbit/s。为LDPC码的实际应用奠定了良好的基础。相似文献

9.

采用并行分层译码的LDPC译码器设计研究

下载免费PDF全文

姚远叶凡任俊彦《计算机工程与应用》2012,48(4):56-60

基于并行分层译码算法的LDPC译码器可以使用较小的芯片面积实现较高的译码速率。提出一种基于该算法的译码器硬件设计方法。该设计方法通过使用移位寄存器链,来进一步降低基于并行分层译码算法的译码器芯片面积。该硬件设计使用TSMC 65 nm工艺实现,并在实现中使用IEEE 802.16e中的1/2码率LDPC码。该译码器设计在迭代次数设置为10次时可实现1.2 Gb/s的译码速率,芯片面积1.1 mm2。译码器设计通过打孔产生1/2至1之间的连续码率。相似文献

10.

一种适合于并行译码的Turbo交织器的设计 总被引：1，自引：0，他引：1

郑银香张秀军赵明周世东《微计算机信息》2006,22(32):195-197

高数据率的通信系统要求有高吞吐量的译码器,而并行译码是高吞吐量的译码器的一种有效实现方法。对于采用并行译码的Turbo码,交织器的设计是决定其性能和译码器吞吐量的关键因素。本文在A.Giuliett提出的没有读写冲突的并行交织器的设计原则基础上,给出了一种新型的交织器设计方法。该方法在保证Turbo优越性能的前提下,使得高并行度的译码成为可能。译码性能的仿真结果验证了设计方案的良好译码性能,通过FPGA的硬件实现验证了译码器吞吐量的极大提高。该设计方案可用于Beyond3G系统。相似文献

11.

Efficient graphics processing unit based layered decoders for quasicyclic low‐density parity‐check codes

Rongchun Li Yong Dou Dan Zou Shi Wang Ying Zhang 《Concurrency and Computation》2015,27(1):29-46

Because layered low‐density parity‐check (LDPC) decoding algorithm was proposed, one can exploit the diversity gain to achieve performance comparable to the traditional two‐phase message passing (TPMP) decoding but with about twice faster decoding convergence compared to TPMP. In order to reduce the decoding time of layered LDPC decoder, a graphics processing unit (GPU) is exploited as the modem processor so that the decoding procedure can be processed in parallel using numerous threads in the GPU. In this paper, we present the parallel algorithms and efficient implementations on the GPU for two different layered message passing schemes, the row‐layered and column‐layered decoding. In the experiments, the quasicyclic LDPC codes for WiFi (802.11n) and WiMAX (802.16e) are decoded by the proposed layered LDPC decoders. The experimental results show that our decoder has good bit error ratio (BER) performance comparable to TPMP decoder. The peak throughput is 712 Mbps, which is about two orders of magnitude faster than that of CPU implementation and comparable to the dedicated hardware solutions. Compared to the existing fastest GPU‐based implementation, the presented decoder can achieve a performance improvement of 2.3 times. Copyright © 2013 John Wiley & Sons, Ltd. 相似文献

12.

TLP-LDPC: Three-Level Parallel FPGA Architecture for Fast Prototyping of LDPC Decoder Using High-Level Synthesis

下载免费PDF全文

Yi-Fan Zhang Lei Sun Qiang Cao 《计算机科学技术学报》2022,37(6):1290-1306

Low-Density Parity-heck Codes (LDPC) with excellent error-correction capabilities have been widely used in both data communication and storage fields, to construct reliable cyber-physical systems that are resilient to real-world noises. Fast prototyping field-programmable gate array (FPGA)-based decoder is essential to achieve high decoding performance while accelerating the development process. This paper proposes a three-level parallel architecture, TLP-LDPC, to achieve high throughput by fully exploiting the characteristics of both LDPC and underlying hardware while effectively scaling to large-size FPGA platforms. The three-level parallel architecture contains a low-level decoding unit, a mid-level multi-unit decoding core, and a high-level multi-core decoder. The low-level decoding unit is a basic LDPC computation component that effectively combines the features of the LDPC algorithm and hardware with the specific structure (e.g., Look-Up-Table, LUT) of the FPGA and eliminates potential data conflicts. The mid-level decoding core integrates the input/output and multiple decoding units in a well-balancing pipelined fashion. The top-level multi-core architecture conveniently makes full use of board-level resources to improve the overall throughput. We develop an LDPC C++ code with dedicated pragmas and leverage HLS tools to implement the TLP-LDPC architecture. Experimental results show that TLP-LDPC achieves 9.63 Gbps end-to-end decoding throughput on a Xilinx Alveo U50 platform, 3.9x higher than existing HLS-based FPGA implementations. 相似文献

13.

基于OpenCL的MD5破解算法

下载免费PDF全文

翁捷吴强杨灿群《计算机工程》2011,37(4):119-121

在基于GPU的异构平台上,采用开放计算语言(OpenCL)实现破解算法,利用分轮生成攻击密码、图形渲染管线加速存取以及多密码并行等方法对算法进行优化,在Intel四核CPU Q8230(2.3 GHz)和一片NVIDIA GT200组成的平台上进行实验。实验结果表明,在相同CPU平台上该算法能够获得高于破解软件John the ripper 17倍的破解速度。相似文献

14.

低功耗异构计算架构的高光谱遥感图像分类研究

刘鹏飞朱健晨万良易江波《计算机工程》2022,48(12):9

高光谱图像分类算法通常需要逐点对图像中的像素点进行迭代处理,计算复杂度及并行程度存在较大差异。随着高光谱遥感图像空间、光谱和辐射分辨率的不断提升,这些算法无法满足实时处理海量遥感图像数据的需求。通过分析NPU存储计算一体化模式与遥感图像分类算法的实现步骤,设计低功耗CPU+NPU异构资源计算架构的低秩稀疏子空间聚类（LRSSC）算法,将数据密集型计算转移至NPU,并利用NPU数据驱动并行计算和内置AI加速,对基于机器学习算法的海量遥感数据进行实时分类。受到big.LITTLE计算范式的启发,CPU+NPU异构资源计算架构由8 bit和低精度位宽NPU共同组成以提高整体吞吐量,同时减少图网络推理过程中的能量损耗。实验结果表明,与CPU计算架构和CPU+GPU异构计算架构的LRSSC算法相比,CPU+NPU异构计算架构的LRSSC算法在Pavia University遥感数据集下的计算速度提升了3~14倍。相似文献

15.

基于OpenCL的累积汇流并行计算

龙满生罗文浪《计算机工程与应用》2014,(3):22-29,116

大尺度、高分辨率数字地形数据应用需求的增长,给计算密集型的累积汇流等数字地形分析算法带来了新的挑战。针对CPU/GPU(Graphics Processing Unit)异构计算平台的特点,提出了一种基于OpenCL(Open Computing Language)的多流向累积汇流算法的并行化策略,具有更好的平台独立性和可移植性,简化了CPU/GPU异构平台下的并行应用程序设计。累积汇流并行算法包括时空独立型的流量分配和空间依赖型的累积入流两个过程,均定义为OpenCL内核并交由OpenCL设备并行执行,其中累积入流过程借助流量转移矩阵由递归式转换为迭代式来实现并行计算。与基于流量转移矩阵的并行汇流算法相比,尽管基于单元入度矩阵的并行汇流算法可以降低迭代过程中的计算冗余,但需要采用具有较大延迟的原子操作以及需要更多的迭代次数,在有限的GPU计算资源下,两种算法性能差异不明显。实验结果表明,并行累积汇流算法在NVIDIA GeForce GT 650M GPU上获得了较好的加速比,加速性能随格网尺度增加而有所增加,其中流量分配获得了约50～70倍的加速比,累积入流获得了10～20倍的加速比,展示了利用OpenCL在GPU等并行计算设备上进行大规模数字地形分析的潜在优势。相似文献

16.

CUDA平台下的实时超声扫描转换

王伟民王合闯王华军《计算机应用》2011,31(10):2760-2763

为了克服传统医学超声扫描转换不能实时的缺陷,实时超声扫描转换算法利用计算统一设备架构(CUDA)技术,通过分配最优的线程结构、合理规划中央处理器(CPU)和图形处理器(GPU)之间的数据传输方式和计算任务的划分,提高了算法的吞吐量,满足了实时性。传统CPU算法和3种GPU算法的实验结果对比显示,GPU处理3121×936大小的图片,帧速率可达746fps,并行算法加速比可达300以上。相似文献

17.

基于图形处理器加速的医学图像配准技术进展

查珊珊王远军聂生东《计算机应用》2015,35(9):2486-2491

针对目前医学图像配准技术无法满足临床实时性需求问题,对基于图形处理器(GPU)加速的医学图像配准技术进行综述探讨。首先对GPU通用计算进行概述,再以医学图像配准基本框架为主线,对近年来基于GPU加速的医学图像配准技术在国内外发展现状进行深入研究,并针对正电子发射型计算机断层显像(PET)和电子计算机断层扫描(CT)数据的非线性配准问题,分别基于中央处理器(CPU)和GPU平台进行配准实验,通过实验结果的对比,体现GPU加速配准技术的优越性。基于GPU加速的自由形变(FFD)和归一化互信息(NMI)结合的非线性配准方法配准后互信息值略低于CPU平台的配准结果,但其配准速度是CPU平台的12倍。基于GPU加速的配准算法在保持配准精度的基础上,配准速度都得到了很大的提升。相似文献

18.

基于OpenCL的尺度不变特征变换算法的并行设计与实现

许川佩王光《计算机应用》2016,36(7):1801-1806

针对尺度不变特征变换（SIFT）算法实时性差的问题,提出了利用开放式计算语言（OpenCL）并行优化的SIFT算法。首先,通过对原算法各步骤进行组合拆分、重构特征点在内存中的数据索引等方式对原算法进行并行化重构,使得算法的中间计算结果能够完全在显存中完成交互;然后,采用复用全局内存对象、共享局部内存、优化内存读取等策略对原算法各步骤进行并行设计,提高数据读取效率,降低传输延时;最后,利用OpenCL语言在图形处理单元（GPU）上实现了SIFT算法的细粒度并行加速,并在中央处理器（CPU）上完成了移植。与原SIFT算法配准效果相近时,并行化的算法在GPU和CPU平台上特征提取速度分别提升了10.51～19.33和2.34～4.74倍。实验结果表明,利用OpenCL并行加速的SIFT算法能够有效提高图像配准的实时性,并能克服统一计算设备架构（CUDA）因移植困难而不能充分利用异构系统中多种计算核心的缺点。相似文献