期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李涛张忠培《通信技术》2010,43(11):147-149

矩阵求逆广泛应用于数字通信领域,利用现场可编程门阵列（FPGA）实现能充分发挥硬件的速度优势,实现高速通信。目前,已有文献对上下三角矩阵求逆的硬件算法进行阐述,而对任意满秩矩阵求逆的硬件算法尚未深入的研究。提出了基于下上三角矩阵分解（LU分解）对任意满秩矩阵求逆的理论算法及超高速集成电路硬件描述语言（VHDL）硬件描述,并分别用软件仿真和硬件仿真进行验证。通过对比,硬件设计仿真的结果与预期结果吻合。相似文献

2.

基于LDL算法的大规模矩阵求逆加速器设计及其FPGA实现

余浩然肖昊《电子科技》2023,(7):1-7

矩阵求逆是工程计算中的基本问题，在大规模MIMO系统、阵列信号处理以及图像信号处理等应用中，大规模矩阵求逆的处理速度对系统性能至关重要，但传统矩阵求逆方法运算复杂度高、并行性低且消耗大量存储空间，不利于硬件加速。针对大规模矩阵求逆硬件加速问题，文中研究了基于LDL分解的矩阵求逆算法，并提出了一种基于该算法的大规模矩阵求逆加速架构。利用LDL分解后三角矩阵对角线元素全为1的特点，对矩阵进行分块迭代设计，减少了求逆运算的计算量，提高了计算速度。文中基于Xilinx Virtex7 FPGA设计实现了该加速器，实验结果表明，在128阶矩阵下，吞吐量达105.2 Inv·s^-1,最高时钟频率达200 MHz。与现有矩阵求逆加速方案相比，该设计占用的硬件资源更少，且具有更高的性能。相似文献

3.

基于FPGA的Cholesky分解矩阵求逆

陈晓东李世平何国强《现代雷达》2019,41(10):58-61

针对在空时自适应处理(STAP)中通常采用Cholesky分解矩阵求逆算法求杂波协方差矩阵的逆矩阵,设计了基于FPGA的并行化Cholesky分解矩阵求逆运算模块的实现架构。该模块分成Cholesky分解子模块、三角矩阵求逆子模块和三角矩阵相乘子模块等三部分,流水执行求逆运算。通过实测与仿真,对矩阵阶数、运算并行度、FPGA占用资源、运算时间和运算精度等要素之间的关系进行了详细分析。相似文献

4.

基于可重构计算系统的矩阵三角化分解硬件并行结构研究

下载免费PDF全文

刘书勇吴艳霞张博为张国印戴葵《电子学报》2015,43(8):1642-1650

可重构计算系统成为加速计算密集型应用的重要选择之一.在众多受到关注的计算密集型问题中,矩阵三角化分解作为典型的基础类应用始终处于研究的核心地位,在求解线性方程组、求矩阵特征值等科学与工程问题中有重要的研究价值.本文面向矩阵三角化分解中共有的三角化计算过程,通过分析该过程的线性计算规律,提出一种适于硬件并行实现的子矩阵更新同一化算法及矩阵三角化计算FPGA (Field Programmable Gate Array)并行结构.针对LU矩阵三角化分解在并行结构模板上的高性能实现及优化方法开展了研究.理论分析表明,该算法针对矩阵三角化计算过程具有更高的数据并行性与流水并行性;实验结果表明,与通用处理器的软件实现相比,根据该算法实现的矩阵三角化分解FPGA并行结果在关键计算性能上可以取得10倍以上的加速比. 相似文献

5.

改进的矩阵求逆的FPGA设计和实现

李颖异《中国有线电视》2006,(7):673-675

通过对上三角矩阵求逆算法的研究,提出一种优化的适合FPGA实现的并行求逆的结构,并运用Verilog硬件描述语言对其建模,通过硬件仿真工具QuartusII对其进行编译仿真,仿真结果表明,改进的并行结构能够在n个时钟周期内完成n阶上三角矩阵的求逆。相似文献

6.

基于QR分解自适应波束形成算法的FPGA实现

朱少彬卢光跃包志强《无线通信技术》2013,(4):16-20

为了在当前的通信环境中选择合适的QR分解算法来硬件实现矩阵的求逆,需要提前了解该算法的硬件性能。分析常用于复数QR分解的Givens rotation法和Modified Gram—Schmidt正交法的算法原理和硬件实现。在Xilinx公司的ISE软件上进行两种算法的底层设计和硬件仿真,经过综合在Xilinx的Kintex-7系列的XC7K325T芯片上实现了整个设计。通过对比两种算法的硬件性能后发现,在输入数据宽度相同的前提下,两种算法的误差值相差很小,其中MGS算法的实时性比GR算法差,但是硬件资源消耗更小。因此在对系统实时性要求较高的环境中,选择GR算法更好一些。相似文献

7.

一种基于约化因子上三角矩阵求逆的FPGA实现方法

下载免费PDF全文

周杨王佳薇黄志洪杨海钢《太赫兹科学与电子信息学报》2018,16(2):342-346

矩阵运算广泛应用于实时性要求的各类电路中，其中矩阵求逆运算最难以实现。基于现场可编程门阵列(FPGA)实现矩阵求逆能够充分发挥硬件的速度与并行性优势，加速求逆运算过程。基于改进的脉动阵列的计算架构，采用一种约化因子求逆的优化算法，将任意一个n×n阶上三角矩阵转换成对角线为1的上三角矩阵，使得除法运算与乘加运算分离开来，大大简化矩阵求逆运算过程。以一个4×4阶上三角矩阵求逆为例，在Xilinx ISE平台下，采用Virtex5 FPGA完成算法实现与功能验证，在14个周期内，使用了2个除法器，3个乘法器与4个加法器实现整个矩阵求逆运算。相比于经典的脉动阵列架构，仅占用近一半资源的同时，性能提升了26.43%；相比于集成更多处理单元(PE)的脉动阵列实现方式，在性能近乎不变的情况下，耗费的资源缩减到1/4，大幅度提升了资源利用率。相似文献

8.

基于QR分解V-BLAST检测算法研究和比较

孙艳华吴伟陵《无线电工程》2006,36(12):26-29

分层空时码是一类具有可执行解码复杂度的空时编码技术,最大似然检测在误比特率最小的意义下是最优的接收,但是其复杂度不可实现。在D.Wubben提出的基于Gram-Schmidt正交化排序QR分解检测算法的基础上,提出了另外2种可以排序的QR分解检测算法,取得了和基于Gram-Schmidt正交化QR分解算法相同的性能。与V-BLAST算法相比,避免了多次矩阵求逆的计算,以很小的性能损失为代价,降低了复杂度。相似文献

9.

基于脉动阵的自适应波束形成算法仿真

包志强丁康利单洁《无线通信技术》2014,23(2):1-5,10

为了满足自适应波束形成技术对实时性的要求,将脉动阵应用于波束形成算法中,以实现自适应权向量的实时获取.通过对QR分解采样矩阵求逆算法、混合型QR分解采样矩阵求逆算法和逆QR分解采样矩阵求逆算法的理论分析,利用脉动阵,对输入数据矩阵进行QR分解,得到旋转因子,实现自适应权向量的实时更新.针对三种算法各自的脉动阵进行仿真,结果表明,基于脉动阵的自适应波束形成算法实现了权向量的高速获取,并为后续的工程实践提供了理论依据. 相似文献

10.

基于FPGA实现快速矩阵求逆算法

张繁何明亮《通信技术》2020,(2):318-321

Cholesky分解是一种矩阵运算方法。相比传统的矩阵求逆算法,它能够大大简化矩阵求逆的运算量,提高实时性。因此,介绍Cholesky分解原理及方法,并根据这一特性,在FPGA中实现基于Cholesky分解的快速矩阵求逆算法。FPGA具有流水线设计的特点,能够进一步提高接收抗干扰处理的实时性。用Matlab对FPGA实现的各种矩阵规模数据进行仿真,根据仿真结果和FPGA实际资源选取最优的FPGA实现方案。相似文献

11.

Comparison of practical methods for an efficient FPGA implementation of STAP

Narjes Hasanikhah Ghafar Darvish M. R. Moniri 《International Journal of Electronics》2019,106(9):1320-1331

This study investigated and compared the practical methods used for the efficient Field- Programmable Gate Array (FPGA) implementation of space-time adaptive processing (STAP). The most important part of calculating the STAP weights is the QR decomposition (QRD), which can be implemented using the modified Gram-Schmidt (MGS) algorithm. The results show that the method that uses QRD with less computational burden leads to a more effective implementation. Its structure was parameterised with the vector size to create a trade-off between the hardware and performance factors. For this purpose, QRD-MGS algorithm was first modified to increase the speed, and then the STAP weight vector was calculated. The implementation results show that decreasing the vector size decreases the resource utilisation, computational burden and the consumption power. While the computation time increases slightly, the updated rate of the STAP weights is maintained. For example, the STAP weights in a system with 6 antenna arrays, 10 received pulses and 200 range samples computed in 262 µs using a vector size of 17 on the Arria10 FPGA that has a maximum of 155 µs correlates to the QRD-MGS algorithm and 107 µs correlates to the other parts. Therefore, QRD-MGS algorithm is the most important component of the calculation of the STAP weight vector, and its simplification leads to efficient implementation. 相似文献

12.

基于FPGA的无线移动通信系统多普勒补偿算法

薛宸《现代雷达》2015,(7):30-33

利用FPGA对一种移动无线通信系统中的多普勒补偿算法进行了实现与验证。首先,对这种基于正交频分复用(OFDM)帧结构的多普勒补偿算法进行了简要介绍,该算法具有计算复杂度低、延时小、便于硬件实现的特点;然后,详细说明了该算法在实际硬件实现中各个模块的逻辑结构和工作流程;最后,将本文所实现的多普勒补偿算法模块应用到了实际的OFDM接收机中,通过硬件测试对算法和硬件实现的有效性进行了验证,并分析了算法的资源开销以及相比原算法的性能增益。相似文献

13.

Comparison of practical methods for an efficient FPGA implementation of STAP

Narjes Hasanikhah Ghafar Darvish M.R. Moniri 《International Journal of Electronics》2019,106(8):1113-1126

In this paper, practical methods for an efficient field programmable gate array (FPGA) implementation of space-time adaptive processing (STAP) are investigated and compared. The most important part for calculating the STAP weights is QR decomposition (QRD) which can be implemented using the modified Gram–Schmidt algorithm. Investigations show the method that uses QRD with less computational burden and leads to more effective implementation. Its structure parameterised with vector size to create a trade-off between hardware and performance factors. For this purpose, the modifications on QRD-MGS are performed in order to speed increasing. Then, the calculation of STAP weight vector was implemented. The implementation results show that decreasing vector size decreases the resources utilisation, computational burden and consumption power. However, computation time increases slightly, but the update rate of the STAP weights is maintained. For example, weights in the system with 6 antenna arrays, 10 received pulses and 200 range samples computed in 262 µs by vector size of 17 on the Arria10 FPGA the maximum of which is 155 µs are related to QRD-MGS and 107 µs is related to other parts. Therefore, QRD-MGS is the most important part in calculation of the STAP weight vector and its simplifying led to an efficient implementation.

Abbreviations: Computation time, Field programmable gate array, QR decomposition, Space time adaptive processing 相似文献

14.

基于折叠变换的CORDIC算法实现

下载免费PDF全文

黄宇声李朝海《雷达科学与技术》2014,12(4):446-449

在现代数字信号处理领域中,CORDIC算法是一种重要的数学计算方法。该算法采用一种迭代的方式,运算简便,被广泛应用于乘除法、开方以及一些三角函数运算当中。但CORDIC算法需要较高的迭代级数以保证运算精度,在进行FPGA实现时仍然会消耗较多的硬件逻辑资源。为进一步减少CORDIC算法实现时的资源消耗,设计并实现了一种基于折叠变换的CORDIC算法。相比传统的流水结构CORDIC算法,该折叠结构的CORDIC算法消耗的硬件资源大大减少。文中给出了这一方法的实现结构,并给出了仿真结果。相似文献

15.

High performance VLSI architecture for block based visible image watermarking

V.E. Jayanthi V. Rajamani P. Karthikeyan 《International Journal of Electronics》2013,100(9):1191-1206

In this article, a novel block-based visible image watermark VLSI architecture design and its hardware implementation in field programmable gate array (FPGA) is proposed. In this watermarking process, 1D-DCT is introduced to facilitate hardware implementation. Mathematical model is developed to reduce the computational complexity for the calculation of embedding and scaling factors, which are used to make the resultant image of best quality with uniform watermark visibility. The proposed architecture has a 12–stage pipeline. Parallelism techniques are employed in block level in order to achieve high performance. A single 8-point fast 1D-DCT is used to calculate the DCT coefficient values of the host image and the watermark image to minimize the resource utilization and power consumption. The hardware implementation of this algorithm leads to numerous advantages including reduced power, area and higher pipeline throughput. The performance of the architecture is studied by implementing Xilinx Virtex V technology based FPGA with DSP 48E. Throughput achieved based on this VLSI architecture is 5.21 Gbits/s with a total resource utilization of 4058BELs. 相似文献

16.

少模光纤通信频域均衡中的大点数FFT设计

下载免费PDF全文

黄战华赵宇璐李桂芳王云立《激光技术》2016,40(2):161-165

为了减小频域均衡系统电路实现的功耗和面积,满足长距离少模光纤通信对均衡器的要求,对关键环节快速傅里叶变换(FFT)电路的实现进行了研究,采用2维分解算法将大点数的FFT运算转换为小点数FFT处理器的设计,降低了硬件复杂度。设计了基于现场可编程门阵列的高速蝶形运算核,实现了16384点FFT的2维R22SDF结构,提高存储器的资源利用率,减少了复数乘法器的使用;进行了理论分析和实验验证,取得了不同时钟频率下的电路结构占用资源的数据。结果表明,FFT运算器的正确性得到验证,该FFT运算器能够适应少模光纤通信系统中优化频域均衡电路结构的要求,能够实现200MHz数据传输速度的频域均衡实时处理。相似文献

17.

一种改进的K-Best检测算法研究及实现

吴军王绍伟《电视技术》2013,37(5)

在研究MIMO系统检测算法理论及其实现方法的基础上,对已证明较优的算法进行结合和改进,提出了一种改进的K-Best检测算法及其实现方案,并通过仿真验证了方案的可行性。该算法采用预测技术和并行排序相结合的方法,降低了计算复杂度;采用并行流水线结构实现,节省了处理时间;并对方案在Xilinx公司的Virtex-5系列FPGA中的资源使用情况进行了统计。研究表明,实现方案可以用于MIMO系统检测算法的硬件实现。相似文献

18.

Recursive least-squares algorithms of modified Gram-Schmidt typefor parallel weight extraction

Sakai H. 《Signal Processing, IEEE Transactions on》1994,42(2):429-433

This paper presents some new algorithms for parallel weight extraction in the recursive least-squares (RLS) estimation based on the modified Gram-Schmidt (MGS) method. These are the counterparts of the algorithms using an inverse QR decomposition based on the Givens rotations and do not contain the square root operation. Systolic-array implementations of the algorithms are considered on a 2-D rhombic array. Simulation results are also presented to compare the finite word-length effect of these new algorithms and existing algorithms 相似文献

19.

CORDIC算法的FPGA与DSP实现的优劣分析

王琦栾铸徵《舰船电子对抗》2012,(5):43-46

介绍了坐标旋转数字计算机（CORDIC）的算法原理,分析了算法中旋转迭代次数、操作数位宽与精度的关系,在现场可编程门阵列（FPGA）芯片和数字信号处理器（DSP）芯片上用全流水、高并行结构分别实现了旋转模式下的CORDIC算法,并将两者的精度、时间效率、空间效率的优劣进行比较。结果表明,DSP数值精度比FPGA高且设计更灵活,可移植性更强;而FPGA速度远远快于DSP,消耗硬件资源更少。相似文献