期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于FPGA的万兆流量并行实时处理系统研究 总被引：1，自引：0，他引：1

王建东祝超谢应科韩承德赵自力《计算机研究与发展》2009,46(2)

针时万兆网络环境下入侵检测、流量审计等应用系统处理能力瓶颈,提出一个并行实时处理体系结构,并基于FPGA实现了原型系统,该系统对OC192(10 Gbps)流量进行分类、过滤及统计,然后将流量分发到多个后台并行处理.系统中设计了通用包分类结构RSTCAM(range-supported split TCAM),该结构资源占用量少,可降低系统功耗,且易于实现范围查找,对基于TCAM包分类系统具有普遍意义.系统中还提出了一种负载均衡算法FDLB(feedback-based dynamic load balancing),FDLB改进了基于表的Hash方法,在保证会话完整性的前提下将流量优先分发给当前负载最小的后端处理.测试表明,原型系统完全胜任万兆流量的线速处理,平均处理延迟为4.2μs. 相似文献

2.

FPGA的三重可寻址存储器加速更新机制

李蓉曹志强《单片机与嵌入式系统应用》2021,21(11):30-33

本文提出了两种适用于基于FPGA的TC AM的更新机制,并成功在Xilinx Virtex-6 FPGA上实现.该更新机制包括加速MUX更新机制和低成本LUT更新机制.MUX更新机制仅使用3个输入/输出(I/O)引脚,可提供W+1时钟周期的更新延迟,W是TCAM的宽度;通过使用W I/O引脚,LUT更新机制可产生一个恒定的2个时钟周期的更新延迟,与TCAM的大小无关. 相似文献

3.

FPGA上基于Hausdorff距离的图像匹配并行算法设计与实现

下载免费PDF全文

徐金波窦勇《计算机工程与科学》2008,30(7)

基于Hausdorff距离的图像匹配算法鲁棒性较好,但计算代价较大,软件实现方案很难满足实时性要求。为了解决这个问题,本文在基于局部Hausdorff距离的图像匹配算法基础上提出了一种鲁棒而实时的FPGA实现方案。为了充分有效利用FPGA的硬件资源,首先对传统串行算法进行并行性分析,提出了一个并行算法;然后以此为基础设计了一种三段式粗粒度流水体系结构,并将其映射到FPGA上进行实现。实验结果表明,该系统在性能上优于其它相关工作,与PC(Pentium42.8GHz)上的软件实现方案相比可以达到接近50倍的加速比。相似文献

4.

EMD 10G线路接口卡的硬件设计与实现

杨琴兰巨龙王雨《电子技术应用》2008,34(7)

针对现有网络接入设备难以满足流媒体等新业务要求的问题,深入研究了EMD(扩展用分复用单元)10G线路接口卡的功能与结构,并针对上行数据流的合路问题提出了基于FPGA的WDRR(加权欠账轮询)算法,该算法在不过度改变计算复杂度的情况下,使得时延性能得到改善;针对超宽表项的1920位组播查表问题,提出了FPGA+TCAM+2~*SRAM的组播流水线查表,与传统的查表方案相比,其效率提高了67%。最后通过仿真,测试表明该硬件设计方案能够满足ACR路由器对EMD 10G线路接口卡的要求。相似文献

5.

PGA上基于Hausdorff距离的图像匹配并行算法设计与实现

下载免费PDF全文

徐金波窦勇《计算机工程与科学》2008,30(7):61-64

基于Hausdorff距离的图像匹配算法鲁棒性较好,但计算代价较大,软件实现方案很难满足实时性要求。为了解决这个问题,本文在基于局部Hausdorff距离的图像匹配算法基础上提出了一种鲁棒而实时的FPGA实现方案。为了充分有效利用FPGA的硬件资源,首先对传统串行算法进行并行性分析,提出了一个并行算法;然后以此为基础设计了一种三段式粗粒度流水体系结构,并将其映射到FPGA上进行实现。实验结果表明,该系统在性能上优于其它相关工作,与PC（Pentium4 2．8GHz）上的软件实现方案相比可以达到接近50倍的加速比。相似文献

6.

基于双优先级的IPv4单播查表解决方法

下载免费PDF全文

杨乾斌张鹏陈苏铿张兴明《计算机工程与应用》2009,45(5):132-134

针对大规模接入汇聚路由器IPv4单播报文的多表查找问题,结合对TCAM＋SRAM查表技术特点的分析,提出了一种基于双优先级的IPv4单播查表解决方法,并对其中的最长匹配表项快速更新需求设计了一种预留表项空间的改进型选择移动算法。测试结果表明该方法能有效地解决IPv4单播报文的多表查找难题,提高表项的更新速度,节省FPGA资源,提高转发引擎的效率。相似文献

7.

基于高层次综合的AES算法研究与设计

张望贾佳孟渊白旭《计算机应用》2017,37(5):1341-1346

由于对广泛使用的AES算法的性能要求越来越高,基于软件的密码算法已经越来越难以满足高吞吐量密码破解的需求,因此越来越多的算法利用现场可编程逻辑门阵列（FPGA）平台进行加速。针对AES算法在FPGA硬件上存在的开发复杂度高且开发周期长等问题,采用高层次综合（HLS）设计方法,使用高级程序语言描述并设计AES硬件加速算法。首先利用循环展开等提高运算并行度;其次使用资源平衡技术进行优化,充分利用片上存储和电路资源;最后添加全流水结构,提高整体设计的时钟频率和吞吐量,同时也详细对比分析基准设计、利用结构展开、资源均衡以及流水线优化方法的设计。经过实验表明,在Xilinx xc7z020clg484 FPGA芯片上,最终AES算法的时钟频率最高达到127.06 MHz,而吞吐量达到了16.26 Gb/s,较之基准的AES设计,性能提升了三个数量级。相似文献

8.

基于查找表和SF CORDIC的高精度正余弦函数求值方法 总被引：1，自引：0，他引：1

牟胜梅李兆刚《计算机与数字工程》2014,(3):359-363

常用查找表法和CORDIC算法在FPGA上实现正余弦函数求值.查找表法实现简单,输出延迟小,但随着计算精度的提高,存储资源需求呈指数增长;传统的CORDIC方法硬件资源消耗大,且输出时延长.论文提出一种新方法,将查找表和SF-CORDIC算法相结合,以查表所得中间向量为迭代初始向量,对剩余旋转角应用SF-CORDIC算法,迭代系数取0或1,减少了x、y通路的计算开销和舍入误差;并对z通路使用加减交替法提前生成剩余旋转角,以减少每级流水线的延迟.所需查找表的地址位数和迭代次数分别较常规查表法和CORDIC算法减少一半左右.基于FPGA完成了算法的设计、仿真与误差分析,结果表明该方法可利用较少的硬件资源和存储资源实现较高精度和较低时延的正余弦函数求值. 相似文献

9.

基于ZYNQ的行人检测系统的设计与实现

嵇达龙张尤赛王亚军《计算机工程与设计》2020,41(1):238-245

随着行人检测技术的发展和应用,迫切需要能够进行实时处理的嵌入式行人检测系统。采用ZYNQ-7000作为算法平台,设计一种基于HOG与AdaBoost级联分类器的行人检测系统。利用FPGA的并行特性,采用流水线结构替代传统的串行结构,实现HOG算法加速;将AdaBoost级联分类器保存在FPGA的BRAM中,通过查找表的方式,在单个时钟周期内即可完成匹配判断。利用ZYNQ的软硬件协同设计,根据功能和资源进行软硬件分工,提高系统性能。实验结果表明,该设计方法在保持同等检测性能的条件下,检测速度相比ARM片上系统提高了44倍。相似文献

10.

矿山三维空间数据距离直方图算法优化及加速

《工矿自动化》2017,(2):55-60

分析了三维空间数据距离直方图算法的性质及数据结构,提出了基于图形处理器的通用计算方法和基于FPGA的高性能计算方法,基于图形处理器的计算方法可用于实现三维空间数据距离直方图算法的单指令多数据并行优化;基于FPGA的计算方法可实现算法的硬件分块优化,使算法的硬件结构达到最优匹配。实验结果表明,利用基于图形处理器的计算方法可使算法达到平均18倍的性能加速,基于FPGA的计算方法可使算法达到平均30倍的性能加速,大大提升了算法的数据处理能力。相似文献

11.

TCAMChecker: A Software Approach to the Error Detection and Correction of TCAM-Based Networking Systems

M. Zubair Shafiq Chad Meiners Zheng Qin Ke Shen Alex X. Liu 《Journal of Network and Systems Management》2013,21(3):335-352

Ternary content addressable memories (TCAMs) are widely used in network devices carrying out the core operation of single-operation lookups. TCAMs are the core component of many networking devices such as routers, switches, firewalls and intrusion detection/prevention systems. Unfortunately, they are susceptible to errors caused by environmental factors such as radiation. TCAM errors may have significant impact on search results. In fact, only one error in a TCAM can cause 100 % of search keys to have wrong lookup results. Therefore, TCAM error detection and correction schemes are needed to enhance the reliability of TCAM-based systems. All prior solutions require hardware changes to TCAM circuitry and therefore are difficult to deploy. In this paper, we propose TCAMChecker, the first software-based solution for TCAM error detection and correction. Given a search key, TCAMChecker probabilistically decides to verify the lookup result. If TCAMChecker decides to verify the lookup result then it performs two parallel lookups for the given search key. If the lookup results do not match then at least one error is detected and is corrected by using a backup error-free memory. Note that the probability of lookup verification can be tuned for tradeoff between performance and reliability. A higher probability of lookup verification provides a more reliable TCAM system at the cost of performance. Our proposed TCAMChecker can be easily deployed on existing TCAM-based networking devices to improve the system reliability. 相似文献

12.

IPv6的快速路由查找算法研究

王燕《计算机应用与软件》2005,22(10):28-30

TCAM被广泛用于执行快速路由查找,不管前缀的数量和长度,它能在极短时间内解决最佳前缀问题。与基于软件解决方法相比较,TCAM能提供持续吞吐量和简单系统体系,这对IPv6路由查找来说是很有吸引力的。然而,它也有一些缺点,例如入口数量有限,价格昂贵和能源消耗。因此,本文提出一种有效、能减少所需TCAM的算法,该算法通过增加微DRAM来消除98％的TCAM入口。实验证明,该算法效果良好,可以大大提高IPv6路由查找性能。相似文献

13.

分布算术并行结构设计研究

下载免费PDF全文

梁刚赵伟张洵颖《计算机工程与应用》2010,46(12):75-78

提出一种基于DA实现的可扩展的阵列结构,通过对阵列的配置使其具有良好的扩展能力以及并行处理的高效特性。该结构与传统的采用ASIC电路的实现方式相比,较好地解决了ASIC电路中阶数、数据字宽不可自适应调整以及存储量需求较大、吞吐量偏低的问题。最后在实现代价和性能方面与典型结构进行了比较,证明了该结构存储量需求小,运算时间少,具有较好的性价比。相似文献

14.

Chained backplane communication architecture for scalable multiprocessor systems

《Journal of Systems Architecture》2000,46(11):955-972

A scalable backplane topology which allows a practically unlimited number of modules with identical interfaces is presented. Short, buffered, point-to-point connections overcome clock skew problems. Synchronized, pipelined data transfer operations ensure high throughput and reasonably low latency times for fine-grain parallel algorithms. A simple bus interface logic without any special hardware configuration guarantees a cheap implementation with standard FPGAs. The measured performance in our FPGA based prototype with 32 bit wide data bus shows a throughput of 160 Mbytes/s for each module with 75 ns latency time between modules. 相似文献

15.

高吞吐率浮点FFT处理器的FPGA实现研究 总被引：3，自引：0，他引：3

下载免费PDF全文

牟胜梅杨晓东《计算机工程与科学》2008,30(7):98-99

受浮点操作的长流水线延迟及FPGA片上RAM端口数目的限制,传统H可处理器的吞吐率通常只能达到每周期输出一个复数结果。本文用FPGA设计并实现了一种高吞吐率的IEEE754标准单精度浮点FFT处理器,通过改进蝶形计算单元的结构并重新组织FPGA片上RAM的访问,该处理器每周期平均可输出约两个复数计算结果,吞吐率约为传统FFT处理器吞吐率的两倍。对于1024点FFT变换,可在（512＋10）＊10=5220周期内完成。相似文献

16.

基于FPGA的高速硬件防火墙报文检测系统设计 总被引：1，自引：0，他引：1

李长胜龙文《微计算机信息》2006,22(2):166-168

在这篇论文中,我们介绍了一个基于FPGA的网络报文处理硬件平台并且分析了一种基于硬件的防火墙报文检测系统结构。目前的基于软件的防火墙计算量非常大并且不能够满足现代网络带宽的需要。而基于硬件的技术是加速网络处理的一个理想的办法。文章着重介绍了基于FPGA的IP报文过滤处理模块设计,它是基于硬件防火墙的核心处理部分。过滤处理采用关键字匹配策略的重要特征是利用CAM作为处理单元。CAM可以在超过2Gbps的速度下进行线速的入侵检测报文查找。相似文献

17.

使用FPGA进行网络入侵监测

郑彦树《现代计算机》2005,(10):111-112

FPGA技术已经被广泛用于实时网络入侵监测.一个称为BV-TCAM的数据包分类体系,它是用来实现以FPGA为基础的网络入侵监测系统(NIDS).这个分类器每秒钟报出网络连接中的多个以比特单位的匹配,它结合了三重内容可设定地址的存储(TCAM)和比特向量算法(BV). 相似文献

18.

Scalable mpNoC for massively parallel systems – Design and implementation on FPGA

M. Baklouti Y. Aydi Ph. Marquet J.L. Dekeyser M. Abid 《Journal of Systems Architecture》2010,56(7):278-292

The high chip-level integration enables the implementation of large-scale parallel processing architectures with 64 and more processing nodes on a single chip or on an FPGA device. These parallel systems require a cost-effective yet high-performance interconnection scheme to provide the needed communications between processors. The massively parallel Network on Chip (mpNoC) was proposed to address the demand for parallel irregular communications for massively parallel processing System on Chip (mppSoC). Targeting FPGA-based design, an efficient mpNoC low level RTL implementation is proposed taking into account design constraints. The proposed network is designed as an FPGA based Intellectual Property (IP) able to be configured in different communication modes. It can communicate between processors and also perform parallel I/O data transfer which is clearly a key issue in an SIMD system. The mpNoC RTL implementation presents good performances in terms of area, throughput and power consumption which are important metrics targeting an on chip implementation. mpNoC is a flexible architecture that is suitable for use in FPGA-based parallel systems. This paper introduces the basic mppSoC architecture. It mainly focuses on the mpNoC flexible IP based design and its implementation on FPGA. The integration of mpNoC in mppSoC is also described. Implementation results on a Stratix II FPGA device are given for three data-parallel applications ran on mppSoC. The obtained good performances justify the effectiveness of the proposed parallel network. It is shown that the mpNoC is a lightweight parallel network making it suitable for both small as well as large FPGA-based parallel systems. 相似文献

19.

一种新型片上网络互连结构的仿真和实现 总被引：2，自引：0，他引：2

陈芳露陆雯青虞志益周晓方《小型微型计算机系统》2010,31(5)

综合性能、硬件实现等方面考虑,提出一种基于片上网络的互连拓扑结构-层次化路由结构MLR(Multi-Layer Router).该结构通过层次化设计减小网络直径,具有良好的对称性和扩展性.网络建模仿真和硬件实现结果显示,在不同网络负载和不同IP核节点数的情况下,MLR与传统结构相比,在处理网络通信时,对于网络丢包率、通信延迟和网络吞吐量等网络性能参数均有最多50%-70%的提升;同时通过共享路由的方式,减少了超过20%的芯片面积和40%以上的动态功耗,有效降低了互连结构的硬件开销相似文献