首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
随着网络规模的进一步扩展,传统B/S架构的单体应用逐渐被微服务所代替,服务的拆分使得API的规模呈指数增长.而商用网卡处理在处理海量的微服务请求时,在确定性、可编程和数据拷贝三个方面表现出巨大的局限性.为保证各网络节点高效、灵活、精确地处理服务请求,本文提出可编程确定性的多队列FPGA加速器原型.该加速器依托多个硬件队列以及队列管理单元,扩展基于规则的RSS算法,实现serverless友好的数据包分发.添加PTP硬件时钟组件,与队列管理单元协同控制对数据包的确定性发送.为提升网络节点的数据收发效率,设计了适配FPGA加速器的驱动程序,实现数据包收发的零拷贝.在支持100Gbps线速率的FPGA上进行的实验表明,该加速器可以支持不同数据包大小的多队列的零拷贝传输,定义网路节点的转发行为,并在8个核心的FPGA设备上接近线速率处理数据,此外,它还支持以接近ovs-DPDK的低延迟进行数据包转发,在一定程度上克服了商业网卡在面向微服务架构时的局限性.  相似文献   

2.
神经网络模型的透明化及输入变量约简   总被引:1,自引:0,他引:1  
由于神经网络很容易实现从输入空间到输出空间的非线性映射,因此,神经网络应用者往往未考虑输入变量和输出变量之间的相关性,直接用神经网络来实现输入变量与输出变量之间的黑箱建模,致使模型中常存在冗余变量,并造成模型可靠性和鲁棒性差。提出一种透明化神经网络黑箱特性的方法,并用它剔除模型中的冗余变量。该方法首先利用神经网络释义图可视化网络;再利用连接权法计算神经网络输入变量的相对贡献率,判断其对输出变量的重要性;最后利用改进的随机化测验对连接权和输入变量贡献率进行显著性检验,修剪模型,并以综合贡献度和相对贡献率均不显著的输入变量的交集为依据,剔除冗余变量,实现NN模型透明化及变量选择。实验结果表明,该方法增加了模型的透明度,选择出了最佳输入变量,剔除了冗余输入变量,提高了模型的可靠性和鲁棒性。因此,该研究为神经网络模型的透明化及变量约简提供了一种新的方法。  相似文献   

3.
网络数据包捕获技术,是实现入侵检测、网络安全审计的关键技术。本文改进了国外传统的数据包捕获函数库Libpcap捕获数据包的方案。原方案在网卡捕获到数据包后,数据包从内核到用户层需要进行多次拷贝,造成大量数据包的丢失,致使无法正确还原网络用户的会话过程。改进的方案改变了原有的数据包存取模式,使用一个循环缓冲器直接完成捕获数据到用户层的传递。根据实验的结果显示,改进后的方案捕获数据包的性能比传统的方法有显著提高。  相似文献   

4.
实际工业过程大部分是非线性过程,其遗失数据的重构问题不能采用现有的线性数据重构方法来解决.本文提出一种部分输入自调整神经网络,以待求的重构变量作为要调整的网络输入.与传统网络不同的是,该网络的权值和阚值先由另外的神经网络训练求得,通过神经网络后向传递算法只需对网络的部分输入值进行训练,这样将非线性数据重构问题转化为部分输入神经网络的训练问题.仿真结果验证本文方法的有效性.  相似文献   

5.
网络数据包捕获技术,是实现入侵检测、网络安全审计的关键技术。本文改进了国外传统的数据包捕获函数库Libpeap捕获数据包的方案。原方案在网卡捕获到数据包后,数据包从内核到用户层需要进行多次拷贝,造成大量数据包的丢失,致使无法正确还原网络用户的会话过程。改进的方案改变了原有的数据包存取模式,使用一个循环缓冲器直接完成捕获数据到用户层的传递。根据实验的结果显示,改进后的方案捕获数据包的性能比传统的方法有显著提高。  相似文献   

6.
网络数据采集技术研究   总被引:4,自引:0,他引:4  
随着网络带宽的不断增长,网络安全系统(如网络入侵检测系统--NIDS)对网络数据包捕获能力要求越来越高,为了提高网络数据包的捕获能力以适应当今高速网络环境,本文在分析传统网络数据采集系统的基础上,采用地址映射、零拷贝捕包和零拷贝存储等技术,提出一种新的捕包系统,该系统的性能较传统的方法有了大幅的提高,在千兆网络环境下,能够满足网络安全对网络数据包捕获能力的需求.  相似文献   

7.
基于神经网络的方法计算量通常十分庞大,限制方法在嵌入式场景领域的应用.为了解决这一问题,文中提出基于异构现场可编程门阵列的卷积网络加速器.采用滑动窗并行加速卷积计算过程,可同时处理不同输入、输出通道的卷积过程.同时结合网络量化过程进行8 bit定点加速器设计,降低计算资源的使用.实验表明,文中定点加速器运算速度较快,功耗较小,算法性能损失较小.  相似文献   

8.
针对将各种卷积神经网络(CNN)模型部署在不同硬件端来实现算法加速时所遇到的耗费时间,工作量大等问题,采用Tengine工具链这一新兴的深度学习编译器技术来设计通用深度学习加速器,来将卷积神经网络模型与硬件后端高效快速对接;深度学习加速器的平台采用ZYNQ系列的ZCU104开发板,采用软硬件协同设计的思想,将开源的英伟达深度学习加速器(NVDLA)映射到可编程逻辑门阵列(FPGA)上,与ARM处理器构成SoC系统;NVDLA整体架构规范,包含软硬件设计,采用Tengine工具链代替原来官方的编译工具链;之后在搭建好的NVDLA平台上实现lenet-5和resnet-18的网络加速,完成了mnist和cifar-10的数据集图像分类任务;实验结果表明,采用Tengine工具链要比NVDLA官方的编译工具链推理速度快2.5倍,并且量化工具使用方便,网络模型部署高效。  相似文献   

9.
基于神经网络的股票中期预测   总被引:1,自引:0,他引:1  
本文给出了一种基于BP神经网络的股票市场建模、预测以及决策方法.应用神经网络进行股票中期预测,输入数据的复杂性给网络训练效率和预测精度造成了显著的负面影响.我们应用模糊曲线分析法进行了输入变量的筛选,该方法主要是用来压缩输入数据的维度,发现影响产出变量的重要因素.它通过求相关度,贡献弹性,根据样本点拟合样本曲线,最后选取出影响变量的重要因素.结果表明,经该方法处理后的数据输入神经网络不仅减少了输入数据量,使训练时间减少,运算速度提高,而且预测精度有了明显的改善.  相似文献   

10.
在诸多计算领域中,硬件加速器可以代替通用处理器上执行的软件完成专用功能,达到提高性能和降低功耗的目的.网络应用中,许多硬件加速器是无状态的,这就需要一个网络流的全部数据包到达后才能被处理.有状态加速器则可以确保每个数据包到达后即可被处理,因而具有更好的性能和灵活性.由于网络流的并发性,有状态加速器需要维护众多并发网络流...  相似文献   

11.
程序生成是人工智能的核心研究问题之一,当前输入输出样例驱动的神经网络模型是非常流行的研究方法.面临的主要挑战是泛化能力差、生成程序准确率保证、难以处理复杂程序结构(如分支、循环、递归等),主要原因是模型的输入信息单一(输入输出对)和完全依赖神经网络.显然单一地通过输入输出样例倒推程序行为存在歧义性,而神经网络的记忆容量很难满足常规程序的变量存储需求.提出一种人工与神经网络生成相协作的编程模型,融合神经网络和程序员各自的优势,其中程序员用高级编程语法编写程序框架,神经网络自动学习生成程序局部的琐碎细节,从而促进自动化程序生成方法更好地应对实际应用挑战.实验表明,研究方法是有效的,跟同类代表性研究方法相比表现出更好的学习性能.  相似文献   

12.
基于SSE指令的大内存快速拷贝   总被引:1,自引:0,他引:1  
在深入研究单指令多数据流扩展指令集(Streaming SIMD Extensions,SSE)数据传输指令操作特点的基础上,充分考虑了数据预取、数据对齐、CPU缓存和新的128位寄存器等因素,在Visual C++平台上用嵌入汇编开发了内存拷贝函数。通过实验分析了各内存拷贝函数拷贝速度与拷贝内存量之间的对应关系。  相似文献   

13.
递归神经网络(RNN)近些年来被越来越多地应用在机器学习领域,尤其是在处理序列学习任务中,相比CNN等神经网络性能更为优异。但是RNN及其变体,如LSTM、GRU等全连接网络的计算及存储复杂性较高,导致其推理计算慢,很难被应用在产品中。一方面,传统的计算平台CPU不适合处理RNN的大规模矩阵运算;另一方面,硬件加速平台GPU的共享内存和全局内存使基于GPU的RNN加速器的功耗比较高。FPGA 由于其并行计算及低功耗的特性,近些年来被越来越多地用来做 RNN 加速器的硬件平台。对近些年基于FPGA的RNN加速器进行了研究,将其中用到的数据优化算法及硬件架构设计技术进行了总结介绍,并进一步提出了未来研究的方向。  相似文献   

14.
黄瑞  金光浩  李磊  姜文超  宋庆增 《计算机工程》2021,47(9):185-190,196
针对以MobileNet为代表的轻量化卷积网络,基于现场可编程门阵列平台设计网络加速器。通过优化DW、PW轻量化模块并实现常用的卷积、ReLU等功能模块,满足神经网络加速器低功耗、低时延的要求,同时基于指令设计使加速器支持MobileNet及各类变种。利用上位机配置YoloV3 tiny(不含轻量模块)指令和YoloV3&MobileNet(含轻量模块)指令进行目标检测,实验结果表明,该网络加速器具有较快的推断速度,用于YoloV3 tiny结构时达到85 frame/s,用于YoloV3&MobileNet结构时达到62 frame/s。  相似文献   

15.
This paper describes the three neural network training algorithms that have been implemented in the systolic array processor [1], It describes the individual stages of each algorithm, along with any requirements for constant data values within the array, as well as details for any instructions that are ‘locked’ into a PE for perpetual execution. Dataflow diagrams within the systolic array for each stage of each algorithm, showing the implications of each calculation and the implied direction of the execution flow, are also shown and timing information for each stage of each algorithm are also given.  相似文献   

16.
We propose an efficient deep convolutional neural network for a super‐resolution which is capable of multiple‐quality input, by analyzing the input quality and choosing appropriate features automatically. To implement the network in an FPGA and an ASIC, we employ a network trimming technique to compress the neural network.  相似文献   

17.
目前,许多深度神经网络模型以双向长短时记忆网络结构处理中文分词任务,存在输入特征不够丰富、语义理解不全、计算速度慢的问题。针对以上问题,该文提出一种基于膨胀卷积神经网络模型的中文分词方法。通过加入汉字字根信息并用卷积神经网络提取特征来丰富输入特征;使用膨胀卷积神经网络模型并加入残差结构进行训练,能够更好理解语义信息并提高计算速度。基于Bakeoff 2005语料库的4个数据集设计实验,与双向长短时记忆网络模型的中文分词方法做对比,实验表明该文提出的模型取得了更好的分词效果,并具有更快的计算速度。  相似文献   

18.
为提高目前硬件运行卷积神经网络(CNN)的速度和能效,针对主流CNN网络的卷积计算设计加速模块并在FPGA上实现用于加速CNN网络的SoC系统。硬件平台采用带有ARM处理器的ZCU102 FPGA开发板,系统采用处理器和加速器的结构进行设计。加速器负责卷积计算,采用分块技术并重组卷积计算循环次序,使片上缓存的数据复用率更高,减少系统与内存之间数据的传输。支持1×1到11×11的卷积核尺寸,硬件支持的激活函数为ReLU和Leaky ReLU。处理器负责控制并处理CNN网络的其它计算,使SoC系统具有通用性和灵活性。实验结果表明,在100 MHz的工作频率下,峰值计算性能可以达到42.13 GFLOPS,相比CPU和其它FPGA计算的性能有一定提升。  相似文献   

19.
随着神经网络的广泛应用,它自身的安全问题也成为了一个重要的研究课题。将神经网络部署到神经网络处理器上运行是提高能效比的有效方法,但同时也引入了一些新的安全问题,比如侧信道信息泄露,本文以多核CNN处理器为基础,利用时间和内存侧信道信息,提出了一种针对多核CNN处理器的用户算法信息窃取攻击方法,经过试验证明了攻击的有效性,并针对多核神经网络处理器在时间和内存侧信道方面的脆弱性,提出了有效的防御手段,对如何保护神经网络处理器的安全提供了一定的参考意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号