首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
在分子动力学模拟系统中,实现分子间短程力的计算需要频繁地传输与大量的粒子数据访问。为了减轻CPU的计算负载,可以使用FPGA加速计算。但是,在基于FPGA的分子动力学模拟系统中,短程力计算模块面临巨大的数据传输压力以及访存冲突问题。针对这些问题,基于FPGA上有限的硬件资源,提出一种交互控制系统。该系统由取数控制模块与粒子数据解析模块组成。整个系统通过合理的数据编排以及2个模块的协同工作,实现粒子数据从片上存储到短程力计算模块的快速可靠的传输。通过硬件仿真和板级实验验证了该系统在处理粒子数据过程中的有效性和可靠性。  相似文献   

2.
为减少分子动力学模拟中短程力计算的时间消耗,设计并实现基于现场可编程门阵列的分子动力学模拟匹配单元。理论上,分析了分子动力学模拟中粒子间作用力的物理规律,提出两种满足短程力计算要求的粒子对的筛选方法:偏序法和平面法。技术上,使用新兴的硬件描述语言SpinalHDL,在Xilinx Virtex UltraScale+ HBM VCU128 FPGA板卡上实现了匹配单元。最后,将硬件测试结果与理论结果进行对比,验证了匹配单元可以有效过滤掉对短程力计算没有贡献的粒子对。同时对使用偏序法、平面法和使用直接计算法两种不同情况下的资源消耗进行对比分析,表明使用偏序法、平面法可以节省系统70%的DSP资源。  相似文献   

3.
FPGA传统RTL级别开发有着较高的编程难度和较长的设计时间,这限制了FPGA在分子动力学模拟中的应用.本文使用FPGA新一代编程方案HLS,基于Alevo U50板卡设计并实现了基于可重构计算平台硬件的分子动力学短程非键成力加速器,分别从粒子配对器设计优化、计算流水线设计等方面出发,设计具有高效率、低能耗的可重构计算方法.同时针对非键成力计算中存在的动态数据流,提出了HLS+ HDL的设计方法,进而在极大缩减设计时间的同时保证加速器的性能.  相似文献   

4.
动态规划是RNA二级结构预测最主要的算法,文中提出一种对动态规划矩阵采用分块技术的细粒度并行算法,通过对数据依赖关系的分析,引入了流水的策略,提高了算法的效率,在时钟模拟器上验证了算法的正确性,获得了一系列关于并行加速比、空泡率、存储访问带宽等问题的模拟结果,确定了FPGAPE阵列设计中的基本参数,为FPGA成功实现奠定了基础。  相似文献   

5.
张帅  徐顺  刘倩  金钟 《计算机科学》2018,45(10):291-294, 299
分子动力学模拟存在空间和时间的复杂性,并行加速分子的模拟过程尤为重要。基于GPU硬件数据并行架构的特点,组合分子动力学模拟的原子划分和空间划分的并行策略,优化实现了短程作用力计算Cell Verlet算法,并对分子动力学核心基础算法的GPU实现做了优化和性能分析。Cell Verlet算法实现首先采用原子划分的方式,将每个粒子的模拟计算任务映射到每个GPU线程,并采用空间划分的方式将模拟区域进行元胞划分,建立元胞索引表,实现粒子在模拟空间的实时定位;而在计算粒子间的作用力时,引入希尔伯特空间填充曲线方法来保持数据的线性存储与数据的三维空间分布的局部相关性,以便通过缓存加速GPU的全局内存访问;也利用了访存地址对齐和块内共享等技术来优化设计GPU分子动力学模拟过程。实例测试与对比分析显示,当前的算法实现具有强可扩展性和加速比等优势。  相似文献   

6.
为了解决视频图形显示系统中多个端口访问DDR3时出现的数据存储冲突问题,设计了一种基于FPGA的DDR3存储管理系统。DDR3存储器控制模块使用MIG生成DDR3控制器,只需通过用户接口信号就能完成DDR3读写操作。DDR3用户接口仲裁控制模块将中断请求分成多个子请求,实现视频中断和图形中断的并行处理。帧地址控制模块确保当前输出帧输出的是最新写满的帧。验证结果表明,设计的DDR3存储管理系统降低了多端口读写DDR3的复杂度,提高了并行处理的速度。  相似文献   

7.
主机通过高速网络访问远程内存的性能已经达到或远高于访问本地磁盘的性能,通过各种优化手段,网络内存系统的性能能得到更好的提升。该文基于一个Linux网络内存系统(LNMS),在客户端一级提出了一种新的预取算法m-ppm,该算法发展了多Markov链预取模型,使之更适合LNMS。在LNMS上实现了另2种常用的预取算法以作比较,实验数据表明,m-ppm算法对多用户模式更有效。  相似文献   

8.
田田  罗军舟  宋爱波  伍之昂 《软件学报》2011,22(10):2372-2384
副本复制是数据网格中提高数据访问效率的有效方法,如何提高副本复制的效率是一个关键性问题.现有的复制策略大多基于文件访问历史选择高价值副本进行复制,但其针对的都是节点已经访问过的文件.通过对虚拟组织文件访问特性进行深入分析,引入隐性高价值文件概念,提出虚拟组织副本协作预取机制(cooperative replica prefetching mechanism,简称CoRPM),使得本地节点通过与虚拟组织中其他节点进行协作来获取隐性高价值文件副本.该机制首先给出了副本协作预取架构,各个虚拟组织节点上的文件预取模块以协作的方式为虚拟组织内节点提供文件预取服务;然后,在副本协作预取架构的基础上设计了副本协作预取流程,其核心算法包括以作业类型为中心的本地文件预取算法和预取文件选择算法.模拟实验结果表明,CoRPM与已有的基于文件访问历史的副本复制策略相结合,可以更加有效地降低数据访问延迟.  相似文献   

9.
针对不规则数据访问模式图像处理应用提出了一种通用的高效无冲突并行访问存储模型.在主存储器与处理器之间构建了一种多体存储结构,并将大部分的不规则数据访问模式归类为对图像中多个局部矩形兴趣区域内的任意位置固定大小矩形数据块的无冲突并行访问.为了提高访问效率,只将兴趣区域内的数据缓存在多体存储器中,且不同兴趣区域的重叠数据可以重用.多体存储器的寻址机制是基于提出的地址映射表结构进行动态寻址,而不是采用传统的固定寻址函数,既保证了对任意数据读写操作的编址一致性,又提高了数据重用性.每处理一个新兴趣区域就对地址映射表内容进行一次更新,提出的双表结构与数据块动态调度机制保证了更新过程与计算过程的并行执行.基于提出的存储模型构建了硬件体系结构,并在FPGA上实现,测试结果表明,与直接访问主存储器相比在访存速度上提高了几倍到上百倍.  相似文献   

10.
现代高性能数字信号处理器大多数采用超长指令字体系结构,通过在同一时钟周期发射多条指令以便获得更高的运算性能来发掘目标机器指令级别并行性.介绍了BW104x目标体系特征,BWDSP104X是一款针对高性能计算领域设计的处理器,采用16发射、单指令流,多数据流架构.为了充分利用多簇及簇内硬件资源,基于open64编译基础设施提出了后端软流水优化,其中包括循环选择,资源依赖数据依赖计算,采用经典的模调度方法进行软流水调度,为解决不同迭代变量冲突引入模变量拓展模块.实验结果证明流水后性能相对流水前有了很好的提升.  相似文献   

11.
介绍了RS(255,223)码及其译码原理,基于修正欧几里德(Modified Euclidean,ME)算法提出了一种并行流水结构的硬件译码方案。按照自顶向下的设计流程划分模块,详细论述了各个子模块的设计过程,并给出了该结构的FPGA实现。相比现有的一些结构,该结构以较小的硬件资源代价,在相同时钟下数据吞吐率提高8倍,且大大降低了译码延迟。  相似文献   

12.
提出了一种分布式拒绝服务攻击的软防御系统模型.针对分布式拒绝服务攻击的行为和目标,从服务器自身适应入手,设计了一个服务资源管理系统,对访问资源进行管理和优化.在代理连接服务中采用流水技术优化SYN半连接的数量及连接时间.有效的阻止了分布式拒绝服务的攻击,优化了服务器的访问管理,提高了服务器的访问效率.  相似文献   

13.
由于链式数据结构的存储缺乏空间局部性,导致程序执行过程中对链式数据的访问会发生严重的Cache缺失行为。通过对面向链式结构的线程预取性能分析,研究链式数据结构程序热点循环的计算任务量与访存任务量比例特征对线程预取性能的影响。结合多核处理器平台特点,实现了一种适用于链式数据结构的帮助线程间隔预取方法。实验结果进一步验证了计算任务量与访存任务量比例特征对间隔预取性能的影响,表明间隔预取相比于传统线程预取技术有明显的性能优势。  相似文献   

14.
《微型机与应用》2016,(12):31-34
设计了一种基于FPGA的多路信号智能集成测控系统电路,其系统电路采用模块化设计,包括电源模块、多通道模块、信号隔离模块、ADC模块、FPGA主控模块、通信模块和电平转换模块等。所设计的电路将多路信号检测系统和多路信号控制系统集成在一起,解决了一些需要检测和控制联合应用的案例,且设备操作简单,系统应用广泛,尤其适合于汽车信号控制及检测等情形。通过对该电路进行仿真和实际电路的测试,达到了对多路信号智能检测和控制的目的。  相似文献   

15.
本文介绍了家用电器用的小型异步电机批量成品检验流水式计算机检测系统的硬件组成及软件结构,给出了主要硬件模块的设计,了解解决工业现场的干扰问题及消除模拟信号处理电路的零点漂移,采取了对采样信号进行了V/F,V/I双变换方式进行远程信息传输,同时采用数字滤波技术,从而保证系统的测试精度,该检测系统在流水线上相当于每15秒完成一台电机的参数测试,对异步电机能性参数的测试准确而快速,实现了产品检测工序的自  相似文献   

16.
根据卷积神经网络的特点,提出了深度流水的FPGA加速方案,设计了卷积层的通用卷积电路。该卷积电路可以在一个时钟周期内获得一个计算结果。理论上,该方案对于MNIST数据集,在28×28个时钟周期内可以获得一幅图片的运算结果。针对网络训练过程的前向传播阶段,在网络结构和数据集相同的情况下,对GPU,FPGA,CPU进行了在计算效率和能耗之间的比较。其中在计算效率方面,50 MHz频率的FPGA就可以相较于GPU实现近5倍的加速,相较于12核的CPU实现8倍的加速。而在功耗方面,该FPGA的实现方案只有GPU版本的26.7%。  相似文献   

17.
针对经典分子动力学和PIC方法等粒子类模拟方法具有粒子动态移动、粒子计算局部性好等共性,首先,提出了粒子量数据片对象.该对象是单网格片上的一团粒子,其中网格片是包含多个网格单元的矩形区域.然后,设计了并行算法,包括对象之间的粒子迁移和数据交换以及动态负载平衡.最后,在JASMIN框架上具体实现,进而开发了并行经典分子动力学程序和并行PIC程序.在64个处理器上实测表明,并行PIC程序模拟包含3百万个网格、2千万个粒子的复杂物理模型时,获得了80%的并行效率.  相似文献   

18.
为了应用智能化的方法提高数据库访问效率,基于多Agent技术构建了分布式数据库访问平台,研究并解决了平台的结构、各种Agent的设计、Agent间的协作机制、以及数据库系统的包装方法等关键问题.在优化策略方面,研究了分布式环境下的语义缓存技术,并提出了一种Agent平台下的智能预取算法,弥补了传统数据库优化手段缺乏智能性、预动性,以及重用困难等不足.通过在大型数据库系统上进行测试,表明该方案在进行大规模数据库操纵时效率有明显提高.  相似文献   

19.
在改进的细胞链表算法中,细胞大小的减少会降低该算法的通信量和粒子之间距离计算的次数,同时会增加部居细胞的数量。多细胞分子动力学算法是分子动力学模拟中普遍使用的并行算法。将改进细胞链表算法的基本思想应用到多细胞分子动力学算法中,推导出了一个分子动力学模拟性能评价模型,并据此提出一个优化模型来加速分子动力学模拟。实验结果表明,根据该优化模型确定的细胞大小可以提高分子动力学模拟程序的性能。  相似文献   

20.
一种基于线程的数据预取方法   总被引:1,自引:0,他引:1       下载免费PDF全文
多线程、多核处理器的推广受限于应用。目前,大部分应用尤其是桌面应用都是单线程程序,不能充分利用多线程处理器提供的多个现场并行执行来提高速度。使用空闲现场加速单线程应用是目前研究的一个热点,研究主要集中在提高传统串行应用存储访问的效率和分支预测的精度。在基于线程的数据预取方法中,数据预取线程是从主线程的执执行踪迹中提取的。它们使用空闲的现场,和主线程并行执行,在主线程需要数据之前把数据取到离处理器更近的存储层次。基于线程的数据预取方法能够有效地解决传统数据预取方法难以处理的诸多问题,如不规则内存访问模式。本文具体分析了应用程序中访存行为的特点,结合控制流处理,设计并验证了一种基于线程的数据预取方法TDP。模拟结果显示,使用TDP可以获得7%左右的性能提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号