期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张晓奇张翌维郑新建《计算机技术与发展》2007,17(5):152-156

研究了一种基于流水线结构的多级数字混沌保密通信方案，以驱动参量法作为同步实现模型，并在编码机制上进行了改进。以流水线方式对整个处理过程进行分割，为进程间设定合理的通信粒度，数值模拟得到了另人满意的并行加速比。文章最后对方案中流水线的执行时间进行估算，并分析了在不同任务划分及不同通信速率下的并行加速比情况。相似文献

2.

PipeCNN：一种基于软件流水线的并行化卷积神经网络方法

吴鹏周宁宁《计算机应用研究》2021,38(4):1079-1083

针对使用传统模型并行方法加速卷积神经网络训练容易出现设备利用率不高的问题,提出了通过软件流水线方式加速卷积神经网络的方法PipeCNN。首先研究了卷积神经网络中的前向传播与反向传播算法,分析了训练过程中的数据相关性;然后基于软件流水线改进了卷积神经网络的训练过程,提出了两种可行的参数更新方式;最后使用循环队列来实现网络中层与层之间的消息通信,并提出任务分配算法来划分软件流水线中的工作段。实验结果显示,这种方法在保证模型准确性的前提下,可以取得良好的加速比以及设备利用率,表明了使用软件流水线可以有效解决模型并行中设备利用率不高的问题,提高了卷积神经网络的训练速度。相似文献

3.

一种改进的求解输运方程的并行Sn扫描算法

下载免费PDF全文

周涤宇刘杰《计算机工程与科学》2008,30(4):62-65

非结构网格上求解粒子输运方程的可扩展并行算法是一个亟待解决的课题。本文在文献[1]并行流水线勖扫描算法的基础上提出了一种改进算法。改进后的算法可以有效降低原算法对并行机通信延迟的依赖,减少程序运行的通信时间,达到了缩短并行计算时间和提高并行性能的目的。针对二维粒子输运问题进行的数值实验表明,从64扩展到256个处理机时,加速比呈线性增长,改进算法比原算法的并行计算时间最大减少了19％。相似文献

4.

产出率并行加速比模型

王之元《计算机工程》2011,37(5):10-12

针对并行计算系统的性能度量问题,在产出率度量模型的基础上,建立综合系统可靠性、通信、并行化控制和成本投入要素的产出率并行加速比模型,分析总结模型中各要素影响产出率并行加速比的关键因子,包括容错开销因子、通信开销因子、并行控制开销因子及成本开销因子,对上述关键因子进行模拟实验,以验证该模型的有效性。相似文献

5.

线云隐私攻击算法的并行加速研究

郭宸良阎少宏宗晨琪《计算机工程与科学》2024,(4):615-625

线云定位方法能保护场景隐私,但也存在被隐私攻击算法破解的风险。该攻击算法能从线云恢复近似点云,但其计算效率较低。针对该问题,提出了一种并行优化算法,并对其运行时间和加速比进行了分析。具体来说,分别采用SPMD模式和流水线模式实现了CPU多核并行和GPGPU并行。然后,进一步结合数据并行模式实现了异构计算,以达到最高的并行度。实验结果表明,并行优化算法加速比最大为15.11,最小为8.20;相比原算法,并行优化算法的还原点云相对误差控制在原误差的0.4%以内,保证了算法的精度。该研究对线云隐私攻击算法以及其他密度估计问题、不同场景下的线云隐私保护算法等有重要意义和参考价值。相似文献

6.

粒子跟踪算法的并行实现

赵晓玲孙济洲《计算机工程》2003,29(18):101-103

针对粒子跟踪算法提出了并行方案,设计了相应的并行绘制模型，并对该方案进行了算法设计和程序验证，以理想的加速比和较高的效率实现了粒子跟踪算法。相似文献

7.

一种混合并行XML 解析方法 总被引：1，自引：0，他引：1

方跃坚余枝强翟磊吴中海《软件学报》2013,24(6):1196-1206

设计了一种混合并行XML解析方法。该方法由轻量级事件划分、事件级并行解析和后处理三阶段组成。使用 SIMD 指令来加速事件划分。阶段级处理使用软件流水线并行技术。同时使用了事件级数据并行技术和流水线并行技术,所以该方法是一种混合并行方法。与其他方法相比,该方法具有高效并行解析和低通信开销的优势。在基于8核Intel Xeon X7560 CPU、Linux操作系统机器上的测试结果表明,与现有其他方法相比,该方法能够达到更高的加速以及更好的可扩展性。相似文献

8.

大整数乘法Schönhage-Strassen算法的多核并行化研究

赵玉文刘芳芳蒋丽娟杨超《软件学报》2018,29(12):3604-3613

基于数论转换的Schönhage-Strassen算法（简称SSA）是目前实际应用中使用较多、速度较快的大整数乘法算法之一.首先对SSA算法原理进行了详细分析,然后从细粒度的角度对SSA算法在多核平台进行比较细致的并行优化.基于大整数运算开源库GMP实现了SSA算法并行化方案,并在Intel X86平台进行了验证和测试.经测试,8线程时的最大加速比可达到6.59,平均加速比6.41.在浪潮TS850服务器对并行方案的扩展性进行测试,实验结果表明：SSA算法并行方案具有良好的扩展性,最大加速比可达21.42. 相似文献

9.

数字电路门级并行逻辑模拟 总被引：1，自引：0，他引：1

下载免费PDF全文

龙川宁涛《计算机工程与应用》2008,44(13):63-66

对基于事件驱动的电路门级并行逻辑模拟算法和相应的电路划分算法进行了研究。在保守协议的基础上,模拟算法采用流水线技术避免了死锁;采用事件打包,消息队列和非阻塞通讯技术减少了消息传递开销。在聚集分解的基础上,电路划分算法对组合或时序电路都可进行非循环划分,保证流水线模拟不会出现死锁。在曙光集群上采用MPI实现了模拟算法,对ISCAS部分电路进行实验,获得了很好的加速比。最后提出采用预模拟方法的电路划分改进方案。相似文献

10.

FPGA加速三维CT图像重建

邓靖飞李建新李磊闫镔《电子技术应用》2010,(9)

针对三维图像重建的经典算法(FDK算法)在FPGA上的加速,提出了并行无等待流水线的实现方法。实验结果表明,该方法获得了较高的加速比。相似文献

11.

三维激光烧蚀流体界面不稳定性程序的并行化 总被引：1，自引：0，他引：1

左风丽莫则尧叶文华《数值计算与计算机应用》2005,26(1):1-12

在共享存储并行机和MPP并行机上,基于MPI(MessagePassingInterface)并行编程环境,本文研究三维激光烧蚀界而不稳定性程序(Lared-S)的并行实现.三维激光烧蚀的数值模拟采用分裂方法,其90％以上的计算负载存在于流体方程和热传导方程的求解(流体方程的求解采用分裂显格式,热传导方程的求解采用分裂隐格式).本文给出基于三维分裂格式的交替平面数据通信模式.分裂隐格式的求解转化为三对角方程组的求解,其并行实现采用块流水线并行算法.数值实验结果表明交替平面数据通信策略和块流水线并行算法是有效且可扩展的.在共享存储并行机上,应用64台处理机获得93％以上的并行效率;在MPP并行机上,应用128台处理机获得90％以上的并行效率. 相似文献

12.

基于动态数据分布的并行Shear-Warp体绘制算法 总被引：5，自引：0，他引：5

任继成袁晓君李华刘慎权《计算机辅助设计与图形学学报》2000,12(4):241-244

提出了基于动态数据分布的并行Ｓｈｅａｒ－Ｗａｒｐ体绘制算法和新的动态数据分布策略,利用空闲的广播通信线路使数据重分布与绘制并行进行,提高了通信线路的利用率、避免了冗余存储,减少了资源浪费,并避免了对算法效率的影响;改进的任务分配与负载平衡策略,避免了节点机负载的不平衡和流水线作业的积压,提高了算法的效率。相似文献

13.

数千上万核上模拟结果的并行可视化

肖丽艾志玮王弘堃《计算机工程与科学》2012,34(8):160-165

在科学与工程计算中,在数千上万核上,模拟包含上亿网格单元的模型通常输出TB量级的时变数据集。这些数据集包含多个时刻的数据,每个时刻的数据分布存储在数千个文件,单时刻的数据量达到几GB甚至几十GB。为了并行地可视化这种时变数据集,本文设计了基于网格片的层次化数据结构,基于该数据结构改进和优化了并行可视化流程和数据通信算法。在集成到可视化软件后,实现了两个应用的模拟结果可视化。实测数据表明,对于单时刻5GB和32GB的数据,在数十上百个处理器核上,从数据读入到获得体绘制结果的时间分别为19秒和80秒,交互操作为2秒到10秒;三维面绘制在数秒钟内,切片分析在2秒以内。相似文献

14.

基于动态profiling技术的流水粒度调优

马琳陈莉冯晓兵《计算机研究与发展》2005,42(6):1065-1072

结点间流水是解决数据分布和计算分割不一致时的一种重要的并行发掘技术.结点间流水通过计算与通信的重叠获得并行度.精确的流水粒度是获得良好的流水性能的关键.流水分块取决于很多因素,如程序规模、程序的访问模式、结点规模、结点的计算能力和存储体系、通信系统的性能、通信库开销等等.提出了动态profiling方式并实现在流水粒度的推导中,运行时信息收集部分典型分块,结合代价模型推导流水粒度,该模型考虑局部性优化;探索如何减少插桩执行的开销的同时保证代价模型的精度.实验证明,这种方式有更好的适应性,能获得较好的流水并行. 相似文献

15.

一种高效率的多天线信号检测方案的设计与实现

朱捷席兵刘勇《计算机应用与软件》2020,37(4):95-100

为了满足现代无线通信系统对于信号检测环节高吞吐、低资源消耗的设计需求,针对现有方案从组合逻辑、数据处理能力、模块耦合度等方面进行优化并提出一种高效率的多天线信号检测方案。该方案结构精简、易于流水线实现,结合DDR3高速读写数据的优势并采取基于AXI4-Stream接口封装的技术,极大地提高了检测环节的数据处理效率。以ZYNQ-7100为硬件平台,通过仿真验证了该方案的准确性及优越性。该方案为现有LTE-A系统基带核心处理部分提供了解决方案,同时对其他信号检测类产品IP的设计也有一定参考意义。相似文献

16.

基于“嵩山”超级计算机系统的大规模管网仿真

杨周凡韩林李冰洋谢景明韩璞刘勇杰《计算机工程》2022,48(9):155-161

供水管网仿真广泛应用于城市供水输配调度,是城市供水管网监测与维护的重要技术手段。由于在面向城市级的大规模管网中产生了海量的计算数据,因此在一般计算平台上无法满足管网仿真计算的算力需求。为提升城市级供水管网仿真的计算效率,提出一种有效的并行化方案。基于“嵩山”超级计算机系统采用中央处理器+数据缓存单元（CPU+DCU）架构,利用其在密集数据计算方面的优势,对“嵩山”超级计算机进行供水管网仿真。参照可移植性异构计算接口（HIP）异构编程模型,在“嵩山”超级计算机上实现供水管网仿真的异构计算,并结合管道数据分割方案,使用消息传递接口开启多进程以实现DCU加速数据通信传递。通过重定义数据类型解决计算过程中结构体传输问题,实现单节点内多DCU的大规模密集计算。在不同计算平台和多种计算策略仿真上的对比结果表明,与传统x86平台相比,该优化方案在小规模数据与大规模数据上的加速比分别达到5.269、10.760,与采用计算统一设备架构异构编程模型的传统GPU异构平台相比,计算性能有明显提高。相似文献

17.

基于管道和多线程的多对一远程数据提取技术 总被引：1，自引：0，他引：1

陆正福杨邓奇《微计算机应用》2006,27(6):720-723

异地多数据库服务器数据的集中提取是数据集成、远程备份、远程恢复中的基础技术。本文分析了Power—Builder平台中的管道技术，用关键程序代码描述了基于数据管道技术所实现的单线程数据集中提取方案，并进一步提出了基于多线程并发通信技术的性能优化方案。实验表明，这些方法是有效可行的。相似文献

18.

应用于天然气管网安全监测的无线传感器网络节点设计与实现 总被引：1，自引：0，他引：1

冯仁剑张帅锋于宁万江文《传感技术学报》2009,22(10)

利用无线传感器网络技术可对城市天然气管网安全进行在线、实时监测.结合具体应用需求和特点,设计了一种支持IEEE802.15.4和ZigBee协议的新型无线传感器网络节点.利用该节点,可以识别施工或其它外力对天然气管道的撞击破坏,检测管道附近泄漏的天然气浓度及异常温度等不安全因素.在集成微处理器和射频收发模块的"片上系统"芯片的基础上,实现了射频通信、数据采集和电源等模块的硬件电路设计,给出了节点间组网及数据传输的软件机制.实验结果表明,该节点具有功耗低、通信可靠等特点,可满足天然气管道安全监测的实际需要. 相似文献

19.

Extending decoupled software pipeline to parallelize Java programs

André Loureiro João Paulo Porto Guido Araujo 《Software》2013,43(5):525-541

Programmers can no longer rely solely on micro‐architectural and technology improvements to have their programs running faster. In today's multicore chips, parallel code needs to be explicitly written to extract any benefits from the extra available processing power. A recently proposed technique to parallelize general‐purpose programs' loops at the binary level, called decoupled software pipeline (DSWP), has shown good performance numbers only under the assumption of a fast hardware intercore communication queue. In this paper, we propose Java‐DSWP, a source‐level DSWP‐based parallelization technique that is much simpler than original DSWP and can be used to effectively parallelize Java applications. In addition, we propose and evaluate a software intercore communication scheme that enables code parallelized through Java‐DSWP to be executed in commodity machines, thus not requiring a hardware intercore communication queue to be efficient, as DSWP does. We analyze three memory communication queue implementations and show experimental results that reveal an average 48% speedup on some SPCjvm2008 benchmarks. Copyright © 2012 John Wiley & Sons, Ltd. 相似文献

20.

Speedup and optimality in pipeline programs

Jason Gait 《International journal of parallel programming》1989,18(4):277-290

This paper studies a model for pipeline programs with unidirectional data flow. The model takes communication cost into account and imposes a number of restrictions on pipeline structure, e.g., that the time required in a pipe stage to process a message is the same as the processing time in every other stage. Explicit expressions are derived for the execution time and speedup of model pipeline programs, and a necessary and sufficient condition for optimality is derived. The logistics of model pipeline programs are described analytically in terms of the utilization of computation and communication capacity.Digital Equipment Corporation. 相似文献