期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

顾希之邵蓥侠《计算机科学》2023,(1):52-58

计算图精简是提升图神经网络(Graph Neural Network, GNN)模型训练速度的一种优化技术,它利用节点间存在共同邻居的特性,通过消除聚合阶段的冗余计算,来加速图神经网络模型的训练。但是,在处理大规模图数据时,已有的计算图精简技术存在计算效率低的问题,影响了计算图精简技术在大规模图神经网络中的应用。文中详细分析了当前的计算图精简技术,统计了包括搜索和重构两阶段处理的时间开销,并总结了现有方法的不足。在此基础上,提出了基于影响力剪枝的图神经网络快速计算图精简算法。该算法应用影响力模型刻画各个节点对计算图精简的贡献,并基于影响力对共同邻居的搜索空间进行剪枝,极大地提升了搜索阶段的效率。此外,详细分析了算法复杂度,从理论上证明了该技术期望的加速效果。最后,为验证所提算法的有效性,将所提算法应用到两种主流的计算图精简技术上,选取常见的图神经网络模型在多个数据集上进行测试,实验结果表明所提算法在保证一定冗余计算去除量的前提下,能够显著地提升计算图精简的效率。相比基线计算图精简技术,所提技术在PPI数据集上搜索阶段的加速效果最高提升了3.4倍,全过程最高提升了1.6倍;在Reddit... 相似文献

2.

虚拟计算环境中的覆盖网技术 总被引：1，自引：0，他引：1

卢锡城李东升《计算机学报》2008,31(9)

互联网资源的成长、自治和多样等特性给资源的有效聚合带来了巨大挑战.通过覆盖网动态组织互联网资源并支持资源的高效搜索,是虚拟计算环境中资源按需聚合的重要途径之一.文中概述了虚拟计算环境中覆盖网技术的研究进展.针对互联网资源的成长性和自治性等特点,阐述了基于Kautz图的高效覆盖网拓扑构造方法,进而给出了适用于任意正则图的通用覆盖网拓扑构造方法;针对互联网资源的多样性等特点,提出了支持分组的覆盖网拓扑构造方法;在此基础上,阐述了基于覆盖网的高效区间搜索技术,并对覆盖网拓扑的优化方法及其它复杂搜索技术进行探讨. 相似文献

3.

基于AWGR的动态光网络及拓扑映射

范修宏臧大伟程东《计算机工程与设计》2021,42(7):1801-1807

随着数据中心规模的越来越大,同一个虚拟拓扑中虚拟节点所映射到的物理节点间的距离越来越远,其链路在映射过程中需要经过若干的跳步,占用了大量的物理网络资源,降低了数据中心的收益.受到数据中心固定拓扑的限制,仅通过映射算法的优化很难取得较好的性能和收益提升,因此提出一种基于AWGR的动态光网络和对应的虚拟拓扑映射方法,通过结构和算法的协同提高了数据中心的利用率,从而提高了数据中心的收益. 相似文献

4.

POP海洋模式在四核至强集群上的并行计算 总被引：1，自引：0，他引：1

下载免费PDF全文

张理论赵军吴建平宋君强《计算机工程与应用》2009,45(5):189-192

分析了POP海洋模式原理、离散方法。在四核至强集群上,研究分析POP模式中计算局部块技术和平衡并行数据剖分及其对模式性能的影响。针对模式的通信性能瓶颈,采用聚合通信优化技术。研究结果表明局部块技术和数据剖分方式对于POP模式并行性能影响显著;通过通信聚合优化,POP模式在四核集群上性能获得明显提升。相似文献

5.

基于聚类分析的进程拓扑映射优化

王涛卿鹏魏迪漆锋滨《计算机学报》2015,38(5)

高性能计算机系统规模的持续增大使通信墙问题越来越突出.逻辑进程与物理拓扑的映射优化方法能够提高应用的通信效率,已经成为高性能计算的研究热点之一.传统的进程映射优化模型由于映射粒度过细,导致映射效率低,且易破坏通信密集的进程簇的整体性.为此,文中提出了一种聚合的二次分配问题(Aggregated Quadratic Assignment Problem,AQAP)模型,并以AQAP模型为指导,提出了一种新颖的基于聚类分析的进程映射优化方法.该方法首先使用谱聚类算法对进程通信模式进行聚类分析,然后采用自适应聚合进程映射策略实现进程簇到物理拓扑的映射,最后使用聚合Pair-Exchange算法对进程簇映射进行进一步优化.文中提出的优化方法首次将谱聚类分析应用于进程映射问题,可以有效减少远距离通信,增强通信的局部性.NPB基准程序及两道实际应用的实验结果表明,文中提出的进程映射优化方法可以使程序获得明显的性能提升,优于现有的基于Pair-Exchange以及基于图划分的进程映射方法. 相似文献

6.

基于网络模体的轻量级物联网拓扑优化策略研究

陈宁邱铁郭得科徐天一《计算机学报》2023,(6):1121-1138

随着第五代通信网络技术(5G)的发展,智慧城市中物联网(Internet of Things,IoT)的应用规模和多样性呈现出爆炸式增长.海量的智能传感设备组网给高动态的物联网通信服务质量带来了巨大的威胁.部分关键设备节点的失效以及网络攻击易引发物联网的链锁崩塌效应,影响网络应用的服务质量.因此,如何优化大规模物联网拓扑的鲁棒能力成为当下的研究挑战.目前,针对物联网拓扑结构的优化问题,研究者们提出了启发式算法、智能学习机制和多目标优化策略等创新方法提高物联网拓扑结构的鲁棒能力.但是,这些方法需牺牲巨大的计算资源来获得不成比例的鲁棒性能增益,网络规模越大,该现象越明显.为了解决这个问题并平衡计算开销和提升鲁棒性能,本文提出了一种基于网络模体(Motif)的轻量级物联网拓扑优化策略LITOS.首先利用物联网拓扑结构的社区属性,设计一种基于网络模体的异步社区发现算法,将大规模复杂拓扑结构分解为轻量级局部网络拓扑.然后,基于CPU多核心的计算资源,设计深度强化学习机制,异步优化轻量级物联网局部拓扑结构,从而降低网络整体优化运行时间,提高拓扑结构鲁棒能力.在实验方面,与其他先进的优化算法相比,该... 相似文献

7.

硬件集合通信中聚合树构建方法

陈淑平尉红梅王飞李祎何王全漆锋滨《计算机研究与发展》2024,(2):503-517

传统的MPI (message passing interface)集合通信是基于点到点消息实现的,性能较低;而硬件集合通信具有性能高、CPU占用率低等优点,正受到越来越多的关注.硬件集合通信中,聚合树对集合通信性能具有至关重要的影响.研究了影响硬件集合通信性能的因素,提出了硬件集合通信开销模型,并以此为基础提出了构建硬件集合通信聚合树的方法.该方法主要包括3个部分：1）根据操作类型、聚合数据包大小等确定聚合树类型及聚合树宽度,从而在网络传输开销与数据计算开销之间取得平衡;2）提出了最小高度分层k项Ⅰ型聚合树构建方法,降低了跨组聚合包的个数;3）提出了构建最小代价Ⅱ型聚合树的方法,减少所使用的交换机数量.在神威互连网络中对聚合树构建方法进行了全面测试,当存在网络噪声的情况及分层k项Ⅰ型聚合树构建方法下的消息延迟相比传统构建方法下降了24%～89%;典型通信模式时,最小代价Ⅱ型聚合树使用的交换机聚合条目数相比优化前下降了约90%. 相似文献

8.

混合B样条实体模型的等几何拓扑优化

下载免费PDF全文

杨佳明赵罡王伟郭马一杜孝孝《图学学报》2021,42(3):501-510

等几何拓扑优化方法将经典拓扑优化理论中的有限元分析过程更改为等几何分析计算,从而提高了拓扑优化的效率与稳定性。针对现有的等几何拓扑优化方法在处理复杂实体结构优化问题时具有一定的局限性,提出一种非结构化样条实体等几何拓扑优化方法。基于混合 B 样条构造技术,在非结构化六面体网格上构造具有复杂结构的样条实体,并将其作为拓扑优化问题的设计域。用于描述这一样条实体的基函数被直接应用于材料密度分布的表达以及等几何分析计算。在数值算例中,该方法表现出应用于复杂结构时的良好稳定性和鲁棒性。研究成果对等几何拓扑优化方法应用于实际工程问题具有一定的参考意义。相似文献

9.

BSP模型下基于边聚簇的大图划分与迭代处理

冷芳玲刘金鹏王志刚陈昌宁鲍玉斌于戈邓超《计算机研究与发展》2015,(4):960-971

近年来随着互联网的普及和相关技术的日益成熟,大规模图数据处理成为新的研究热点.由于传统的如Hadoop等通用云平台不适合迭代式地处理图数据,研究人员基于BSP模型提出了新的处理方案,如Pregel,Hama,Giraph等.然而,图处理算法需要按照图的拓扑结构频繁交换中间计算结果而导致巨大的通信开销,这严重地影响了基于BSP模型的系统的处理性能.首先从降低消息通信的角度分析当前主流BSP系统的处理方案,然后提出了一种基于边聚簇的垂直混合划分策略(EC-VHP),并建立代价收益模型分析其消息通信优化的效果.在EC-VHP的基础上,提出了一个点-边计算模型,并设计了简单Hash索引和多队列并行顺序索引机制,进一步提高消息通信的处理效率.最后,在真实数据集和模拟数据集上的大量实验,验证了EC-VHP策略和索引机制的正确性和有效性. 相似文献

10.

三维立交结构的欧拉图表达及交互设计方法

吴苗苗曹力秦宇王宇昆刘晓平《计算机辅助设计与图形学学报》2022,34(1):54-62

针对已有的道路建模技术中建模效果不理想,在大尺度道路网建模中缺乏有效的辅助交互技术支持的问题,通过对立交结构进行分析,提出一种有效的三维立交结构的欧拉图表达及交互设计方法.首先将道路信息预处理,根据处理后的有效数据构建欧拉图,用来表达道路立交结构的拓扑关系;然后利用欧拉图和道路的结构特性计算得到道路的层级关系;再根据控制点、欧拉图的拓扑信息和道路网格,构建立交结构的三维模型;最终构建辅助信息工具,实现对道路网的交互编辑.选取多个类型的立交结构道路网进行实验,结果证明,所提方法在立交结构类型上的应用更广泛,在计算正确率、优化交互编辑过程上有一定优势. 相似文献

11.

Parallel programming on a high‐performance application‐runtime

Wojtek James Goscinski David Abramson 《Concurrency and Computation》2008,20(18):2141-2177

High‐performance application development remains challenging, particularly for scientists making the transition to a heterogeneous grid environment. In general areas of computing, virtual environments such as Java and .Net have proved to be successful in fostering application development, allowing users to target and compile to a single environment, rather than a range of platforms, instruction sets and libraries. However, existing runtime environments are focused on business and desktop computing and they do not support the necessary high‐performance computing (HPC) abstractions required by e‐Scientists. Our work is focused on developing an application‐runtime that can support these services natively. The result is a new approach to the development of an application‐runtime for HPC: the Motor system has been developed by integrating a high‐performance communication library directly within a virtual machine. The Motor message passing library is integrated alongside and in cooperation with other runtime libraries and services while retaining a strong message passing performance. As a result, the application developer is provided with a common environment for HPC application development. This environment supports both procedural languages, such as C, and modern object‐oriented languages, such as C#. This paper describes the unique Motor architecture, presents its implementation and demonstrates its performance and use. Copyright © 2008 John Wiley & Sons, Ltd. 相似文献

12.

CloudsStorm: A framework for seamlessly programming and controlling virtual infrastructure functions during the DevOps lifecycle of cloud applications

Huan Zhou Yang Hu Xue Ouyang Jinshu Su Spiros Koulouzis Cees de Laat Zhiming Zhao 《Software》2019,49(10):1421-1447

The infrastructure-as-a-service (IaaS) model of cloud computing provides virtual infrastructure functions (VIFs), which allow application developers to flexibly provision suitable virtual machines' (VM) types and locations, and even configure the network connection for each VM. Because of the pay-as-you-go business model, IaaS provides an elastic way to operate applications on demand. However, in current cloud applications DevOps (software development and operations) lifecycle, the VM provisioning steps mainly rely on manually leveraging these VIFs. Moreover, these functions cannot be programmatically embedded into the application logic to control the infrastructure at runtime. Especially, the vendor lock-in issue, which different clouds provide different VIFs, also enlarges this gap between the cloud infrastructure management and application operation. To mitigate this gap, we designed and implemented a framework, CloudsStorm, which enables developers to easily leverage VIFs of different clouds and program them into their cloud applications. To be specific, CloudsStorm empowers applications with infrastructure programmability at design-level, infrastructure-level, and application-level. CloudsStorm also provides two infrastructure controlling modes, ie, active and passive mode, for applications at runtime. Besides, case studies about operating task-based and big data applications on clouds show that the monetary cost is significantly reduced through the seamless and on-demand infrastructure management provided by CloudsStorm. Finally, the scaling and recovery operation evaluations of CloudsStorm are performed to show its controlling performance. Compared with other tools, ie, “jcloud” and “cloudinit.d”, the scaling and provisioning performance evaluations demonstrate that CloudsStorm can achieve at least 10% efficiency improvement in our experiment settings. 相似文献

13.

Distributed Shared Arrays: An Integration of Message Passing and Multithreading on SMP Clusters

Ramzi?Basharahil Brian?Wims Cheng-Zhong?Xu Email author Song?Fu 《The Journal of supercomputing》2005,31(2):161-184

This paper presents a Distributed Shared Array runtime system to support Java-compliant multithreaded programming on clusters of symmetric multiprocessors (SMPs). As a hybrid of message passing and shared address space programming models, the DSA programming model allows programmers to explicitly control data distribution so as to take advantage of the deep memory hierarchy, while relieving them from error-prone orchestration of communication and synchronization at run-time. The DSA system is developed as an integral component of mobility support middleware for grid computing so that DSA-based virtual machines can be reconfigured to adapt to the varying resource supplies or demand over the course of a computation. The DSA runtime system also features a directory-based cache coherence protocol in support of replication of user-defined sharing granularity and a communication proxy mechanism for reducing network contention. We demonstrate the programmability of the model in a number of parallel applications and evaluate its performance on a cluster of SMP servers, in particular, the impact of the coherence granularity. 相似文献

14.

Performance-based path determination for interprocessorcommunication in distributed computing systems

JunSeong Kim Lilja D.J. 《Parallel and Distributed Systems, IEEE Transactions on》1999,10(3):316-327

The different types of messages used by a parallel application program executing in a distributed computing system can each have unique characteristics so that no single communication network can produce the lowest latency for all messages. For instance, short control messages may be sent with the lowest overhead on one type of network, such as Ethernet, while bulk data transfers may be better suited to a different type of network, such as Fibre Channel or HIPPI. This work investigates how to exploit multiple heterogeneous communication networks that interconnect the same set of processing nodes using a set of techniques we call performance-based path determination (PBPD). The performance-based path selection (PBPS) technique selects the best (lowest latency) network among several for each individual message to reduce the communication overhead of parallel programs. The performance-based path aggregation (PBPA) technique, on the other hand, aggregates multiple networks into a single virtual network to increase the available bandwidth. We test the PBPD techniques on a cluster of SGI multiprocessors interconnected with Ethernet, Fibre Channel, and HiPPI networks using a custom communication library built on top of the TCP/IP protocol layers. We find that PBPS can reduce communication overhead in applications compared to using either network alone, while aggregating networks into a single virtual network can reduce communication latency for bandwidth-limited applications. The performance of the PBPD techniques depends on the mix of message sizes in the application program and the relative overheads of the networks, as demonstrated in our analytical models 相似文献

15.

神威E级原型机互连网络和消息机制

高剑刚卢宏生何王全任秀江陈淑平斯添浩周舟胡舒凯于康魏迪《计算机学报》2021,44(1):222-234

本文描述了神威E级原型机的互连网络和消息机制.神威E级原型机是继神威蓝光、神威·太湖之光之后神威家族的第三代计算机.该计算机作为一台E级计算机的原型机,峰值性能3.13 PFlops,其最大的特色之一就是采用28 Gbps传输技术,设计开发了新一代的神威高阶路由器和神威高性能网络接口两款芯片,在传统胖树的基础上,设计了双轨泛树拓扑结构,定义实现了新颖的神威消息原语和消息库,实现了一种基于包级粒度动态切换的双轨乱序消息机制,通信性能比神威·太湖之光互连网络提升了4倍,为神威E级计算机互连网络的研制奠定了基础. 相似文献

16.

Spark任务间消息传递方法研究

下载免费PDF全文

夏立斌刘晓宇孙玮姜晓巍孙功星《计算机工程与应用》2022,58(21):91-97

当今诸多工程问题及科学研究中,都面临着大数据处理和高性能计算任务的双重挑战。基于内存计算技术提出的分布式处理框架Spark已在学术和工业界得到了广泛的应用,但其MapReduce-like的编程模型在任务间无法进行通信,导致科学计算中的数值算法无法进行高效实现。针对上述问题,研究了一种Spark内存计算与MPI消息传递模型相结合的解决方案,充分利用内存访问存取快速的特点和MPI的多种高性能通信机制,解决了Spark编程模型表达能力不足的缺陷,同时为MPI提供了面向数据的DAG计算方式。通过对Spark内部的运行环境和调度系统进行修改,使得MPI在Spark中得以无缝融合,为高性能计算和大数据任务提供了一个统一的内存计算系统。测试结果表明,在数值计算和迭代算法上相比Spark至少有50%的性能提升。相似文献

17.

RGraph:基于RDMA的高效分布式图数据处理系统

崔鹏杰袁野李岑浩张灿王国仁《软件学报》2022,33(3):1018-1042

图是描述实体间关系的重要数据结构,被广泛地应用于信息科学、物理学、生物学、环境生态学等重要的科学领域.现如今,随着图数据规模的不断增大,利用分布式系统来处理大图数据已经成为主流,出现了形如Pregel、GraphX、Power Graph和Gemini等经典的分布式大图数据处理系统.然而,与当前先进的基于单机的图处理系统相比,这些经典的分布式图处理系统在处理真实的图数据时并没有充足或稳定的性能优势.分析了几个有代表性的分布式图处理系统,总结并归纳出了影响其性能的主要挑战.通过对这些挑战的深入研究,提出了RGraph——一个基于RDMA的高效分布式大图数据处理系统. RGraph旨在通过充分利用RDMA的优势来提升图处理系统多个方面的性能.在图划分方面,RGraph采用基于块的划分方式避免破坏原始图数据的局部性,从而保证顶点的高效访问.在负载方面,RGraph提出了基于RDMA单边READ的任务迁移机制和线程间细粒度的任务抢夺方式来分别保证计算节点间以及计算节点内线程间的动态负载均衡,确保集群中的所有计算资源能够被充分利用.在通信方面, RGraph通过对IB verbs的有效封装,实现... 相似文献

18.

基于部分调用图的线程敏感Profiling技术 总被引：1，自引：1，他引：0

下载免费PDF全文

刘弢吴承勇张兆庆《计算机工程》2008,34(10):30-32

Profiling技术能提供程序实际执行时的相关信息。在动态编译环境中,Profiling的运行时开销导致难以收集较为复杂的运行时信息。该文提出一种基于部分调用图的Profiling技术,在收集多线程程序中线程相关的各种执行信息时,能有效减少运行时开销。在开放源码的虚拟机上实现了该Profiling技术。实验表明,其运行时开销只有原来的2%~4%。相似文献

19.

一种支持细粒度并行的SDN虚拟化编程框架

宋平刘轶刘驰张晶晶钱德沛郝沁汾《软件学报》2014,25(10):2220-2234

软件定义网络(software defined network,简称SDN)通过集中式的控制器提高了网络的可编程性,成为近年来网络领域非常热门的话题。以Openflow网络为代表的软件定义网络将逻辑控制与数据转发相隔离,为网络虚拟化技术提供了良好的平台。集中式的抽象与控制使得SDN虚拟化框架的处理效率成为主要瓶颈。现有的SDN虚拟化框架由于缺乏对细粒度并行的支持,为编程人员充分利用多核/众核资源、控制更大规模的网络带来了极大的挑战。为了提高SDN虚拟化框架的处理效率,提出一种新的SDN虚拟化编程框架,通过新颖的API和运行时,在框架内部支持细粒度的并行处理。该框架通过对网络中流和网络资源进行抽象,使开发人员可以直接通过划分流空间来定义不同的虚拟网络,利用无锁的编程方式对共享的网络资源和流进行操作。实验结果表明,该框架在逻辑控制的执行效率方面具有良好的可扩展性,可以创建出更大规模的虚拟网络,并对其进行更为复杂的控制。相似文献

20.

Enhancing group communication with self-manageable behavior

Raimundo José de Araújo Macêdo Allan Edgard Silva Freitas Alírio Santos de Sá 《Journal of Parallel and Distributed Computing》2013

Group communication protocols (GCPs) play an important role in the design of modern distributed systems. A typical GCP exchanges control messages to provide message delivery guarantees, and a key point in the configuration of such a protocol is to establish the right trade-off between message overhead and delivery latency. This trade-off becomes even a greater challenge in systems where computing resources and application requirements may change at runtime. In such scenarios, the configuration of a GCP must be continuously re-adjusted to attain certain performance goals, or to adapt to current resource availability. This paper addresses this challenge by proposing self-managing mechanisms based on feedback control theory to a GCP especially designed to be self-manageable; in the proposed protocol, message overhead and delivery latency can be adjusted at runtime to follow some new operating set-point. The evaluation performed under varied scenarios shows the effectiveness of our approach. 相似文献