首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 156 毫秒
1.
分布式存储是解决大规模数据存储的一种比较有效的方法,而数据分割是实现分布式存储的前提。面对不断增长的RDF数据,提出一种基于双目标优化的RDF图分割算法(RDF Graph Partitioning algorithm based on Double Objective Optimization,RGPDOO)。RGPDOO将边割和分割平衡两项图分割指标融合到一个目标函数,并依据此目标函数,实现了RDF图的静态和动态分割。其中静态图分割通过对图进行初始划分,将图中顶点分成内核顶点、交叉顶点和自由顶点三类。然后通过计算目标函数增益对交叉和自由顶点进行分配。动态图分割部分,针对RDF元组的插入和删除给出相应的解决方案。同时,为了满足图分割目标,算法每隔一段时间[T]会根据子图的平衡性和紧密性进行一次动态调整。实验选择合成和真实数据集进行测试,并分别与几种通用的静态和动态图分割算法进行比较。实验结果表明提出的算法能够有效地实现RDF图的静态和动态分割。  相似文献   

2.
图划分是分布式图计算中的一项基础工作, 其作用是将大规模图进行划分并分配到集群中的不同机器上. 图划分的质量对分布式图计算的性能有很大的影响, 其目标是降低负载平衡和最小化边割. 如今, 现实中的图数据通常呈动态增长态势, 这就需要一种能够处理动态增量图的划分方法, 在图数据动态增长的过程中确保划分的质量不受影响. 目前虽然有一些动态图划分算法被提出, 但它们不能同时专注于实时处理动态变化和获得高质量的划分结果. 提出基于顶点组重分配的动态增量图划分算法(ED-IDGP)来解决大规模动态增量图的划分问题. 在ED-IDGP算法中, 设计实时处理4种不同单元更新类型的动态处理器, 并在每次处理完单元更新后通过在分区发生动态变化的附近执行局部优化器进一步提高图划分的质量. 在ED-IDGP的局部优化器中, 利用基于改进标签传播算法的顶点组搜索策略搜索顶点组, 并利用提出的顶点组移动增益公式衡量最有益的顶点组, 将该顶点组移动到目标分区中做优化. 在真实数据集上从不同的角度和度量指标评估了ED-IDGP算法的性能和效率.  相似文献   

3.
近年来,大规模图数据处理在众多领域得到广泛应用,图划分算法是分布式图计算系统的基础,但大规模图在异构集群中的划分尚未得到充分研究。为此,针对异构集群,提出基于标签传播的大规模图划分算法(heterogeneous label propagation, HLP),根据计算节点负载能力进行图划分,以实现负载均衡和边割率最小化为目标。HLP算法规避了传统标签传播中顶点迁移的步骤,提高了算法效率。实验结果表明,HLP算法在分区质量以及划分效率方面均有较好表现。  相似文献   

4.
图划分是大规模分布式图处理的首要工作,对图应用的存储、查询、处理和挖掘起基础支撑作用.随着图数据规模的不断扩大,真实世界中的图表现出动态性.如何对动态图进行划分,已成为目前图划分研究的热点问题.从不同动态图划分算法的关注点和特点出发,系统性地介绍当前可用于解决动态图划分问题的各类算法,包括流式图划分算法、增量式图划分算法和图重划分算法.首先介绍图划分的3种不同的划分策略及问题定义、图的两种不同的动态性来源以及动态图划分问题;然后介绍3种不同的流式图划分算法,包括基于Hash的划分算法、基于邻居分布的划分算法以及基于流的优化划分算法;其次介绍单元素增量式划分和批量增量式划分这两种不同的增量式图划分算法;再次,分别介绍针对图结构动态的重划分算法和针对图计算动态的重划分算法;最后,在对已有方法分析和比较的基础上,总结目前动态图划分面临的主要挑战,提出相应的研究问题.  相似文献   

5.
随着图规模的急剧增长,对动态图进行实时处理的需求日益增加。大多现有的算法针对静态图划分是有效的,直接用其处理动态图会带来较大的通信开销。针对该问题,提出一种基于GN算法的动态图划分方法。首先收集一段时间内加入动态图中的顶点;然后,利用GN算法对这些新加入的顶点进行预划分,产生若干个内部联系紧密的社区;最后,将预划分产生的社区结果插入到已经划分好的当前图中。实验从交叉边数和负载均衡度两方面将该方法与传统流式划分方法进行比较,结果表明, 在公开数据集上,该方法的交叉边数降低了13%,负载均衡度减少了42.3%。由此可见,该方法的划分质量明显优于传统的流式划分方法。  相似文献   

6.
基于分布式的RDF数据分割方法能够解决大规模RDF数据的分割和存储问题。为保证RDF数据的分布式存储和解决数据分割效率提出了一种基于贪婪策略的分割方法。先通过启发式贪心策略根据子图的负载均衡,依次选择度数最高的节点或者度数相对较高的节点,将其放入同一个子图中,后进行相邻顶点的优化。然后通过分区策略将子图分配到对应节点,存储到neo4j数据库并建立相应的索引将数据保存到Redis数据库。实验对比了几种数据分割算法以及图形数据库与关系型数据库的RDF数据存储方案,并验证了RDF图数据的存储方案和分割算法的有效性。  相似文献   

7.
平衡图分割是基本的组合优化问题之一,针对超大规模图高效实现高质量的平衡图分割仍然是一个极富挑战性的问题。提出了一种基于标签交换图分割算法,以最小化规格化割(normalized cut)作为优化目标,利用顶点标签交换迭代更新以达到平衡图分割;针对大规模图,引入采样技术,通过计算局部最优的方式提高算法效率,最后采用邻域抖动(VNS)策略抖动计算多个局部最优解,然后取其中最好的解近似作为全局最优解。实验结果表明,该算法分割得到的子图内密度较好,与最权威图分割算法METIS相比,算法求得的最小割质量更优。  相似文献   

8.
关注分布式图计算和迭代计算处理方法选择,对计算机技术应用和改善计算机性能等方面具有现实意义。传统算法计算分布式图时,切割率最小化与负载均衡性方面无法实现协调控制,且极易出现NP组合优化等系列问题。因此,以平衡图划分算法为手段,解决分布式图计算问题,重点研究平衡系数、切割边规模。扰动次数一定的条件下,引入Metis,结合平衡图划分算法,进行试验对比分析。通过对比可以发现,该算法下的分布式图割边率计算准确性高于Metis,可以满足分布式图的实际计算需求,这说明平衡图划分算法具有实践应用价值。  相似文献   

9.
殷晓波  罗恩 《计算机科学》2016,43(4):231-234
在大规模图数据的分布式处理中,往往需要将图数据进行划分并放置在不同的节点上。如果数据划分得不均衡,那么部分节点可能会成为分布式系统的瓶颈。为了提高图数据划分的均衡性,并且有效地应对图数据的快速更新,提出了一种松弛的优化均衡流式图划分算法。首先,定义了一种同时包含划分内部代价和划分之间的割的代价的目标函数作为图划分的整体框架。然后,在图划分框架的基础上通过最大化和最小化两种优化函数分析了均衡图划分问题,并给出了二者之间的关系。最后,针对流式图数据,提出一种贪婪的图最优k划分算法。该划分算法以最大化优化函数为基础,通过最大化顶点放置产生的目标函数增加值进行节点划分块的选取。实验表明,提出的图划分算法与相关算法相比,不仅均衡性好,而且通信开销小,在基于该算法进行图划分时上层应用的计算性能得到了明显的提高。  相似文献   

10.
基于因子图模型的动态图半监督聚类算法   总被引:1,自引:1,他引:0  
针对动态图的聚类主要存在着两点不足:首先, 现有的经典聚类算法大多从静态图分析的角度出发, 无法对真实网络图持续演化的特性进行有效建模, 亟待对动态图的聚类算法展开研究, 通过对不同时刻图快照的聚类结构进行分析进而掌握图的动态演化情况.其次, 真实网络中可以预先获取图中部分节点的聚类标签, 如何将这些先验信息融入到动态图的聚类结构划分中, 从而向图中的未标记节点分配聚类标签也是本文需要解决的问题.为此, 本文提出进化因子图模型(Evolution factor graph model, EFGM)用于解决动态图节点的半监督聚类问题, 所提EFGM不仅可以捕获动态图的节点属性和边邻接属性, 还可以捕获节点的时间快照信息.本文对真实数据集进行实验验证, 实验结果表明EFGM算法将动态图与先验信息融合到一个统一的进化因子图框架中, 既使得聚类结果满足先验知识, 又契合动态图的整体演化规律, 有效验证了本文方法的有效性.  相似文献   

11.
异构计算中一种图的非均衡划分算法   总被引:2,自引:2,他引:2  
现有的图的划分算法大多是均衡划分,要求划分块的权值相等,划分块之间的连接代价尽量最小。但是在异构计算环境中,不同的处理机的计算能力不尽相同,从而在并行任务调度时所分配的计算任务量也应随之不同。所以为了适应更广泛意义上的异构负栽均衡,本文提出了异构计算中的一种任务图的非均衡划分算法。该算法根据任意给定的需求,使得划分好的各个子集权值不均等。其中划分子集的个数等于异构环境中处理机的个数,各子集的大小比例于不同处理机的计算能力。算法包括3步:粗化阶段、非均衡划分阶段以及精化还原阶段。本文通过用格林威治大学提供的系列开放图来测试该算法,实验结果表明算法是准确有效的。  相似文献   

12.
宋小华  欧阳丹彤 《软件学报》2012,23(10):2564-2571
为解决定性空间关系的规划问题,在概念邻域图的基础上提出描述动作与定性空间关系交互的邻域划分图.基于邻域划分图,提出了定性空间关系自动规划的形式化表示和推理算法,证明了算法的可靠性,并举例说明了新方法的应用.该方法在处理单方面空间关系规划中具有用通用性,在机器人导航方面具有潜在的应用前景.  相似文献   

13.
针对大图结构特征如何影响划分效果这一问题,提出一种通过顶点度分布特征来描述大图结构特征的方法。首先,基于真实的图数据产生若干顶点数和边数相同、但结构特征不同的仿真数据集,通过实验计算真实图与仿真图之间的相似度,证明该方法对描述真实大图结构特征的有效性。然后,通过Hash和点对交换划分算法,验证图结构特征与划分效果之间的关系。当点对交换划分算法执行到5万次时,划分一个有6301个顶点和20777条边的真实图其交叉边数比Hash划分算法降低了54.32%,划分仿真图数据集中结构特征差异明显的两个图时,交叉边数分别为6233和316。实验结果表明,点对交换划分算法能够减少交叉边数,图的顶点度分布差异越大,划分后交叉边数越少,划分效果越好,因此大图结构特征影响其划分效果,这为建立图的结构特征与划分效果之间的关系模型研究奠定了基础。  相似文献   

14.
知识图谱划分算法研究综述   总被引:6,自引:0,他引:6  
知识图谱是人工智能的重要基石,因其包含丰富的图结构和属性信息而受到广泛关注.知识图谱可以精确语义描述现实世界中的各种实体及其联系,其中顶点表示实体,边表示实体间的联系.知识图谱划分是大规模知识图谱分布式处理的首要工作,对知识图谱分布式存储、查询、推理和挖掘起基础支撑作用.随着知识图谱数据规模及分布式处理需求的不断增长,如何对其进行划分已成为目前知识图谱研究的热点问题.从知识图谱和图划分的定义出发,系统性地介绍当前知识图谱数据划分的各类算法,包括基本、多级、流式、分布式和其他类型图划分算法.首先,介绍4种基本图划分算法:谱划分算法、几何划分算法、分支定界算法、KL及其衍生算法,这类算法通常用于小规模图数据或作为其他划分算法的一部分;然后,介绍多级图划分算法,这类算法对图粗糙化后进行划分再投射回原始图,根据粗糙化过程分为基于匹配的算法和基于聚合的算法;其次,描述3种流式图划分算法,这类算法将顶点或边加载为序列后进行划分,包括Hash算法、贪心算法、Fennel算法,以及这3种算法的衍生算法;再次,介绍以KaPPa、JA-BE-JA和轻量级重划分为代表的分布式图划分算法及它们的衍生算法;同时,在其他类型图划分算法中,介绍近年来新兴的2种图划分算法:标签传播算法和基于查询负载的算法.通过在合成与真实知识图谱数据集上的丰富实验,比较了5类知识图谱代表性划分算法在划分效果、查询处理与图数据挖掘方面的性能差异,分析实验结果并推广到推理层面,获得了基于实验的知识图谱划分算法性能评价结论.最后,在对已有方法分析和比较的基础上,总结目前知识图谱数据划分面临的主要挑战,提出相应的研究问题,并展望未来的研究方向.  相似文献   

15.
图数据划分是基于BsP(bulksynchronousparallel)编程模型的大规模图处理系统中一个关键技术问题。传统的图划分技术需要多次迭代,时间复杂度过高,且划分结果不具有图顶点到分区的映射信息,因此这些算法并不适用于BSP模型下的数据划分。提出了一种新的面向BSP模型的负载均衡Hash数据划分算法(balancedHashpartition,BHP)。为了实现各个分区的出边数尽可能均衡,该算法引入了虚拟桶的概念,通过贪婪算法将虚拟桶重组为实际分区,保证了每个实际分区负载均衡,同时数据本地化策略使本分片上的数据尽可能地保留在本节点上,从而减小在数据加载时的数据迁移开销。从三个方面对比了BHP算法和经典Hash算法的性能,结果表明BHP算法能够提高作业的执行效率,减少消息发送的数量,有效解决了经典Hash算法的负载不均衡和分区间交互边过多的问题,当数据量变大时,效果尤为明显。  相似文献   

16.
基于谱方法的无向赋权图剖分算法*   总被引:2,自引:0,他引:2  
在多水平方法初始剖分阶段提出了一种基于谱方法的无向赋权图剖分算法SPWUG,给出了基于Lanczos迭代计算Laplacian矩阵次小特征值及特征向量的实现细节。SPWUG算法借助Laplacian矩阵次小特征值对应的特征向量,刻画了节点间相对距离,将基于非赋权无向图的Laplacian谱理论在图的剖分应用方面扩展到无向赋权图上,实现了对最小图的初始剖分。基于ISPD98电路测试基准的实验表明,SPWUG算法取得了一定性能的改进。实验分析反映了在多水平方法中,最小图上的全局近似最优剖分可能是初始图的局部最  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号