首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
图划分是分布式图计算中的一项基础工作, 其作用是将大规模图进行划分并分配到集群中的不同机器上. 图划分的质量对分布式图计算的性能有很大的影响, 其目标是降低负载平衡和最小化边割. 如今, 现实中的图数据通常呈动态增长态势, 这就需要一种能够处理动态增量图的划分方法, 在图数据动态增长的过程中确保划分的质量不受影响. 目前虽然有一些动态图划分算法被提出, 但它们不能同时专注于实时处理动态变化和获得高质量的划分结果. 提出基于顶点组重分配的动态增量图划分算法(ED-IDGP)来解决大规模动态增量图的划分问题. 在ED-IDGP算法中, 设计实时处理4种不同单元更新类型的动态处理器, 并在每次处理完单元更新后通过在分区发生动态变化的附近执行局部优化器进一步提高图划分的质量. 在ED-IDGP的局部优化器中, 利用基于改进标签传播算法的顶点组搜索策略搜索顶点组, 并利用提出的顶点组移动增益公式衡量最有益的顶点组, 将该顶点组移动到目标分区中做优化. 在真实数据集上从不同的角度和度量指标评估了ED-IDGP算法的性能和效率.  相似文献   

2.
近年来,图模型广泛应用于生物信息、计算化学、语义网等领域.目前,"过滤-验证"机制被广泛用于子图包含查询,即首先根据图数据的特征构造索引,然后根据索引产生候选集,最后对候选集中的每一个图进行子图同构验证.在这类算法中,"过滤"阶段是关注的重点,力争过滤掉更多的数据;而"验证"阶段则只是单纯地进行候选图子图同构检测,并没有进一步优化查询性能的可能.因此,提出了一种新的子图包含查询的迭代处理机制:"选择-验证-过滤",可利用从子图同构验证过程中得到的信息,结合数据库中图数据之间的相关关系,进行迭代查询处理.该机制首先选择数据库中的图与查询图进行同构验证,然后根据本次验证得到的信息,结合图数据之间的子图映射关系,进行迭代查询处理.一旦子图同构验证成功则可直接获得查询结果,而若验证不成功,则可以缩小下次迭代的查询搜索空间.为提高验证成功概率,提出了一种基于搜索空间预测的图选择策略.大量实验表明,该算法具有较"过滤-验证"机制更高的查询处理性能.  相似文献   

3.
为了帮助用户理解和分析搜索引擎产生的搜索数据,提出一个搜索趋势数据可视分析系统,包括数据收集与预处理、流图计算与绘制、流线生成与文字摆放以及交互式分析.以流图与文本相结合的方式呈现搜索数据,展示数据中蕴含的搜索趋势和热点;创新性地提出了流线指导下的文本布局算法,使文字能更好地贴合流图形状;此外,还提供了一系列交互,帮助用户在不同层面对搜索数据进行探索和分析.选取5个博客数据集,从紧凑性和方向一致性2个方面对可视化方法进行量化评估,并采用2个真实的搜索数据集进行案例分析.结果表明,该系统能帮助用户理解搜索数据的变化模式,发现数据中隐含的搜索趋势,并快速掌握互联网舆情信息.  相似文献   

4.
潘敏佳  李荣华  赵宇海  王国仁 《软件学报》2020,31(12):3823-3835
时序图数据是一类边上带有时间戳信息的图数据.在时序图数据中,时序环是边满足时间戳递增约束的回路.时序环枚举在现实中有着很多应用,它可以帮助挖掘金融网络中的欺诈行为.此外,研究时序环的数量对于刻画不同时序图的特性也有重要作用.基于2018年由Rohit Kumar等人提出的时序环枚举算法(2SCENT算法),提出一种通过添加环路信息来削减搜索空间的新型时序环枚举算法.所提出的算法为一个两阶段的算法:1)首先,通过遍历原图获得所有可能会形成环路的节点,以及相应的时间和长度信息;2)然后,利用以上信息进行动态深度优先搜索,挖掘所有的满足约束条件的环.在4个不同的真实时序图数据集上进行了大规模的实验,并以2SCENT算法作为基准对算法进行了对比.实验结果表明,所提出的算法较之前最好的2SCENT算法要快50%以上.  相似文献   

5.
跨媒体数据搜索中不同媒体类型的数据间存在特征异构和语义鸿沟问题,且社交网络数据往往呈现语义稀疏性、多样性等特性.针对上述问题,文中提出基于多模态图和对抗哈希注意力网络的跨媒体细粒度表示学习模型,获取统一的跨媒体语义表示,应用于社交网络跨媒体搜索.首先,构建图像-单词关联图,并基于图随机游走策略挖掘图像和文本单词间直接语...  相似文献   

6.
基于网络资源与用户行为信息的领域术语提取   总被引:1,自引:0,他引:1  
领域术语是反映领域特征的词语.领域术语自动抽取是自然语言处理中的一项重要任务,可以应用在领域本体抽取、专业搜索、文本分类、类语言建模等诸多研究领域,利用互联网上大规模的特定领域语料来构建领域词典成为一项既有挑战性又有实际价值的工作.当前,领域术语提取工作所利用的网络语料主要是网页对应的正文,但是由于网页正文信息抽取所面临的难题会影响领域术语抽取的效果,那么利用网页的锚文本和查询文本替代网页正文进行领域术语抽取,则可以避免网页正文信息抽取所面临的难题.针对锚文本和查询文本所存在的文本长度过短、语义信息不足等缺点,提出一种适用于各种类型网络数据及网络用户行为数据的领域数据提取方法,并使用该方法基于提取到的网页正文数据、网页锚文本数据、用户查询信息数据、用户浏览信息数据等开展了领域术语提取工作,重点考察不同类型网络资源和用户行为信息对领域术语提取工作的效果差异.在海量规模真实网络数据上的实验结果表明,基于用户查询信息和用户浏览过的锚文本信息比基于网页正文提取技术得到的正文取得了更好的领域术语提取效果.  相似文献   

7.
计算图精简是提升图神经网络(Graph Neural Network, GNN)模型训练速度的一种优化技术,它利用节点间存在共同邻居的特性,通过消除聚合阶段的冗余计算,来加速图神经网络模型的训练。但是,在处理大规模图数据时,已有的计算图精简技术存在计算效率低的问题,影响了计算图精简技术在大规模图神经网络中的应用。文中详细分析了当前的计算图精简技术,统计了包括搜索和重构两阶段处理的时间开销,并总结了现有方法的不足。在此基础上,提出了基于影响力剪枝的图神经网络快速计算图精简算法。该算法应用影响力模型刻画各个节点对计算图精简的贡献,并基于影响力对共同邻居的搜索空间进行剪枝,极大地提升了搜索阶段的效率。此外,详细分析了算法复杂度,从理论上证明了该技术期望的加速效果。最后,为验证所提算法的有效性,将所提算法应用到两种主流的计算图精简技术上,选取常见的图神经网络模型在多个数据集上进行测试,实验结果表明所提算法在保证一定冗余计算去除量的前提下,能够显著地提升计算图精简的效率。相比基线计算图精简技术,所提技术在PPI数据集上搜索阶段的加速效果最高提升了3.4倍,全过程最高提升了1.6倍;在Reddit...  相似文献   

8.
基于非精确图匹配的CAD模型搜索方法   总被引:2,自引:1,他引:1  
为了弥补现有的三维CAD模型搜索方法难以搜索到不同近似程度的相似模型的缺陷,提出一种基于面属性化邻接图非精确匹配的CAD模型搜索方法.首先提取CAD模型中的B-rep信息将CAD模型转化为面属性化邻接图;然后计算目标模型与被搜索模型的面属性化邻接图之间的顶点相容程度矩阵和边相容程度矩阵,并由此建立2个模型相似程度的度量作为选择不同顶点匹配矩阵M的优化目标函数;在对匹配矩阵M进行连续化松弛后,运用Sinkhorn行列交替规范化方法求解匹配优化问题.实验结果表明,采用该方法能够搜索到不同近似程度的相似模型;并且由于避免了具有NP复杂性的精确图匹配过程,检索效率也能满足实际要求.  相似文献   

9.
面对海量的在线学习资源,学习者往往面临“信息过载”和“信息迷航”等问题,帮助学习者高效准确地获取适合自己的学习资源来提升学习效果,已成为研究热点.针对现有方法存在的可解释性差、推荐效率和准确度不足等问题,提出了一种基于知识图谱和图嵌入的个性化学习资源推荐方法,它基于在线学习通用本体模型构建在线学习环境知识图谱,利用图嵌入算法对知识图谱进行训练,以优化学习资源推荐中的图计算效率.基于学习者的学习风格特征进行聚类来优化学习者的资源兴趣度,以获得排序后的学习资源推荐结果.实验结果表明,相对于现有方法,所提方法能在大规模图数据场景下显著提升计算效率和个性化学习资源推荐的准确度.  相似文献   

10.
网络测量是深入开展结构化对等网研究的基础,结构化对等网络协议设计、共享内容检索、态势感知乃至安全性的研究都需要以网络测量为前提.在节点分布对等、实时变化显著、未知瞬发扰动频繁的结构化对等网络中,获得其准确、完整的网络信息更是十分困难的.通过形式化分析结构化对等网节点搜索过程,研究节点信息在全网分布情况与查询返回率之间的关系,将历史测量数据与具体对等网特征信息相结合挖掘节点搜索优化策略,提出了一种网络资源占用显著降低、搜索速度较快、信息完备率较高的搜索测量优化方法.KAD 网络是目前得到大规模部署运行的为数不多的结构化对等网络之一,以KAD 网络为主要研究对象开发了KadCrawler 对等网搜索系统,进行了大量测量和分析,验证了搜索优化方法的可行性和有效性;同时,对当前KAD 网络拓扑结构特征、节点重名等现象进行了初步分析,发现KAD 网络近年来发生了显著的变化.  相似文献   

11.
Hadoop MapReduce并行计算框架被广泛应用于大规模数据并行处理.近年来,由于其能较好地处理大规模数据,Hadoop MapReduce也被越来越多地使用在查询应用中.为了能够处理大规模数据集,Hadoop的基本设计更多地强调了数据的高吞吐率.然而在处理对短作业响应性能有较高要求的查询应用时,Hadoop MapReduce并行计算框架存在明显不足.为了提升Hadoop对于短作业的执行效率,对原有的Hadoop MapReduce作出以下3点优化:1)通过优化原有的setup和cleanup任务的执行方式,成功地缩短了作业初始化环境准备和作业结束环境清理的时间;2)将首次任务分配从"拉"模式转变为"推"模式;3)将作业执行过程中JobTracker和TaskTrackers之间的控制消息通信从现有的周期性心跳机制中分离出来,采用即时传递机制.最后,采用一种典型的基于MapReduce并行化的查询应用BLAST,对优化工作进行了评估.各种不同类型BLAST作业的测试实验表明,与现有的标准Hadoop相比,优化后的Hadoop平均执行性能提升约23%.  相似文献   

12.
浮动车数据主要是由车辆的轨迹点数据组成,是一种重要的原始数据,可以广泛地用于各种交通应用,如交通管理和控制、路况计算等.但是原始的车辆GPS数据存在定位误差,必须经过路径推测的修正处理才可以应用.传统的路径推测算法主要采用两种方法:渐增式和全局式.两种方法各有优缺点,渐增式方法计算速度快但准确性差,全局式方法准确性好但计算速度慢.通过综合考虑两种传统算法,文中提出了一种基于向量识别的启发式路径推测算法,该算法采用了启发式图搜索方式,导入几何运算的约束条件,根据车辆轨迹点所形成的向量与路网模型比较来进行启发式搜索,并选择车辆所有可能行驶的候选路径.根据全局择优的方式从整体进行比较,确定车辆最有可能的行驶路径.实验结果表明,这种算法能够在复杂路网下,比较准确地推测距离间隔较大的车辆轨迹点,并且能够实时高效地处理大规模数据.  相似文献   

13.
针对多无人机协同运动目标搜索问题,本文设计了改进鸽群优化算法的协同搜索决策.首先,基于运动目标的独立性,建立了服从正态分布的目标概率信息图模型;为了提高环境中目标存在的确定度,建立了搜索环境的确定度信息图.其次,通过建立的吸引和排斥数字信息素图,引导无人机向未搜索区域飞行,减少重复搜索概率,提高协同目标搜索效率,并基于传统的鸽群算法,通过加入速度更新修正机制和精英代机制对其进行改进.然后,结合环境中目标的存在概率信息以及无人机搜索目标的探测信息,使用改进鸽群优化算法,规划无人机的最优搜索飞行路径.并设计避碰机制,以有效防止无人机搜索过程中的碰撞.最后,通过比较仿真实验验证了改进鸽群优化算法对运动目标协同搜索的有效性.  相似文献   

14.
查询推荐是搜索引擎系统中的一项重要技术,其通过推荐更合适的查询以提高用户的搜索体验。现有方法能够找到直接通过某种属性关联的相似查询,却忽略了具有间接关联的语义相关查询。该文将用户查询及查询间直接联系建模为查询关系图,并在图结构相似度算法SimRank的基础上提出了加权SimRank (简称WSimRank)用于查询推荐。WSimRank综合考虑了查询关系图的全局信息,因而能挖掘出查询间的间接关联和语义关系。然而,WSimRank复杂度太高而难以实用,该文将WSimRank转换为一个状态层次图的遍历和计算过程,进而采用动态规划、剪枝等策略对其进行优化从而可以实际应用。在大规模真实Web搜索日志上的实验表明, WSimRank在各项评价指标上均优于SimRank和传统查询推荐方法,其MAP指标接近0.9。  相似文献   

15.
云平台作为存储和处理分析大规模社会网络数据的工具逐渐变为主流,针对大规模社会网络子图匹配隐私保护问题,提出分布式K-自同构社会网络隐私保护算法,保护上传至云平台的社会网络图的结构隐私。通过节点间传递标记信息的方式添加噪声边,使原始图匿名为具有k个对称子图的K-自同构社会网络图。提出分布式的子图匹配方法对上传图进行子图匹配,根据搜索图中节点的选择性对搜索图进行分解得到搜索分解子图;在每个计算节点内进行分布并行的子图匹配得到搜索分解子图匹配结果,将结果连接后得到关于搜索图的匹配结果;在客户端中根据K-自同构社会网络图的对称性和K-自同构函数对得到的子图匹配结果进行恢复和过滤得到正确匹配结果。实验结果表明:分布式K-自同构社会网络隐私保护算法和分布式子图匹配方法在处理大规模社会网络图时具有很高的效率,并且有效解决了隐私泄露问题。  相似文献   

16.
为了解决深度图神经网络中存在的过平滑问题,提出一种基于子图划分的多尺度节点分类方法。该方法以Graph-Inception网络结构为核心,采用一种基于子图划分的数据预处理方法,通过改变图中的网络结构,优化特征聚集方式,有效地抑制了冗余搜索带来的过平滑问题;利用不同尺寸卷积核的组合来提取目标节点多尺度邻域的特征信息,以实现对图神经网络深度扩展的等效,一定程度上抑制了深层网络结构带来的过平滑问题。实验结果表明,该方法能够有效地抑制图神经网络中出现的过平滑问题,在基准数据集PPI、Reddit和Amazon上的分类准确率都得到了不同程度的提高。  相似文献   

17.
设计和实现了一种动态数据关联网络的表示及搜索方法和系统, 能够在数据实体较多、关联关系较复杂时, 帮助用户获得实体周边关联关系, 并通过引导式交互不断动态扩展; 在已知可能有关联的多个实体时, 采用分布式计算最小连通图算法, 搜索出其关联网络. 应用实例表明, 本方法和系统能够取得很好的实际效果, 采用本方法的应用系统已经在智慧城市、平安城市、城域物联网等多个工程项目中获得落地应用.  相似文献   

18.
大规模特征选择问题的求解通常面临两大挑战:一是真实标签不足,难以引导算法进行特征选择;二是搜索空间规模大,难以搜索到满意的高质量解。为此,提出了新型的面向大规模特征选择的自监督数据驱动粒子群优化算法。第一,提出了自监督数据驱动特征选择的新型算法框架,可不依赖于真实标签进行特征选择。第二,提出了基于离散区域编码的搜索策略,帮助算法在大规模搜索空间中找到更优解。第三,基于上述的框架和方法,提出了自监督数据驱动粒子群优化算法,实现对问题的求解。在大规模特征数据集上的实验结果显示,提出的算法与主流有监督算法表现相当,并比前沿无监督算法具有更高的特征选择效率。  相似文献   

19.
深度学习作为人工智能的一个研究分支发展迅速,而研究数据主要是语音、图像和视频等,这些具有规则结构的数据通常在欧氏空间中表示。然而许多学习任务需要处理的数据是从非欧氏空间中生成,这些数据特征和其关系结构可以用图来定义。图卷积神经网络通过将卷积定理应用于图,完成节点之间的信息传播与聚合,成为建模图数据一种有效的方法。尽管图卷积神经网络取得了巨大成功,但针对图任务中的节点分类问题,由于深层图结构优化的特有难点——过平滑现象,现有的多数模型都只有两三层的浅层模型架构。在理论上,图卷积神经网络的深层结构可以获得更多节点表征信息,因此针对其层级信息进行研究,将层级结构算法迁移到图数据分析的核心在于图层级卷积算子构建和图层级间信息融合。本文对图网络层级信息挖掘算法进行综述,介绍图神经网络的发展背景、存在问题以及图卷积神经网络层级结构算法的发展,根据不同图卷积层级信息处理将现有算法分为正则化方法和架构调整方法。正则化方法通过重新构建图卷积算子更好地聚合邻域信息,而架构调整方法则融合层级信息丰富节点表征。图卷积神经网络层级特性实验表明,图结构中存在层级特性节点,现有图层级信息挖掘算法仍未对层级特性节点的图信息进行完全探索。最后,总结了图卷积神经网络层级信息挖掘模型的主要应用领域,并从计算效率、大规模数据、动态图和应用场景等方面提出进一步研究的方向。  相似文献   

20.
挖掘数据网络中有价值的、具有稳定性的社区,对网络信息的获取、推荐及网络的演化预测具有重要的价值。针对现有异质网络聚类方法难以在同一维度有效整合网络中异质信息的问题,提出了一种基于图正则化非负矩阵分解的异质网络聚类方法。通过加入图正则项,将中心类型子空间和属性类型子空间的内部连接关系作为约束项,引入到非负矩阵分解模型中,从而找到高维数据在低维空间的紧致嵌入,成功消除了异质节点之间的部分噪声,同时,对反映不同子网络共有潜在结构的共识矩阵进行优化,有效整合异质信息,并且在降维过程中较大限度地保留了异质信息的完整性,提高了异质网络聚类方法的精度,在真实世界数据集上的实验结果也验证了该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号