首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 131 毫秒
1.
针对传统的分簇算法在解决超大规模数据集的分簇问题上不具有高效的时间和空间复杂度且易于陷入局部最优的问题,提出了改进型灰狼分簇算法(Improved Gray Wolf Clustering Algorithm,IGWCA),将灰狼行为规则与灰狼狩猎策略相融合,同时引入狄利克雷分布(Dirichlet Distribution)实现先验,在基准数据集上完成IGWCA与其他分簇算法的对比分析。实验结果表明IGWCA不仅具有较强的探索和开发能力,还具有较小的分散度。使用Hadoop框架的MapReduce模型实现IGWCA的并行化(IGWCA on MapReduce,IGWCA-MR),通过F-Measure和平均运行时间验证IGWCA-MR的分簇质量,并在真实数据集上验证了IGWCA-MR的运行时间和加速性能。实验结果证明,IGWCA-MR可以有效解决超大规模数据集的分簇问题,是一种高效的替代算法。  相似文献   

2.
随着海量图像数据的增加,使得需要处理的数据规模越来越大,为了解决在处理海量数据信息时所面临的存取容量和处理速度的问题,在深入研究MapReduce大规模数据集分布式计算模型的基础之上,本文设计了基于MapReduce实现对数字图像并行化处理。实验结果表明:运行在Hadoop集群上的基于MapReduce并行化算法具有数据节点规模易扩展、处理速度快、安全性高、容易实现等特点,能够较好地满足海量数据图像的处理的要求。  相似文献   

3.
基于Hadoop架构,提出一种并行的决策树挖掘算法实现大数据集间的知识挖掘。通过MapReduce并行编程模式实现Hadoop架构下SPRINT并行挖掘算法的频繁项集,解决了大数据集挖掘效率低下,时间消耗量大的问题。SPRINT算法通过对原始数据集进行划分,并将分块数据发给不同Map进程并行计算,使系统存储和计算资源得到有效利用,运用MapReduce各计算节点将挖掘结果数据汇聚,减少中间结果数据量,使并行挖掘时间显著减少。SPRINT算法并行化实验表明,Hadoop架构下的SPRINT并行挖掘算法具有良好的可扩展性和集群加速比。  相似文献   

4.
为了处理异构网络安全设备产生的海量报警数据,提出一种基于加权DS证据理论和FCM的安全数据聚合算法.首先利用网络安全设备的权重以及对不同攻击的置信度信息,运用DS证据理论对报警数据进行初步融合,然后借助FCM的模糊推理能力对数据进行全局融合,克服了漏报率高的缺陷,曾强了系统处理复杂攻击的能力.  相似文献   

5.
由于计算机内存资源限制,分类器组合的有效性及最优性选择是机器学习领域的主要研究内容。经典的集成分类算法在处理小数据集时,拥有较高的分类准确性,但面对大量数据时,由于多基分类器学习、分类共用1台计算机资源,导致运算效率较低,这显然不适合处理当今的海量数据。针对已有集成分类算法只适合作用于小规模数据集的缺点,剖析了集成分类器的特性,采用基于聚合方式的集成分类器和云计算的MapReduce技术设计了并行集成分类算法(EMapReduce),达到并行处理大规模数据的目的。并在Amazon计算集群上模拟实验,实验结果表明该算法具有一定的高效性和可行性。  相似文献   

6.
针对结直肠息肉图像中病灶区域尺度变化大、形状不规则和边界不清晰等复杂特点导致息肉分割精度低、分割边界存在伪影的问题,提出了一种融合Transfomer和多尺度并行注意网络(Fusion of Transfomer and Multiscale Parallel Attention Networks, FTMPA-Net)的结直肠息肉分割算法。选用HarDNet逐层提取语义信息和空间细节,采用多尺度感受场模块(Multiscale Receptive Field Block, RFB)捕获不同感受野下的特征信息,串入高效通道注意力机制提取空间、通道特征的相关性信息,以抑制背景颜色的响应;通过并行解码模块逐层聚合由高效通道注意力机制得到的增强特征图,并生成初始预测分割图用于后续深层监督;提出高效多头注意力机制(Efficient Multi-Head Self-Attention Module, EMHSA)来进一步细化边缘信息,构建区域与边界之间的联系,以提高其分割性能。在CVC-ClinicDB数据集和Kvasir-SEG数据集上对该算法进行测试,平均相似性系数分别为95.58%和92...  相似文献   

7.
针对经典Apriori算法及其改进算法不能有效处理大规模数据集,提出基于Hadoop-MapReduce编程模型的两种改进算法:HAprioriK,HApriori2。其中HAprioriK需要k个MapReduce Jobs,而HApriori2仅需要2个就能在整个数据集上找到频繁k项集,两种改进算法均充分利用了Hadoop平台的计算优势,可以轻松地处理大量数据。采用IBM的数据集进行改进算法有效性的研究,实验结果表明,HApriori2算法在不同规模的数据集和支持度下,能够有效地挖掘频繁项集,具有比HAprioriK更好的性能。  相似文献   

8.
黄坤  吴玉佳  李晶 《电子学报》2018,46(8):1804-1814
高效用项集挖掘已成为关联规则中的一个热点研究问题.一些基于垂直结构的算法已用来挖掘高效用项集,此类算法的主要优点是将项集的事务和效用信息存储到效用列表中.在求一个项集的超集所在事务可以通过对它的子集进行一次交集运算得到.这种算法在稀疏数据集中非常的有效.但在稠密数据集中存在一个问题,即列表中存储的事务太多,在计算用于剪枝的效用上界时,需要耗费大量的存储空间,同时也影响运行速度.并且在现有的算法中,缺乏针对稠密数据集的高效用项集挖掘算法,往往需要设置很高的最小效用阈值,影响算法的运行效率.针对此问题,提出一个新的算法D-HUI (mining High Utility Itemsets using Diffsets)以及一个新的数据结构—项集列表,首次在高效用项集挖掘中引入差集的概念.利用事务的差集求项集的效用上界,减少计算量以及存储空间,从而提高算法的运行效率.实验结果表明,提出的算法在稠密数据集中,执行速度更快,内存消耗更少.  相似文献   

9.
全k近邻(all k-nearest neighbor,AkNN)查询,是k近邻查询的一个变型,旨在在一个查询过程中为给定数据集的每个对象确定k个最近邻.提出了一种在Hadoop分布式平台下处理高维大数据的AkNN查询算法.首先使用行条化思想结合p-stable LSH算法将高维数据对象降维,然后结合空间填充曲线Z-order的优良特性,把降维后的数据嵌入一维空间中,接着进行范围查询.整个过程使用MapReduce框架分布式并行处理.实验结果表明,所提出的算法可以高效处理高维大数据的AkNN查询.  相似文献   

10.
文中在频繁项目集挖掘研究的基础上,针对Hadoop分布式计算框架,提出了一种基于子集的Apriori并行改进算法Sub Apr。该算法扫描数据库两次,将分块数据分配给不同的Hadoop计算节点进行处理,利用Apriori特性并结合MapReduce框架自身特点进行剪枝。该算法与同类算法比较,可以减少各个计算节点的存储数据,达到减少候选项集输出,有效减少了大数据集挖掘过程中产生的大量数据通信,从而提高并行挖掘的效率。实验结果表明,该算法是有效且可行的。  相似文献   

11.
在对PageRank算法进行研究的基础上,利用MapReduce编程模型思想对PageRank算法进行改进,设计了在云平台Hadoop环境下运行的基于MapReduce的PageRank分布式并行算法,并在实验中对不同规模的Web图数据集进行了测试,分析不同的Blocksize参数对于算法计算性能的作用以及集群节点数目对于算法运行效率的影响.  相似文献   

12.
夏卫雷  王立松 《电子科技》2013,26(2):146-149
蚁群算法在处理大规模TSP问题耗时较长,为解决这一不足,给出了一种基于MapReduce编程模式的并行蚁群算法。采用MapReduce的并行优化技术对蚁群算法中最耗时的循环迭代和循环赋值部分进行改进,同时运用PC集群环境的优势将具有一定规模的小蚁群分配到对应的PC机上,使其并行执行,减少运行时间。实验证明改进后的并行蚁群算法在大数据集上运行时间明显缩短,执行效率显著提高。  相似文献   

13.
赵庆 《电子科技》2014,27(2):29-31
介绍了Hadoop平台下MapReduce的编程模型;分析了传统聚类Kmeans和Canopy算法的优缺点,并提出了基于Canopy的改进Kmeans算法。针对Canopy-Kmeans算法中Canopy选取的随机性问题,采用“最小最大原则”对该算法进行改进,避免了Cannopy选取的盲目性。采用MapReduce并行编程方法,以海量新闻信息聚类作为应用背景。实验结果表明,此方法相对于传统Kmeans和Canopy算法有着更高的准确率和稳定性。  相似文献   

14.
MapReduce是由并行编程模型及相关支撑系统组成的数据处理框架,通过定义接口和运行时支持库,通过定义良好的接口和运行时支持库,能够自动并行执行大规模计算任务,通过隐藏底层实现细节,降低实现并行编程的难度,Hadoop是目前MapReduce框架最流行的开源实现.文章首先介绍了MapReduce并行编程模型及其hadoop的运行原理、运行机制,深入研究了MapReduce计算任务在Hadoop系统中的运行过程.  相似文献   

15.
吴斌  刘心光 《电信科学》2013,29(12):1-8
介绍了并行ETL 的相关工作和常见的处理多MapReduce 作业流程的方法;提出一种改进的链式MapReduce 框架,并将此框架应用于一个并行ETL 工具,同时提出一些针对ETL 处理的流程级优化规则,使ETL流程产生更少的MapReduce作业,从而减少I/O以及网络传输的消耗;利用某省份手机上网数据与Hive进行了大数据对比实验,结果表明,本ETL工具的性能平均比Hive快10%~20%。  相似文献   

16.
综合分析了数据流分类算法以及云计算的基本理论,提出了基于Hadoop框架的数据流系综分类算法,算法采用MapReduce并行编程模型对传统基于动态权重系综模型进行改进,以提升算法的分类效率.分析结果表明,该算法在处理快速海量到达的数据流时,其执行效率远高于传统系综算法.  相似文献   

17.
针对社交网络的有向交互性和大规模特性,该文提出一种基于结构相似度的有向网络聚类算法(DirSCAN),以及相应的分布式并行算法(PDirSCAN)。考虑社交网络中节点间的有向交互性,将行为结构相似的节点聚集起来,并进行节点功能分析。针对社交网络规模巨大的特点,提出MapReduce框架下的分布式并行聚类算法,在确保聚类结果一致的前提下,提高处理性能。大量真实数据集上的实验结果表明,DirSCAN比无向网络聚类算法(SCAN)在F1上可提高2.34%的性能,并行算法PDirSCAN比DirSCAN运行速度提升1.67倍,能够有效处理大规模的有向网络聚类问题。  相似文献   

18.
MapReduce并行编程模型研究综述   总被引:40,自引:0,他引:40       下载免费PDF全文
李建江  崔健  王聃  严林  黄义双 《电子学报》2011,39(11):2635-2642
 MapReduce并行编程模型通过定义良好的接口和运行时支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度.本文对MapReduce的国内外相关研究现状进行了综述,阐述和分析了当前国内外与MapReduce相关的典型研究成果的特点和不足,重点对MapReduce涉及的关键技术(包括:模型改进、模型针对不同平台的实现、任务调度、负载均衡和容错)的研究现状进行了深入的分析.本文最后还对MapReduce未来的发展趋势进行了展望.  相似文献   

19.
Web objects are the entities retrieved from websites by users to compose the web pages. Therefore, exploring the relationships among web objects has theoretical and practical significance for many important applications, such as content recommendation, web page classification, and network security. In this paper, we propose a graph model named Bipartite Request Dependency Graph (BRDG) to investigate the relationships among web objects. To build the BRDG from massive network traffic data, we design and implement a parallel algorithm by leveraging the MapReduce programming model. Based on the study of a number of BRDGs derived from real wireless network traffic datasets, we find that the BRDG is large, sparse and complex, implying that it is very hard to derive the structural characteristics of the BRDG. Towards this end, we propose a co-clustering algorithm to decompose and extract coherent co-clusters from the BRDG. The co-clustering results of the experimental dataset reveal a number of interesting and interpretable connectivity structural patterns among web objects, which are useful for more comprehensive understanding of web page architecture and provide valuable data for e-commerce, social networking, search engine, etc.  相似文献   

20.
MapReduce模型的调度及容错机制研究   总被引:1,自引:0,他引:1  
MapReduce是一种并行编程模型,可以用来处理和生成大量数据集。它的调度以及容错机制是模型的重要一部分。通过对MapReduce模型的执行过程进行分析,提取得到其上面的调度以及容错模型。并将P2P模型中常用的调度思想使用于MapReduce调度模型上,对原来的调度机制和容错机制做一定的修改。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号