首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
一种基于Hadoop的并行关联规则算法   总被引:1,自引:0,他引:1  
在挖掘大型数据库的关联规则时,使用并行计算是必需的.针对传统的并行计算,存在不能处理节点失效,难以处理负载均衡等问题,提出基于Hadoop架构实现并行关联规则计算的设计.理论和实验证明,基于Hadoop的并行关联规则计算,能处理节点失效,并且能做到节点负载均衡.  相似文献   

2.
谱聚类(Spectral Clustering)是建立在谱图理论基础上的一种聚类算法.与传统的聚类算法相比,谱聚类能够在任意形状的样本空间上进行聚类且收敛于全局最优解.然而,实际问题中大规模数据集普遍存在,在使用谱聚类对大规模数据集进行聚类时,收敛速度变得十分缓慢,甚至无法在有效的时间内得到聚类结果.并行算法是针对大规模数据集进行处理的一种有效方法.基于Hadoop云计算平台实现大规模数据集的存储和处理是目前实现并行计算的一种高效解决方案.  相似文献   

3.
基于Hadoop建立云计算系统   总被引:1,自引:0,他引:1  
云计算是2007年底正式提出的一个新概念,本文分析了云计算的特征和Hadoop的作用地位.针对Hadoop这样一个在集群上运行大型数据库处理应用程序的开放式源代码框架进行了云计算平台的实现,并进行了实验验证.  相似文献   

4.
FP-growth算法是不产生候选集的关联规则挖掘算法,在许多领域中具有很高的实际应用价值。然而经典的FP-growth算法是内存驻留算法,只能处理小数据集,在面对海量数据集时显得无能为力。对经典FP-growth算法中FP-tree的结构和挖掘过程进行了改进,分析了FP-tree单路径和多路径的不同挖掘方法,提出了一个剪枝策略,在挖掘过程中减少了部分分支的迭代次数。然后利用云计算的MapReduce编程技术,对改进的FP-growth算法的各个步骤并行化。实验结果表明改进的算法在处理不同的数据集时有一定的优势,然后经过MapReduce模型并行化后,提高了对海量数据的处理能力和效率,并且具有较好的加速比和良好的扩展性。  相似文献   

5.
云环境服务集群中作业提交存在着非均匀分布的问题,此问题会导致某一时刻作业聚集,从而引起作业的响应时间超出用户容忍范围。针对该问题,笔者在Hadoop平台下利用二级队列技术,提出一种基于队列的作业转移调度策略(JTSA)。实验结果表明,在作业数量某一时刻剧增的情况下,对总完成时间影响不大而且能够较大幅度提高作业的响应速度,随着作业数的增加,这种效果越明显。  相似文献   

6.
Hadoop是一个免费的开源云平台,是允许在集群计算机上分布式处理大数据的软件框架。它是一种可靠、高效、可伸缩的云平台,很适合在实验室环境下进行模拟测试。以Hadoop为基础,借助虚拟机VMware以及Linux、ubuntu、Hadoop、java--jdk等软件,详细地介绍了单机环境下的虚拟云平台搭建过程,并给出具体的实例搭建过程。在设计实例中详细的论述了虚拟机、java、Hadoop等软件的安装、设置、测试过程。实现了在实验室环境对云平台的虚拟,并提出了在搭建试验平台时应该注意的用户权限、路径配置和使用SSH服务程序等问题。该试验平台为系统中间件和应用服务的开发提供了基础。  相似文献   

7.
Hadoop是一套开放的云计算平台,使用Map Reduce处理数据的分割与合并,简单的设置就可使用云计算的强大功能.但随之而来的是个人数据在没有任何保护的情况下随时可能遭受攻击,因此云平台上的个人信息安全问题就显得格外重要.本研究提出了一种具备安全数据传输的Hadoop云平台规则来增加云数据分割与合并的安全度.实验结果证明,本安全方案确实提高了云平台数据传输的安全性.  相似文献   

8.
首先介绍了云计算的相关概念,其次阐述了当前教育资源库建设的现状以及存在的问题,进而提出基于Hadoop平台的教育资源库建设方案,最后详细介绍了其核心模块的实现过程.  相似文献   

9.
时空离群点挖掘作为空间数据挖掘中的一个重要分支,为了找到与时空邻居对象有显著差别的时空对象,他们的数量很少,非常容易被当做数据噪声而被忽略,然而挖掘时空离群点能够发现意想不到的有意义的时空模式。在对现有的时空离群点挖掘进行研究时,我们发现挖掘对象通常是海量空间数据,因此研究合适的并行算法弥补串行算法的效率不足势在必行。  相似文献   

10.
李绛绛 《科技信息》2014,(1):105-106
通过对云计算平台相关技术的分析研究,结合目前智能推荐系统的应用情况,采用Hadoop、Mahout、Sqoop以及Oozie等云计算相关技术构建一个海量数据智能推荐系统。与传统的数据存储处理相比,可以提高资源的利用率,降低成本,同时也保证了速度。  相似文献   

11.
The design and implementation of a scalable parallel mining system target for big graph analysis has proven to be challenging. In this study, we propose a parallel data mining system for analyzing big graph data generated on a Bulk Synchronous Parallel (BSP) computing model named BSP-based Parallel Graph Mining (BPGM). This system has four sets of parallel graph mining algorithms programmed in the BSP parallel model and a well-designed workflow engine optimized for cloud computing to invoke these algorithms. Experimental results show that the graph mining algorithm components in BPGM are efficient and have better performance than big cloud-based parallel data miner and BC-BSP.  相似文献   

12.
Hadoop平台下MapReduce模型的数据分配策略研究   总被引:1,自引:0,他引:1  
针对Hadoop开源云计算平台下MapReduce并行编程模型中间数据分配不均衡的问题,提出基于抽样的改进型MapReduce模型,即SMR(Sample MapReduce)模型.SMR模型采用MapReduce作业方式对各分块数据集进行并行抽样,基于抽样结果,利用LAB(leen and balance)均衡算法对Map端输出的中间数据进行均衡分配,以改善Reduce端处理数据负载不均衡问题.实验结果表明:改进型MapReduce模型可以有效减少作业运行时间,Reduce端输入数据达到负载均衡.  相似文献   

13.
基于Hadoop框架的分布式存储、并行计算以及数据仓库建模等技术,构建Kylin多维分析平台,实现油气田注入井生产数据的统一存储、计算、分析功能,解决多表联合查询效率低、多数据库之间存在数据孤岛等问题。实现16个分散数据库的快速查询和管理优化,查询分析效率提升3倍。该平台可统一管理8×10~4余口注入井生产数据,业务分析时间由原来的1 d缩短到现在的5 s,查询时间为秒级响应。通过建立注入井生产数据多维分析模型,在中国石油天然气集团公司实现了注入井宏观管理分析、问题井管理分析、注入井生产运行分析等应用。实现了系统的快速响应,满足了高效分析需求。注入井生产数据分析粒度由原来的油田细化到单井,业务分析更为细致,能够实时掌握油气生产动态。  相似文献   

14.
在海量数据的关联规则数据挖掘中,采用并行计算是非常必要的;针对当前的关联规则算法,运用并行算法的思想,结合云计算环境下的Hadoop架构,提出了Hadoop下的并行关联规则算法的设计,最后实验表明,该算法能处理节点失效,并且能实现节点负载均衡。  相似文献   

15.
随着商业银行计算机与信息技术、客户群体以及各类产品的不断发展,商业银行积累了海量的珍贵数据,这些数据所蕴藏的巨大价值也越来越被决策层重视起来。在深入分析商业银行数据应用现状及现有的信息管理系统中的基础数据平台系统存在问题的基础上,提出了可靠和高效率的2种商业银行数据分析系统模型,并对挖掘出来的数据如何进行使用及如何转化成效益进行了详细的研究,对商业银行的发展具有重要的现实意义。  相似文献   

16.
针对传统决策树SPRINT(Scalable Parallelizable Induction of Decision Trees)算法不能处理海量地学数据挖掘的问题, 设计实现了基于G4ICCS(Geology Geography Geochemistry Geophysics Information Cloud Computing System)的决策树并行分类算法PSPRINT。该算法使用哈希表存储连续属性分割点两侧的数据记录, 为并行节点的分割提供依据, 在MapReduce架构下解决了海量地学数据挖掘问题。实验结果表明, 在模拟的云计算环境下, 决策树并行算法可以处理海量地学数据分类问题, 并获得较好的稳定性和较高的处理速度。  相似文献   

17.
数据挖掘是用来发现数据库中隐含的各个数据之间的关系和特性,聚类分析是数据挖掘所要完成的工作之一.选取了三个并行聚类分析算法并研究了与之对应的并行算法,然后讨论了并行算法的性能,并得到了一些实验结果.最后提出了一个新的并行算法,相比较其它并行聚类算法,本文所提出的算法是最有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号