首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
《无线电工程》2017,(3):8-11
随着云计算时代的到来,云计算为海量数据的挖掘分析提供了一种新的技术途径,能够有效地解决传统数据挖掘方法不能适应海量数据挖掘的问题。介绍了云计算的含义和特点,分析了运用云计算技术实现数据挖掘的优势,设计了基于MapReduce并行处理架构的关联规律挖掘算法,并开展了试验验证。试验结果表明,基于云计算平台的并行关联规律挖掘算法能够极大地提高数据挖掘的执行速度。  相似文献   

2.
基于快速发展的并行数据库技术、云计算MapReduce技术及其混合技术,分析了这些技术的优缺点,对并行计算架构、分布式存储系统之上的索引以及其他方面进行了研究,提出了一种被称为数据立方的大数据处理系统。通过与大数据处理系统Hive和HadoopDB的对比实验表明,数据立方的大数据处理系统在入库、查询、并发、扩展等多方面有明显的优势。  相似文献   

3.
针对大数据环境下的并行推荐问题,提出一种面向云计算的大数据协同过滤并行推荐方法,基于云计算思想实现了协同过滤两个核心步骤基于用户-项目评分矩阵计算相似度、基于相似度评分预测的四次MapReduce化并行化推荐,最后进行了实验设计。  相似文献   

4.
云计算环境下的多服务器多分区系统中存在海量数据,传统串行数据挖掘方法对这些数据进行挖掘的过程中,无法对海量数据进行并行处理,挖掘效率低。针对该问题,设计云计算环境下多服务器多分区数据挖掘系统,其包括基础设施即服务层、平台即服务层、软件即服务层,可实现大规模数据的高效挖掘。系统通过平台即服务层中的多服务器多分区数据处理模型,实现海量数据的分布式运算,并基于MapReduce机制实现K均值聚类数据挖掘算法的并行化,通过Map和Reduce函数实现多服务器多分区数据的并行挖掘。实验结果表明,所设计系统大幅度降低了云计算环境下多服务器多分区数据的挖掘时间,提高了数据的挖掘效率和稳定性。  相似文献   

5.
从云计算和互联网发展关系的角度出发,借鉴传统数据管理技术的理念和优势,以实现研究、设计和开发新的基于云计算的数据管理技术的目的。通过对云计算的服务器虚拟技术、数据分布存储技术、海量数据管理技术和分布式并行编程模型4个关键技术的剖析,结合云计算对数据管理的特殊需求,详细阐述了GFS、MapReduce和BigTable 3种数据管理技术的功能、特点和管理数据的过程。证明云计算数据管理技术基础理论建设与完善是传统数据管理技术向云计算管理方式的改造与迁移。  相似文献   

6.
基于单一节点的数据挖掘系统在处理海量数据集时存在计算瓶颈,针对该问题,提出了一种基于云计算技术的数据挖掘方法:将大数据集和挖掘任务分解到多台计算机上并行处理.在对经典Apriori算法MapReduce化后,建立了一个基于Hadoop开源框架的并行数据挖掘平台,并通过对餐饮系统中点菜单的数据挖掘工作验证了该系统的有效性.实验表明,在集群中使用云计算技术处理大数据集,可以明显提高数据挖掘的效率.  相似文献   

7.
Apriori算法是一种经典的数据关联规则挖掘算法,本文借力云计算环境,根据MapReduce模型并行运行实现的特点,对Apriori算法进行优化,并行化改进后的MR-Apriori算法大大降低了时间消耗,其较强的扩展能力能更好地运用于大规模数据分析、处理和挖掘的需要.  相似文献   

8.
云计算后台大规模数据处理技术探讨   总被引:4,自引:0,他引:4  
云计算的后台处理技术是云计算系统的总体保障。本文主要介绍当前云计算中的后台大规模数据处理技术。大规模数据处理技术对于云计算的后台数据收集与整理起着关键的作用。在云计算中的大规模数据处理技术主要解决三个问题,即可靠性,可扩展性以及易编程性。本文结合Google的MapReduce编程方式,以及微软的Dryad编程方式,着重介绍在实践中,如何达到上述的目标。  相似文献   

9.
MapReduce是由并行编程模型及相关支撑系统组成的数据处理框架,通过定义接口和运行时支持库,通过定义良好的接口和运行时支持库,能够自动并行执行大规模计算任务,通过隐藏底层实现细节,降低实现并行编程的难度,Hadoop是目前MapReduce框架最流行的开源实现.文章首先介绍了MapReduce并行编程模型及其hadoop的运行原理、运行机制,深入研究了MapReduce计算任务在Hadoop系统中的运行过程.  相似文献   

10.
越来越多的MapReduce计算由运行在云中虚拟机组成的虚拟集群完成,为增强虚拟MapReduce集群计算中任务的数据本地性,充分利用云计算的资源可动态配置的优势,提出了一种基于队列的动态资源调度算法,并模拟了云计算平台进行测试,实验结果表明动态资源调度算法提高了虚拟MapReduce集群的计算性能.  相似文献   

11.
近年来,云计算在IT行业掀起了新一轮技术革新浪潮。云计算是一种新兴的计算模型,它是并行计算、分布式计算、网格计算的综合发展,以简单、透明服务的形式提供无限制的计算资源。Hadoop实现的开源云平台提供了并行计算模型MapReduce、分布式文件系统HDFS和分布式数据库HBase等。随着数字图像数据量不断增长,单机模式的图像处理已逐渐不能满足用户需求。文中提出了利用Hadoop云平台实现海量图像的并行  相似文献   

12.
综合分析了数据流分类算法以及云计算的基本理论,提出了基于Hadoop框架的数据流系综分类算法,算法采用MapReduce并行编程模型对传统基于动态权重系综模型进行改进,以提升算法的分类效率.分析结果表明,该算法在处理快速海量到达的数据流时,其执行效率远高于传统系综算法.  相似文献   

13.
在对PageRank算法进行研究的基础上,利用MapReduce编程模型思想对PageRank算法进行改进,设计了在云平台Hadoop环境下运行的基于MapReduce的PageRank分布式并行算法,并在实验中对不同规模的Web图数据集进行了测试,分析不同的Blocksize参数对于算法计算性能的作用以及集群节点数目对于算法运行效率的影响.  相似文献   

14.
由于计算机内存资源限制,分类器组合的有效性及最优性选择是机器学习领域的主要研究内容。经典的集成分类算法在处理小数据集时,拥有较高的分类准确性,但面对大量数据时,由于多基分类器学习、分类共用1台计算机资源,导致运算效率较低,这显然不适合处理当今的海量数据。针对已有集成分类算法只适合作用于小规模数据集的缺点,剖析了集成分类器的特性,采用基于聚合方式的集成分类器和云计算的MapReduce技术设计了并行集成分类算法(EMapReduce),达到并行处理大规模数据的目的。并在Amazon计算集群上模拟实验,实验结果表明该算法具有一定的高效性和可行性。  相似文献   

15.
互联网的发展使得计算密集型的任务正在逐渐走向分布式和云计算。文中对Hadoop项目中的MapReduce和HDFS进行了研究,采用HDFS作为底层分布式文件系统,MapReduce作为编程框架来实现哈希算法。通过对多个节点中的测试结果的分析表明,在Hadoop上运行哈希函数的任务,能够起到在多台计算机的群集中分摊负载的效果,并且有效地减少了任务的总时间开销。以Hadoop为基础的云计算平台具有良好的可靠性和可扩展性,对于哈希算法在Hadoop平台上的实现和测试,为将来密钥恢复等系统的研究和搭建提供了良好的基础。  相似文献   

16.
基于云计算的下一代数据中心设计   总被引:3,自引:1,他引:2  
项力  吴学智  王斌 《通信技术》2012,45(6):107-109,112
云计算是当前发展迅速的IT技术之一,它是在计算机互联网、网格计算、并行计算基础上发展起来的综合网络服务业务。传统数据中心存在着资源利用率低、设备数量多、占地面积大等缺陷,将云计算运用到传统数据中心中,使IT资源虚拟化,可以解决目前数据中心存在的这些问题。这里首先详细介绍了云计算的概念、分类、架构,然后提出了一种数据中心的分层设计方案,最后概括了下一代数据中心的优点。  相似文献   

17.
网格计算及分布式计算、并行计算发展到一定阶段后衍生出了云计算。云计算是上述计算方法的商业实现。云计算是一种新型的计算模型,其基础体系结构属于云计算的技术层次,主要说明系统属性和设计思想;云计算的服务集合源于服务类型,说明能带给客户什么。云计算的核心技术有数据存储技术、数据管理技术、编程模型和云安全。云计算的应用范围和领域也十分广泛。  相似文献   

18.
针对传统的Apriori算法在执行过程中存在着需要扫描多次数据库,执行效率低和需要大量的内存来存储候选项集的缺点,有人已经提出了引入索引结构的Apriori改进算法,但是该算法还是传统的Apriori算法都不适合应用到云计算平台。因此,在本文中我们提出了将引入索引结构的Apriori算法的设计思想应用到Apriori算法MapReduce并行化改进的过程中。该算法的核心思想:将数据进行MapReduce并行化分块,并在每个分块中采用索引的执行模式。该算法结合了索引结构的优点和算法并行化的优点,不仅大大提高了算法的执行速度,而且实现了在云环境下的应用。  相似文献   

19.
魏莎莎  陆慧娟  金伟  李超 《电信科学》2013,29(10):38-42
随着大规模基因芯片的应用,针对高维度的基因表达数据存在大量无关和冗余特征可能降低分类器性能的问题,提出了一种基于云平台的互信息最大化特征提取(CMI-Selection)方法。Hadoop云计算平台对基因表达数据划分后进行并行计算,同时结合互信息最大化方法对特征进行提取,实现了云计算平台上的特征过滤模型。实验结果表明,基于云平台的互信息最大化特征提取方法能够在保证较高分类精度的情况下,快速提取特征,节省大量时间资源,是一种高效的基因特征提取系统。  相似文献   

20.
分布式处理、并行处理和网格计算的发展推动了计算机产业的发展,云计算运动随之产生。介绍了云计算服务类型,云计算和网格计算的相似与不同,同时探讨了云计算优于网格计算的地方,两者面临的共同问题以及一些安全方面的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号