首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 26 毫秒
1.
基于单一节点的数据挖掘系统在处理海量数据集时存在计算瓶颈,针对该问题,提出了一种基于云计算技术的数据挖掘方法:将大数据集和挖掘任务分解到多台计算机上并行处理.在对经典Apriori算法MapReduce化后,建立了一个基于Hadoop开源框架的并行数据挖掘平台,并通过对餐饮系统中点菜单的数据挖掘工作验证了该系统的有效性.实验表明,在集群中使用云计算技术处理大数据集,可以明显提高数据挖掘的效率.  相似文献   

2.
随着信息技术的发展,健康大数据呈指数级别剧增,但数据量过大使得较多有价值的数据被埋没,医疗服务的质量与效率难以提升。为解决上述问题,文中提出一种基于MapReduce的健康大数据并行挖掘算法。首先对健康大数据进行预处理,消除一些不利因素对数据的影响;再以预处理后的健康大数据为依据,获取初始簇中心,度量健康大数据与簇中心之间的距离,聚类处理健康大数据;最后,应用MapReduce制定健康大数据并行挖掘程序,执行制定程序即可完成健康大数据的并行挖掘。实验结果表明,所提算法的健康大数据挖掘效率最大值为94 GB/s,加速比最大值为4.5,相比于其他方法,该算法对健康大数据挖掘的性能更佳。  相似文献   

3.
随着海量图像数据的增加,使得需要处理的数据规模越来越大,为了解决在处理海量数据信息时所面临的存取容量和处理速度的问题,在深入研究MapReduce大规模数据集分布式计算模型的基础之上,本文设计了基于MapReduce实现对数字图像并行化处理。实验结果表明:运行在Hadoop集群上的基于MapReduce并行化算法具有数据节点规模易扩展、处理速度快、安全性高、容易实现等特点,能够较好地满足海量数据图像的处理的要求。  相似文献   

4.
分析大数据对数据库技术发展的影响,对比并行数据库和MapReduce的优劣,在此基础上指出适合大数据存储处理的三种数据库结合方案:并行数据库占主导地位、MapReduce占主导地位以及并行数据库与MapReduce集成。简述大数据处理关键技术,最后构建基于Hadoop的电信业务大数据处理平台,该平台通用性强,便于用户进行二次开发。  相似文献   

5.
针对大数据环境下的并行推荐问题,提出一种面向云计算的大数据协同过滤并行推荐方法,基于云计算思想实现了协同过滤两个核心步骤基于用户-项目评分矩阵计算相似度、基于相似度评分预测的四次MapReduce化并行化推荐,最后进行了实验设计。  相似文献   

6.
吴斌  刘心光 《电信科学》2013,29(12):1-8
介绍了并行ETL 的相关工作和常见的处理多MapReduce 作业流程的方法;提出一种改进的链式MapReduce 框架,并将此框架应用于一个并行ETL 工具,同时提出一些针对ETL 处理的流程级优化规则,使ETL流程产生更少的MapReduce作业,从而减少I/O以及网络传输的消耗;利用某省份手机上网数据与Hive进行了大数据对比实验,结果表明,本ETL工具的性能平均比Hive快10%~20%。  相似文献   

7.
云计算环境下的多服务器多分区系统中存在海量数据,传统串行数据挖掘方法对这些数据进行挖掘的过程中,无法对海量数据进行并行处理,挖掘效率低。针对该问题,设计云计算环境下多服务器多分区数据挖掘系统,其包括基础设施即服务层、平台即服务层、软件即服务层,可实现大规模数据的高效挖掘。系统通过平台即服务层中的多服务器多分区数据处理模型,实现海量数据的分布式运算,并基于MapReduce机制实现K均值聚类数据挖掘算法的并行化,通过Map和Reduce函数实现多服务器多分区数据的并行挖掘。实验结果表明,所设计系统大幅度降低了云计算环境下多服务器多分区数据的挖掘时间,提高了数据的挖掘效率和稳定性。  相似文献   

8.
在大规模新能源的新型电力系统中,由于云端电力数据存在结构复杂、数据量大及多维度的特点,因此不利于发挥数据对运行的指导作用,甚至有可能危害电力系统的安全、稳定运行。针对上述问题,文中提出了一种基于MapReduce的电网数据分析方法。其将云计算应用于新型电力系统,并构建了基于MapReduce云计算模型的并行化处理算法,进而提升了系统的响应速度。通过将该方法应用于电网的数据处理结果表明,所提方法可以有效地提高电网运行数据处理的准确性和工作效率。在海量数据的工况下,其处理效率约为30 min,且随着数据量的增加仍可保持稳定性与准确性,实现了网格化的并行分析。  相似文献   

9.
Apriori算法是一种经典的数据关联规则挖掘算法,本文借力云计算环境,根据MapReduce模型并行运行实现的特点,对Apriori算法进行优化,并行化改进后的MR-Apriori算法大大降低了时间消耗,其较强的扩展能力能更好地运用于大规模数据分析、处理和挖掘的需要.  相似文献   

10.
基于Hadoop架构,提出一种并行的决策树挖掘算法实现大数据集间的知识挖掘。通过MapReduce并行编程模式实现Hadoop架构下SPRINT并行挖掘算法的频繁项集,解决了大数据集挖掘效率低下,时间消耗量大的问题。SPRINT算法通过对原始数据集进行划分,并将分块数据发给不同Map进程并行计算,使系统存储和计算资源得到有效利用,运用MapReduce各计算节点将挖掘结果数据汇聚,减少中间结果数据量,使并行挖掘时间显著减少。SPRINT算法并行化实验表明,Hadoop架构下的SPRINT并行挖掘算法具有良好的可扩展性和集群加速比。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号