共查询到10条相似文献,搜索用时 26 毫秒
1.
基于单一节点的数据挖掘系统在处理海量数据集时存在计算瓶颈,针对该问题,提出了一种基于云计算技术的数据挖掘方法:将大数据集和挖掘任务分解到多台计算机上并行处理.在对经典Apriori算法MapReduce化后,建立了一个基于Hadoop开源框架的并行数据挖掘平台,并通过对餐饮系统中点菜单的数据挖掘工作验证了该系统的有效性.实验表明,在集群中使用云计算技术处理大数据集,可以明显提高数据挖掘的效率. 相似文献
2.
随着信息技术的发展,健康大数据呈指数级别剧增,但数据量过大使得较多有价值的数据被埋没,医疗服务的质量与效率难以提升。为解决上述问题,文中提出一种基于MapReduce的健康大数据并行挖掘算法。首先对健康大数据进行预处理,消除一些不利因素对数据的影响;再以预处理后的健康大数据为依据,获取初始簇中心,度量健康大数据与簇中心之间的距离,聚类处理健康大数据;最后,应用MapReduce制定健康大数据并行挖掘程序,执行制定程序即可完成健康大数据的并行挖掘。实验结果表明,所提算法的健康大数据挖掘效率最大值为94 GB/s,加速比最大值为4.5,相比于其他方法,该算法对健康大数据挖掘的性能更佳。 相似文献
3.
随着海量图像数据的增加,使得需要处理的数据规模越来越大,为了解决在处理海量数据信息时所面临的存取容量和处理速度的问题,在深入研究MapReduce大规模数据集分布式计算模型的基础之上,本文设计了基于MapReduce实现对数字图像并行化处理。实验结果表明:运行在Hadoop集群上的基于MapReduce并行化算法具有数据节点规模易扩展、处理速度快、安全性高、容易实现等特点,能够较好地满足海量数据图像的处理的要求。 相似文献
4.
5.
针对大数据环境下的并行推荐问题,提出一种面向云计算的大数据协同过滤并行推荐方法,基于云计算思想实现了协同过滤两个核心步骤基于用户-项目评分矩阵计算相似度、基于相似度评分预测的四次MapReduce化并行化推荐,最后进行了实验设计。 相似文献
6.
7.
《现代电子技术》2017,(10)
云计算环境下的多服务器多分区系统中存在海量数据,传统串行数据挖掘方法对这些数据进行挖掘的过程中,无法对海量数据进行并行处理,挖掘效率低。针对该问题,设计云计算环境下多服务器多分区数据挖掘系统,其包括基础设施即服务层、平台即服务层、软件即服务层,可实现大规模数据的高效挖掘。系统通过平台即服务层中的多服务器多分区数据处理模型,实现海量数据的分布式运算,并基于MapReduce机制实现K均值聚类数据挖掘算法的并行化,通过Map和Reduce函数实现多服务器多分区数据的并行挖掘。实验结果表明,所设计系统大幅度降低了云计算环境下多服务器多分区数据的挖掘时间,提高了数据的挖掘效率和稳定性。 相似文献
8.
在大规模新能源的新型电力系统中,由于云端电力数据存在结构复杂、数据量大及多维度的特点,因此不利于发挥数据对运行的指导作用,甚至有可能危害电力系统的安全、稳定运行。针对上述问题,文中提出了一种基于MapReduce的电网数据分析方法。其将云计算应用于新型电力系统,并构建了基于MapReduce云计算模型的并行化处理算法,进而提升了系统的响应速度。通过将该方法应用于电网的数据处理结果表明,所提方法可以有效地提高电网运行数据处理的准确性和工作效率。在海量数据的工况下,其处理效率约为30 min,且随着数据量的增加仍可保持稳定性与准确性,实现了网格化的并行分析。 相似文献
9.
Apriori算法是一种经典的数据关联规则挖掘算法,本文借力云计算环境,根据MapReduce模型并行运行实现的特点,对Apriori算法进行优化,并行化改进后的MR-Apriori算法大大降低了时间消耗,其较强的扩展能力能更好地运用于大规模数据分析、处理和挖掘的需要. 相似文献