首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
本文分析了当前网络考试系统数据挖掘现状,介绍了云计算和数据挖掘的相关概念,指出传统数据挖掘技术在当今考试系统海量数据情况下挖掘时系统响应速度慢,负载不均衡和节点效率低的不足,设计了基于Map/Reduce并行编程模型的Apriori算法,利用云计算环境下计算资源来支持该算法的并行执行,通过实例说明云计算化后的Apriori算法在对海量考试数据进行挖掘时能获得更高的挖掘效率。  相似文献   

2.
基于Hadoop的句群相似度计算   总被引:2,自引:1,他引:1  
介绍了Hadoop开源框架、Map/Reduce编程模型以及语句相似度计算原理,利用Hadoop框架下的Map/Reduce编程模型实现了句群相似度并行计算方法。通过实验验证了该算法的稳定性和处理大量数据的可行性。  相似文献   

3.
李玲娟  张敏 《微机发展》2011,(2):43-46,50
云计算为存储和分析海量数据提供了廉价高效的解决方案,云计算环境下的数据挖掘算法的研究具有重要的理论意义和应用价值。针对云计算环境下的关联规则挖掘算法展开研究,介绍了云计算的概念、Hadoop框架平台、MapReduce编程模型和传统的Apriori算法;在此基础上,以实现云计算环境下的并行化数据挖掘为目的,对Apriori算法进行了改进,给出了改进的算法在Hadoop中的MapReduce编程模型上的执行流程;通过一个简单的频繁项集挖掘实例展示了改进的算法的执行效率及实用性。  相似文献   

4.
云计算环境下关联规则挖掘算法的研究   总被引:2,自引:0,他引:2  
云计算为存储和分析海量数据提供了廉价高效的解决方案,云计算环境下的数据挖掘算法的研究具有重要的理论意义和应用价值.针对云计算环境下的关联规则挖掘算法展开研究,介绍了云计算的概念、Hadoop框架平台、MapRe-duce编程模型和传统的Apriori算法;在此基础上,以实现云计算环境下的并行化数据挖掘为目的,对Apriori算法进行了改进,给出了改进的算法在Hadoop中的MapReduce编程模型上的执行流程;通过一个简单的频繁项集挖掘实例展示了改进的算法的执行效率及实用性.  相似文献   

5.
随着我国经济的不断发展,我国逐渐进入信息时代,信息时代的到来极大的为人们提供便捷的生活服务,为了跟随时代的步伐Map Reduce的数据技术应运而生,Map Reduce是Map(映射)与Reduce(化简)的相结合,最初这些都只是简单的函数式编程语言,后来被应用在高科技的编程模式中,Map Reduce具有一定的矢量编程语言特征,这些高科技的编程模式阻碍着编写人员对分散的程序进行重写编写,本文针对Map Reduce数据挖掘平台的弊端来分析,研究Map Reduce的数据挖掘平台的特征,最后对Map Reduce的数据挖掘平台进行全方位的探究。  相似文献   

6.
随着大数据时代的到来,如今人们已经淹没在海量的信息当中。云计算技术的出现,为解决在海量数据中高效地挖掘出有价值的信息问题提供了新的思路。利用云计算的分布式处理和虚拟化技术的优势,提出一种基于Map/Reduce编程模型与编码操作相结合的分布式关联规则挖掘算法——MCM-Apriori算法;设计并实现一个基于Hadoop云平台的网上图书销售系统。为进一步验证该系统的高效性,在该系统中利用MCM-Apriori算法进行图书推荐服务的应用。实验对比结果表明,该系统实现了快速分析与查询、可靠存储的功能,可以明显提高关联规则挖掘效率。  相似文献   

7.
大数据时代的到来,使许多云环境下的新型应用蓬勃发展。针对大数据管理的新需求,key-value型数据存储系统成为当今研究的热点。基于key-value引擎的内存数据库Redis以及Cuckoo Hash技术,提出一种混合哈希快速查找算法CSR_Hash。通过对实验结果的分析,表明该算法有效地缩短了查询响应时间,并将其应用在通过Hadoop云平台以及Map/Reduce编程模型实现的图书销售系统中,对图书数据进行实时高效的解析与推荐,增强了No SQL数据库与Map/Reduce结合的实时性和高并发性。  相似文献   

8.
针对当前朴素贝叶斯文本分类算法在处理文本分类时存在的数据稀疏、分类不准及效率低的问题,提出一种基于Map Reduce的Dirichlet朴素贝叶斯文本分类算法。算法首先根据体征词语义因素以及类内分布情况对权重进行加权调整,以此对的计算公式进行修正;引入统计语言建模技术中的Dirichlet数据平滑方法来降低数据稀疏对分类性能的影响,并在Hadoop云计算平台采用Map Reduce编程模型实现本文算法的并行化。通过测试实验对比分析可知,该算法显著提高了传统朴素贝叶斯文本分类算法的准确率、召回率,并具有优良的可扩展性和数据处理能力。  相似文献   

9.
本文介绍了Hadoop平台下Map Reduce的并行编程框架,分析了传统Kmeans聚类算法的优缺点,提出基于Canopy的Canopy-Kmeans聚类算法。使用Canopy聚类先对数据进行"粗"聚类,以优化Kmeans聚类算法初始聚类中心的选取。选用Map Reduce并行编程方法。实验表明该方法相对于传统Kmeans聚类算法有着更高的计算效率。  相似文献   

10.
本文首先介绍云计算与Map/Reduce、基于多Agent工作流的供应链管理的主要特征,从而分析了将两者结合的必要性,给出了基于云平台的供应链软件总体功能模型,并结合Map/Reduce并行编程框架与Agent工作流过程管理提出了一种基于并行处理的VMI库存管理软件系统架构。  相似文献   

11.
FP—Growth算法MapReduce化研究   总被引:1,自引:0,他引:1  
随着云计算概念的盛行,以及数据挖掘技术在分布式环境下的应用问题,该文献针对当前业界中流行的大规模并行计算模型MapReduce,将其引入数据挖掘领域关联规则算法的并行化改进中,提出基于FP-Growth算法并行化改进的MR—FP算法,为并行化关联规则挖掘提供节点可扩展、可容错、故障可恢复的运行保证。并通过案例分析得出系统在事务数呈数量级级别增长下仍可保持较高的性能。通过理论分析和案例实验表明,数据挖掘理论和方法在云计算环境下可以充分发挥能力,具有广阔的、有价值的研究空间。  相似文献   

12.
云计算以其强大的存储和计算能力而成为解决海量数据挖掘问题的有效途径。经典的关联规则增量更新算法FUP需要频繁扫描原数据集,不适用于海量数据的处理。文中以提高海量数据上关联规则增量更新效率为目标,将FUP算法与云计算的MapReduce编程模式相结合,提出了一种基于MapReduce的关联规则增量更新算法MRFUP。该算法只需扫描原数据集一次,并能充分利用云计算强大的存储和并行计算能力。基于Hadoop的实验结果表明,MRFUP算法可提高对海量数据的处理能力和效率,适用于海量数据的关联规则挖掘。  相似文献   

13.
关联规则挖掘是数据挖掘的一项重要技术,它主要是通过频繁项集挖掘得到关联规则。基于云计算的MapReduce模型的数据挖掘算法可以提高挖掘的效果及性能。  相似文献   

14.
Scalability is a primary issue in existing sequential pattern mining algorithms for dealing with a large amount of data. Previous work, namely sequential pattern mining on the cloud (SPAMC), has already addressed the scalability problem. It supports the MapReduce cloud computing architecture for mining frequent sequential patterns on large datasets. However, this existing algorithm does not address the iterative mining problem, which is the problem that reloading data incur additional costs. Furthermore, it did not study the load balancing problem. To remedy these problems, we devised a powerful sequential pattern mining algorithm, the sequential pattern mining in the cloud-uniform distributed lexical sequence tree algorithm (SPAMC-UDLT), exploiting MapReduce and streaming processes. SPAMC-UDLT dramatically improves overall performance without launching multiple MapReduce rounds and provides perfect load balancing across machines in the cloud. The results show that SPAMC-UDLT can significantly reduce execution time, achieves extremely high scalability, and provides much better load balancing than existing algorithms in the cloud.  相似文献   

15.
大数据、云计算技术的迅猛发展为挖掘气象数据丰富的科研和经济价值提供了技术支撑,促进了Hadoop及其包含的文件存储系统(HDFS,Hadoop Distributed File System)和分布式计算模型在气象数据处理领域广泛应用。由于气象数据具有大数据的4V特征,还需要引入新的数据处理算法来提高气象数据处理效率。通过对决策树算法原理的研究,基于Hadoop云平台,创建随机森林模型,为数据挖掘算法在云平台上的应用提供一种新的可能性。基于决策树(CART,Classification And Regression Trees)挖掘算法的气象大数据云平台设计,采用Hadoop系统架构和MapReduce工作流程,对气象大数据云平台采用集群部署。平台总体架构分为基础设施层、数据管理与处理层、应用层,减少了决策树建立的时间,实现了气象数据高效加工和挖掘分析等平台功能。  相似文献   

16.
FrequentItemsetMining (FIM) is one of the most important data mining tasks and is the foundation of many data mining tasks. In Big Data era, centralized FIM algorithms cannot meet the needs of FIM for big data in terms of time and space, so Distributed Frequent Itemset Mining (DFIM) algorithms have been designed to meet the above challenges. In this paper, LocalGlobal and RedistributionMining which are two main paradigms of DFIM algorithm are discussed; Two algorithms of these paradigms on MapReduce named LG and RM are proposed while MapReduce is a popular distributed computing model, and also the related work is discussed. The experimental results show that the RM algorithm has better performance in terms of computation and scalability of sites, and can be used as the basis for designing the DFIM algorithm based on MapReduce. This paper also discusses the main ideas of improving the DFIM algorithms based on MapReduce.  相似文献   

17.
由于互联网技术急速发展及其用户迅速地增加,很多网络服务公司每天不得不处理TB级甚至更大规模的数据量。在如今的大数据时代,如何挖掘有用的信息正变成一个重要的问题。关于数据挖掘(Data Mining)的算法在很多领域中已经被广泛运用,挖掘频繁项集是数据挖掘中最常见且最主要的应用之一,Apriori则是从一个大的数据集中挖掘出频繁项集的最为典型的算法。然而,当数据集比较大或使用单一主机时,内存将会被快速消耗,计算时间也将急剧增加,使得算法性能较低,基于MapReduce的分布式和并行计算则被提出。文中提出了一种改进的MMRA (Matrix MapReduce Algorithm)算法,它通过将分块数据转换成矩阵来挖掘所有的频繁k项集;然后将提出的算法和目前已经存在的两种算法(one-phase算法、k-phase算法)进行比较。采用Hadoop-MapReduce作为实验平台,并行和分布式计算为处理大数据集提供了一个潜在的解决方案。实验结果表明,改进算法的性能优于其他两种算法。  相似文献   

18.
根据MapReduce模型并行运行实现的特点,针对可扩展性差的传统Apriori的特点和传统Apriori算法,采用了"云"强大的廉价计算处理方式和关联规则挖掘算法,改进提高Apriori算法的运算效率。通过改进在云计算环境下MapReduce编程框架,并且结合验证MR-Apriori算法的实验为基础,这对传统意义上的Apriori算法在数据挖掘过程中所出现的客观问题进行处理,从而真正意义上的完成了本文研究的基于MapReduce并行的Apriori算法的扩展性提升的目标,并且表明了元计算技术结合关联规则挖掘算法的可能性。  相似文献   

19.
廖彬  张陶  国冰磊  于炯  张旭光  刘炎 《计算机应用》2017,37(7):1900-1905
MapReduce计算场景下,复杂的大数据挖掘类算法通常需要多个MapReduce作业协作完成,但多个作业之间严重的冗余磁盘读写及重复的资源申请操作,使得算法的性能严重降低。为提高ItemBased推荐算法的计算效率,首先对MapReduce平台下ItemBased协同过滤算法存在的性能问题进行了分析;在此基础上利用Spark迭代计算及内存计算上的优势提高算法的执行效率,并实现了基于Spark平台的ItemBased推荐算法。实验结果表明:当集群节点规模分别为10与20时,算法在Spark中的运行时间分别只有MapReduce中的25.6%及30.8%,Spark平台下的算法相比MapReduce平台,执行效率整体提高3倍以上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号